Парсер Datacol

APSALIM

Постоялец
Регистрация
28 Фев 2013
Сообщения
131
Реакции
95
Datacol - парсер для любых сайтов
Скрытое содержимое доступно для зарегистрированных пользователей!


Связанные темы:
Скрытое содержимое доступно для зарегистрированных пользователей!

Скрытое содержимое доступно для зарегистрированных пользователей!
 
Стрелки не надо было копировать.
Поправил, вроде парсит. Поправьте пути до папок экспорта, глубину прохода по сайту, ну и свой метод экспорта.
расширение txt переименовать в par.
Получилось стянуть картинку 300х300 в папку. Большие картинки не тянет, тянет ссылки на них.
Лишние столбцы можно удалить, если не нужны.
Спасибо за помощь, все работает!
 
Салют!
Подходит ли сабж (5-ая версия) для следующей ситуации?
- есть несколько сайтов на которых предоставлена куча текстовой информации. Это всевозможные законы, указы с пунктами, подпунктами, главами и другой лабудой
- семантически сегменты плохо разделены, нет чёткого разделения по атрибутам. Т.е. пункты или подпункты в узлах никак не описаны классами или id

Задача правильно сегментировать весь текст, разделить его на логические составляющие (с минимальным ручным редактированием) для дальнейшего перевода в свою БД

Собственно, возможно ли это? Если ответ положительный, какие параметры изучить в программе для начала?
Подходит, но есть много НО. Если нет разметки то нужны хотябы какето постоянные значения, например заголовки. Все это вытаскивать через регуляные выражения
 
Как в datacol 5 версии парсить изображения по названию товара?
 
Каким образом не подскажите? Пробую по аналогии с 7й версией. 7я парсит и сохраняет картинки и xsl файл, а 5я сохраняет лишь пустой xls файл и ни одной картинки
 
Так вы сравнили. В 7й версии функционал намного больше и с парсингом справляется лучше.
Принцим одинаков в серсияй, но в 7й это проще.
 
Столкнулся с проблемой написания Xpath-выражения в категориях Для просмотра ссылки Войди или Зарегистрируйся. Подскажите пожалуйста как парсить только изображение, без описания категории. Там описание идёт в теге <img> и парсится только описание без изображения.
да, и чтоб изображения сохранялись не с исходными названиями, а заданными
 
Последнее редактирование:
Столкнулся с проблемой написания Xpath-выражения в категориях Для просмотра ссылки Войди или Зарегистрируйся. Подскажите пожалуйста как парсить только изображение, без описания категории. Там описание идёт в теге <img> и парсится только описание без изображения.
да, и чтоб изображения сохранялись не с исходными названиями, а заданными
Вы хоть пример приведите что использовали. Текст не может быть в теге img так как он не закрывается. Значит вы парсите блок выше.
Там скорее всего проблема в том что в названии есть пробелы
 
Вы хоть пример приведите что использовали. Текст не может быть в теге img так как он не закрывается. Значит вы парсите блок выше.
Там скорее всего проблема в том что в названии есть пробелы
Так вот же Для просмотра ссылки Войди или Зарегистрируйся пример, в прошлом посте выкладывал.
Про тег img и правда, что-то я запамятовал, но как взять изображение всё равно не понимаю
 
Вы так и не написали какой xpath использовали. Попробуйте этот
//div[@class='white-box']/div/div/img
 
Назад
Сверху