Парсер Datacol

APSALIM

Постоялец
Регистрация
28 Фев 2013
Сообщения
131
Реакции
95
Datacol - парсер для любых сайтов
Скрытое содержимое доступно для зарегистрированных пользователей!


Связанные темы:
Скрытое содержимое доступно для зарегистрированных пользователей!

Скрытое содержимое доступно для зарегистрированных пользователей!
 
Кинул в профиль. Посмотрите что можно сделать, чтобы он все категории парсил. Ну или хотя бы категории по очереди можно было менять.
При парсинге шел конфликт относительных ссылок, и их структура дублировалась, поэтому ты парсил не существующие страницы категорий и соответственно там нет товаров.
Исправленный проект в личке смотри
 
П
Огромное спасибо. А не подскажете, как при этом забрать те картинки, которые в миниатюрах под основной? (типа слайды в галерее)
Для просмотра ссылки Войди или Зарегистрируйся
о идее //td[@class="pimages"] это для парсинга всех изображений, большого и маленьких снизу, нажми сохранять теги и в заменах маленькие изображения сделай большими и удали лишнее. Если не получиться скинь компанию
 
Друзья, а нет ли у кого настройки datacol для парсинга yell.ru
 
Ни у кого не было что парсер проходит не по всем нужным ссылкам? Даю ему диапазон страниц по ID, например от 0 до 10..., в итоге из этих 10 может спарсить только 5-7 страниц, хотя по коду и остальные 3-5 страниц идентичны спарсенным.
PS версия 5.54 Cracked by ..::CyberGod::.. (с какого источника качал уже не помню точно, и парсил большее количество информации, думал что всё хорошо, а оказывается что-то не то. Или может у кого есть версия 100% рабочая нуленная?
 
Ни у кого не было что парсер проходит не по всем нужным ссылкам? Даю ему диапазон страниц по ID, например от 0 до 10..., в итоге из этих 10 может спарсить только 5-7 страниц, хотя по коду и остальные 3-5 страниц идентичны спарсенным.
PS версия 5.54 Cracked by ..::CyberGod::.. (с какого источника качал уже не помню точно, и парсил большее количество информации, думал что всё хорошо, а оказывается что-то не то. Или может у кого есть версия 100% рабочая нуленная?
Посмотрите логи, в чем проблема обычно кроется там, либо "ошибка загрузки страницы" и надо колдовать с кол-вом потоков и таймаутом между обработки n-страниц, либо "на странице не найдены области", тогда смотрите ссылку что за страница и ройте в сторону более корректных настроек регулярок (или xpath в зависимости что у вас).
 
Посмотрите логи, в чем проблема обычно кроется там, либо "ошибка загрузки страницы" и надо колдовать с кол-вом потоков и таймаутом между обработки n-страниц, либо "на странице не найдены области", тогда смотрите ссылку что за страница и ройте в сторону более корректных настроек регулярок (или xpath в зависимости что у вас).
действительно после получаса перебора разных вариантов один рабочий оказался, хотя все данные что через регулярку что через xpath на странице повторяются только раз, и по сути выцепить эти данные прога должна без проблем, но что то где-то глючит.

Кстати, напарсил фришных проксей, проверял их для конкретного сайта, а когда ставлю их в парсер - парсинг не работает, и из 10-100 нужных страниц может записать данные только одной случайной страницы... Тут уже явная проблема с проксями или тоже в настройках ещё что то может где-то быть? :dead::at:
 
Друзья, приветствую!

Может кто парсил это чудо уже Для просмотра ссылки Войди или Зарегистрируйся ?
Подскажите как?
Я что то голову сломал уже.................


p.s.
"5.54 Cracked by ..::CyberGod::.." - нормальная рабочая версия... по крайней мере у меня всё ОК с несколькими магазинами на ура работала!)
 
5.54 Cracked by ..::CyberGod:: - с гугла у меня парсится сайты, а вот не сохраняются.
 
Назад
Сверху