Парсер Datacol

APSALIM

Постоялец
Регистрация
28 Фев 2013
Сообщения
131
Реакции
95
Datacol - парсер для любых сайтов
Скрытое содержимое доступно для зарегистрированных пользователей!


Связанные темы:
Скрытое содержимое доступно для зарегистрированных пользователей!

Скрытое содержимое доступно для зарегистрированных пользователей!
 
Добрый день. Прошу знающих помочь.
Делаю парсер сайта Для просмотра ссылки Войди или Зарегистрируйся
Не могу справиться со сбором ссылок.
X-path подобран верно, но в ссылках, которые он собирает идет задвоение данных
Например,
Для просмотра ссылки Войди или Зарегистрируйся
подобран X-path //div[@class="item"]/a
в итоге в ссылках появляется 2 раза katalog/
Для просмотра ссылки Войди или Зарегистрируйсяkatalog/katalog/ukrasheniya-iz-stekla/rossiya
что является ошибкой. Должна быть ссылка такой
Для просмотра ссылки Войди или Зарегистрируйся
Можно конечно же поставить Regex замены katalog/ но работает только для сбора с этой страницы. При переходе программы на подстраницу
Для просмотра ссылки Войди или Зарегистрируйся и сборе ссылок с нее задваивается уже
Для просмотра ссылки Войди или Зарегистрируйсяkatalog/ukrasheniya-iz-stekla/katalog/ukrasheniya-iz-stekla/rossiya/nabory-ukrashenii
То есть Regex замены должен быть уже такой katalog/ukrasheniya-iz-stekla/
И так на всех подстраницах, данные в адресе конечно же у каждой подстраницы свои.
Какой Regex замены мне поставить, чтобы убирались дубли из адреса?
Я же замучилась с этим вопросом. Каталог надо срочно сделать, а он не поддается.
Подозреваю, что это сайт так настроен. Но должно же быть решение проблемы.





 
Добрый день. Прошу знающих помочь.
Делаю парсер сайта Для просмотра ссылки Войди или Зарегистрируйся Не могу справиться со сбором ссылок.

Сбор ссылок:
Код:
Начальная страница: http://www.eli-opt.ru/katalog
---------------------------------------------------------
//div[@class='rContent']/ul/li/ul/li/a
//p[@class='name']/a
//a[@class='page_num']
 
Вопрос был не в верном X-path
А что поставить в качестве Regex замены, чтобы в ссылках не здваивались значения.
 
Последнее редактирование:
Вопрос был не в верном X-path
А что поставить в качестве Regex замены, чтобы в ссылках не здваивались значения.
Я не много не понял, о чем ты говоришь, но у меня все собрало без дублей.

Скрытое содержимое для пользователя(ей): mary-n1
 
Я не много не понял, о чем ты говоришь, но у меня все собрало без дублей.
У меня тоже собирается 380 позиций. Но это те позиции, которые представлены в категориях как хиты продаж. А все остальное, что должно парсится при проходе на сайт в подкатегорию не собирается, так как ссылки получаются не верные и программа их обходит. На самом сайте порядка 4000 наименований. Хотелось бы, чтобы программа их собирала все
 
У меня тоже собирается 380 позиций. Но это те позиции, которые представлены в категориях как хиты продаж. А все остальное, что должно парсится при проходе на сайт в подкатегорию не собирается, так как ссылки получаются не верные и программа их обходит. На самом сайте порядка 4000 наименований. Хотелось бы, чтобы программа их собирала все
А где эта категория "хиты продаж"? Тут Для просмотра ссылки Войди или Зарегистрируйся ее я не вижу.
 
А где эта категория "хиты продаж"? Тут Для просмотра ссылки Войди или Зарегистрируйся ее я не вижу.
Такой категории и нет. Прсто когда программ начинает сбор и попадает в подкатегорию, она собирает ссылки на ходовые товары, выложенные под перечнем категорий
Для просмотра ссылки Войди или Зарегистрируйся
Вот тут под перечнем категории представлены популярные товары, которые программа собирает, а в сами категории зайти не может, так как ссылка не верная образуется.
Я пошарилась в коде страницы и увидела, что сайт устроен так, что вначале он присваивает ссылке имя категории <a href="наименование категории,
а потом при создании ссылок прохода вставляет эту часть в начало - поэтому ссылка получается некорректная - вместо Для просмотра ссылки Войди или Зарегистрируйся получается Для просмотра ссылки Войди или Зарегистрируйся
И так везде.
Вот потому и ищу Regex замены универсальный, чтобы он отсекал задвоение
 
/sitemap.xml рулит, и не надо ссылки собирать
 
Назад
Сверху