Парсер Datacol

APSALIM

Постоялец
Регистрация
28 Фев 2013
Сообщения
131
Реакции
95
Datacol - парсер для любых сайтов
Скрытое содержимое доступно для зарегистрированных пользователей!


Связанные темы:
Скрытое содержимое доступно для зарегистрированных пользователей!

Скрытое содержимое доступно для зарегистрированных пользователей!
 
Вот Вы сами тест посмотрите, собирается 12 урл с вашего примера, а должно 6 Для просмотра ссылки Войди или Зарегистрируйся
Попробуйте использовать этот xpath
Код:
//div[contains(@class, "shop-item")]/a[@class="name"]
ну и для пагинации
Код:
//div[@class='pages']/a
 
Вот Вы сами тест посмотрите, собирается 12 урл с вашего примера, а должно 6 Для просмотра ссылки Войди или Зарегистрируйся
Попробуйте использовать этот xpath
Код:
//div[contains(@class, "shop-item")]/a[@class="name"]
ну и для пагинации
Код:
//div[@class='pages']/a
С вашими xpath:
В этой
Скрытое содержимое доступно для зарегистрированных пользователей!
категории все норм собралось, 6 из 6!
А вот в этой
Скрытое содержимое доступно для зарегистрированных пользователей!
категории, 32 товара, собирает все равно со всех остальных! — Для просмотра ссылки Войди или Зарегистрируйся

Спасибо!
 
Не знаю, нужно тестировать проект полностью. Так я не вижу откуда он может брать.
Попробуйте еще ограничить так "shop-item-page" в должны отсутствовать в коде Для просмотра ссылки Войди или Зарегистрируйся
 
Тестировал полностью!
Добавил на вкладке "Навигация" - "Сбор ссылок" в "Фильтры ссылок" - "Должно присутствовать" - spalnye-meshki-kovriki
Собирает все что нужно! Как по другому настроить я не знаю!
 
Я снова за помощью, не могу подобрать xpath
Сайт
Скрытое содержимое доступно для зарегистрированных пользователей!

Нужно собрать все, кроме 1, 2 это Главная и Интернет-магазин и последнего элемента название товара
xpath: //div[@id='status']
Скрытое содержимое доступно для зарегистрированных пользователей!

И помогите пожалуйста составить замену в названии, нужно убрать в конце с пробелом (xxxyyyzzz)
xpath: //h1[@id='main-header']

Спасибо!

update
С категориями вроде разобрался, хотя там в некоторых местах придется ручками с csv править...

update2
в notepad++
Найти: (.*?)\(.*?\)\s?(.*?)
Заменить: \1\3
 
Последнее редактирование:
Я снова за помощью, не могу подобрать xpath
Сайт
Нужно собрать все, кроме 1, 2 это Главная и Интернет-магазин и последнего элемента название товара
xpath: //div[@id='status']
Если еще актуально по хлебным крошкам.
1. Поле статическое, на вкладке Статические ставите диапазон 2-5
2. xpath //div[@id="status"]/span/a[string-length(@href) > 3]
 
  • Нравится
Реакции: WKTP
Если еще актуально по хлебным крошкам.
1. Поле статическое, на вкладке Статические ставите диапазон 2-5
2. xpath //div[@id="status"]/span/a[string-length(@href) > 3]

Уже нет, все сделал, но все равно спасибо! На будущее буду знать!
 
Назад
Сверху