что настроите, то и получите.
смотрите в приложении:
1. файл проекта для web content extractor
2. файл csv результатов грабинга категории gps-навигаторов сайта yugcontract.ua. разделитель - точка с запятой! требуется указать при открытии файлы, чтобы посмотреть в виде таблицы, а не сплошным текстом.
использовался web content extractor версии 4.0
настройка делалась, что называется "на скорую руку", чтобы показать, как это работает.
замечания по сайту-донору:
1. информация представлена большими текстовыми блоками, в описание взят просто один большой блок, туда попали заголовки и некоторое количество мусора. это можно дальше регулировать, подбирая входные теги для граббинга. на эту тему здесь не заморачивался.
2. техническая информация по моделям неоднородна в том смысле, что если информации в каком-то поле нет, то это поле не выводится, а следующие за ним поднимаются выше. в приаттаченном примере видно, как это отражается на результатах - с определенного момента некоторые колонки "съехали" влево.
я специально не правил это, чтобы показать результаты, как они есть. в тех колонках, что съехали, нужно вставить недостающие ячейки, где необходимо, и они выровгняются под остальные.
был другой вариант - сграбить всю техническую информацию в одно поле результатов, чтобы потом разбирать в офлайне. мне кажется, так как сделано сейчас удобнее - меньше ручной работы при обработке.
впрочем, каждый сам решает, как ему удобнее.
3. коль скоро было сказано, что информация с донора нужна по разделам, то в качестве входной страницы указан страница раздела gps-навигаторов, соответственно, экстрактор никуда дальше не лез, и сграбил все модели этого раздела.
можно точно так же сделать по другим разделам, а можно указать просто титул сайта, чтобы экстрактор обошел все страницы.
но в последнемс случае нужно писать исключения, чтобы он впустую не молол ненужные страницы, перетаскивая мегабайты информации и - главное - попусту тратя время.
поскольку экстрактор в целом работает не очень быстро, последнее важно, особенно когда инфы много.
4. картинка указана линком из закладки "внешний вид". вместо линка можно указать, что нужен сам файл, он тогда стащит и картинку, и положит в заданную папку.
короче, смотрите, как сделано, и можете повторять. повторюсь, что это очень простой пример, сделанный на скорую руку. соответственно, можно дальше настраивать сколь угодно тоонко, чтобы получить именно те результаты, которые нужны. для пример "от балды" это было бы уже слишком - вылизывать проект.
думаю, потом как-нибудь сделаю видео по грабингу с маркета - там вообще структура идеальная для web content extractor - можно сгенерировать либо список всех страниц с товарами в разделе, и тупо их всех обойти, тогда просто отменяется переход по линкам, и он уже никуда больше не лезет, только собирает инфу с тех страниц, что заданы. либо можно указать в качестве входной страницы первую страницу поиска по разделу, и он обойдет все найденные страницы. дело вкуса. в последнем случае нужно просто задать ограничения по передвижению, чтобы не лез куда не требуется.
p.s. коль скоро речь идет о сборе инфы по разделам, то в настройках можно указать граббинг сначала в глубину, а потом в ширину. в этом примере я не отмечал, там всего одна страница, не принципально.
p.p.s. как потом распарсить награбленное, в частности под джумлу - уже следующий вопрос. можно просто в csv сохранить, и экселем раскидать под импорт, можно с сохранением в базу заморочиться; кому как нравится.