Парсер Datacol

APSALIM

Постоялец
Регистрация
28 Фев 2013
Сообщения
131
Реакции
94
Datacol - парсер для любых сайтов
Скрытое содержимое доступно для зарегистрированных пользователей!


Связанные темы:
Скрытое содержимое доступно для зарегистрированных пользователей!

Скрытое содержимое доступно для зарегистрированных пользователей!
 
сделал все так как вы написали, в навигацию добавил просто ссылку на пост, указал чтобы парсер сохранял картинки в папку на рабочем столе, запустил, ничего не плучилось, увы=( в чем я ошибся, может я чтото не добавил? или галочку где надо не поставил?
если можно краткое описание настройки парсера для контента, по типу:
1. задать такую то строку
2. задать это поле
и тд, а то я мб самое главное не заполнил
 
сделал все так как вы написали, в навигацию добавил просто ссылку на пост, указал чтобы парсер сохранял картинки в папку на рабочем столе, запустил, ничего не плучилось, увы=( в чем я ошибся, может я чтото не добавил? или галочку где надо не поставил?
если можно краткое описание настройки парсера для контента, по типу:
1. задать такую то строку
2. задать это поле
и тд, а то я мб самое главное не заполнил
попробуйте использовать мою готовую кампанию. Для просмотра ссылки Войди или Зарегистрируйся

На вход ссылка на профайл, на выходе данные в экселе.

Пути для файла выхода поправите на свои (Вкладка экспорт, форматы экспорта).
 
Добрый день. Попробовал, граббит текст и ссылку на картинку, .CSV файл не удается открыть, но я экспортировал в wordpress. Задал ссылку на профайл, на данный момент у меня парсит текст(иногда с кракозябрами, оч часто) и вместо вставки картинки парсер выдает вообще все картинки на странице просто текстом( те. без img тегов, в сообщении на wp они не отображаются, но это поправимо, я так думаю). Осталось понять как сделать так чтобы парсер ходил по профилю инстаграмма ниже, т.е. парсил более старые записи, а не первые 10 или сколько там их видимых. Я примерно понял каким образом образуются там ссылки, но вот как определить шаблон не вшариваю( я имею в виду сейчас ссылка например Для просмотра ссылки Войди или Зарегистрируйся , след карт - Для просмотра ссылки Войди или Зарегистрируйся , значит шаблон - Для просмотра ссылки Войди или Зарегистрируйся , только как правильно задавать место закрытое звездочками я хз.).
А так, спасибо за готовый пример. Я запускал его в датакол 5.54
 
и как вообще эти подстановки называются? я так понял это на языке perl ? или ошибаюсь, уже просто был опыт с грабберами, там было на perl
 
Добрый день. Попробовал, граббит текст и ссылку на картинку, .CSV файл не удается открыть, но я экспортировал в wordpress. Задал ссылку на профайл, на данный момент у меня парсит текст(иногда с кракозябрами, оч часто) и вместо вставки картинки парсер выдает вообще все картинки на странице просто текстом( те. без img тегов, в сообщении на wp они не отображаются, но это поправимо, я так думаю). Осталось понять как сделать так чтобы парсер ходил по профилю инстаграмма ниже, т.е. парсил более старые записи, а не первые 10 или сколько там их видимых.
про следующие страницы:
Скорее всего это нельзя сделать с помощью датакол, т.к. в исходном коде страницы нет ссылок вида (либо они передаются на js).
*/?max_id=* (ссылки для подгрузки следующей страницы).
либо они зашифрованы в json формате, датакол расшифровывать не умеет.

Если непонятно, то внизу есть кнопка загрузить еще (в вашем случае нет ссылки на след страницы, т.е. можно собирать первые 12 фоток).

ну и вот ссылки на следующие страницы

0-12)instagram.com/kadyrov_95/?hl=ru
12-24)instagram.com/kadyrov_95/?max_id=1294461956250259412
24-36)instagram.com/kadyrov_95/?max_id=1290847585477333716
36-48)instagram.com/kadyrov_95/?max_id=1287610510896107343
и т.д. прослеживается уменьшение параметра

Если какого-то элемента нет в исходном коде страницы, датакол его и не сможет найти.

По вашему способу парсинга, все похоже точно так-же если ссылка и есть на следующую страницу, она подгружается на яваскрипте, соответственно датакол ее не видит.
 
Нужна помощь в настройке парсинга m.avito.
datcol 5.586
В поле Телефон пишет "показать номер", если использую плагин D5Plugin_AvitoPhone - поле пустое.
Не загружает фотографии, ни на локаль ни по FTP.
При экспорте в MySQL использую следующий скрипт
Код:
INSERT INTO ххх_adsmanager_ads (id,category,userid,name,images,ad_zip,ad_city,ad_phone,email,ad_kindof,ad_headline,ad_text,ad_state,ad_price,date_created,date_modified,date_recall,expiration_date,publication_date,recall_mail_sent,views,published,metadata_description,metadata_keywords,ad_karta_lat,ad_karta_lng,ad_karta) VALUES (id,category,"0","%Продавец%",'[{"index":1,"image":"%Номер объявления%.jpg","thumbnail":"%Номер объявления%_1_t.jpg"}]',ad_zip,"%Адрес%","%Телефон%","admin@stavrinok.ru",ad_kindof,"%Заголовок%","%Описание%",ad_state,"%Цена%",CURRENT_TIMESTAMP,CURRENT_TIMESTAMP,date_recall,expiration_date,CURRENT_TIMESTAMP,recall_mail_sent,views,published,metadata_description,metadata_keywords,ad_karta_lat,ad_karta_lng,ad_karta)
Подскажите, как в одном SQL запросе (строке) задать вставку во вторую таблицу ххх_adsmanager_adcat (adid,adcat).

Вопрос снятю
 
Последнее редактирование:
нет, сам принцип работы программы я понимаю, ну и что и где искать тоже, я вот не врубаюсь какая последовательность действий должна быть, сначала задать стартовую страницу, потом диапазон страниц(грубо говоря-навигация) и тд, и еще мне не понятно каким образом преобразуются ссылки, т.е. вот я знаю что первая ссылка site.ru/1a , вторая site.ru/1b - мне надо сделать шаблон ссылки чтобы запихнуть в программу, соответственно я какбы понимаю что он выглядит так = site.ru/1+ , вместо плюса должен быть какойто знак, вот я не понимаю на каком языке или как подставлять этот знак и какой именно и в каких случаях. Если например мне надо сделать шаблон сылки где мнетяются все 4 буквы после слэша, пример site.ru/abcd - тогда это что-то должно быть типа site.ru/\4%s ??? \4 -указывает что там 4 разных символа, %s - что это любые буквы, но не цыфры . ЭТО Я НАПИСАЛ ДЛЯ ПРИМЕРА, т.к. хочу понять каким образом составляются эти самые ссылки, где об этом можно почитать подскажите пожалуйста!
про следующие страницы:
Скорее всего это нельзя сделать с помощью датакол, т.к. в исходном коде страницы нет ссылок вида (либо они передаются на js).
*/?max_id=* (ссылки для подгрузки следующей страницы).
либо они зашифрованы в json формате, датакол расшифровывать не умеет.

Если непонятно, то внизу есть кнопка загрузить еще (в вашем случае нет ссылки на след страницы, т.е. можно собирать первые 12 фоток).

ну и вот ссылки на следующие страницы

0-12)instagram.com/kadyrov_95/?hl=ru
12-24)instagram.com/kadyrov_95/?max_id=1294461956250259412
24-36)instagram.com/kadyrov_95/?max_id=1290847585477333716
36-48)instagram.com/kadyrov_95/?max_id=1287610510896107343
и т.д. прослеживается уменьшение параметра

Если какого-то элемента нет в исходном коде страницы, датакол его и не сможет найти.

По вашему способу парсинга, все похоже точно так-же если ссылка и есть на следующую страницу, она подгружается на яваскрипте, соответственно датакол ее не видит.
 
можно здесь почитать к примеру web-data-extractor.net/help/DatacolHelp.html?Newtopic47.html, в принципе в папке с программой почитать хэлп *Часто используемые регулярные выражения*.
вот можете вот тут попробовать собрать регулярное выражение онлайн phpliveregex.com/p/gvV

site.ru/[0-9]{1}[a-z]{1}

соберет site.ru/1a и site.ru/1b
 
Нужна помощь в настройке парсинга m.avito.
datcol 5.586
В поле Телефон пишет "показать номер", если использую плагин D5Plugin_AvitoPhone - поле пустое.
Не загружает фотографии, ни на локаль ни по FTP.
При экспорте в MySQL использую следующий скрипт
Код:
INSERT INTO ххх_adsmanager_ads (id,category,userid,name,images,ad_zip,ad_city,ad_phone,email,ad_kindof,ad_headline,ad_text,ad_state,ad_price,date_created,date_modified,date_recall,expiration_date,publication_date,recall_mail_sent,views,published,metadata_description,metadata_keywords,ad_karta_lat,ad_karta_lng,ad_karta) VALUES (id,category,"0","%Продавец%",'[{"index":1,"image":"%Номер объявления%.jpg","thumbnail":"%Номер объявления%_1_t.jpg"}]',ad_zip,"%Адрес%","%Телефон%","admin@stavrinok.ru",ad_kindof,"%Заголовок%","%Описание%",ad_state,"%Цена%",CURRENT_TIMESTAMP,CURRENT_TIMESTAMP,date_recall,expiration_date,CURRENT_TIMESTAMP,recall_mail_sent,views,published,metadata_description,metadata_keywords,ad_karta_lat,ad_karta_lng,ad_karta)
Подскажите, как в одном SQL запросе (строке) задать вставку во вторую таблицу ххх_adsmanager_adcat (adid,adcat).
Вот компания
С полем "Телефон" разобрался.
SQL запрос сделал через процедуру на сервере.
А вот фотографии никак не загружаются.
 
Уважаемые Гуру Датакол, подскажите, как из URL страницы сформировать категорию (город, имя, номер) и можно ли? Ведь адрес имеет чёткий шаблон Для просмотра ссылки Войди или Зарегистрируйсяобъявления/

Попробовал через поле "Спец. значения" , выбрав URL и сделав замену - замена на "Спец. значения" не работает.
 
Последнее редактирование:
Назад
Сверху