[Архив] Lynx parser

Статус
В этой теме нельзя размещать новые ответы.
Тогда еще одна просьба, а кто сможет подкинуть список запросов по languages?
 
lang_ar
lang_zh-CN
lang_zh-TW
lang_cs
lang_da
lang_nl
lang_en
lang_et
lang_fi
lang_fr
lang_de
lang_el
lang_iw
lang_hu
lang_is
lang_it
lang_ja
lang_ko
lang_lv
lang_lt
lang_no
lang_pt
lang_pl
lang_ro
lang_ru
lang_es
lang_sv
lang_tu
lang_uk
Надеюсь поможет
 
заметил интересную вещь, дезенденный скрипт парсера не парсит ничего, а зазенденный работает нормально, обе версии находятся на одном и том же серваке, и работа с одними и теми же проксями, дезенденный постонно пишет что выдачи у гугли нет вообще по запросу и постонно пишет что плохие прокси, а зазенденный ищет, чекает и отсеивает, тобишь работает

Добавлено через 40 секунд
и ещё забыл, закогда ставишь гео зоны все, то выдаёт ошибку, кто с таким сталкивался и за что именно отвечают гео зоны ?
 
за что именно отвечают гео зоны

При парсинге их используют, чтобы сузить поисковый запрос и разбить выдачу на более мелкие части.
Нужно для того, чтобы полнее выбрать всю выдачу.
Использовать надо, если по исходному запросу выдается более 1000 документов.
 
lang_ar
lang_zh-CN
lang_zh-TW
lang_cs
lang_da
lang_nl
lang_en
lang_et
lang_fi
lang_fr
lang_de
lang_el
lang_iw
lang_hu
lang_is
lang_it
lang_ja
lang_ko
lang_lv
lang_lt
lang_no
lang_pt
lang_pl
lang_ro
lang_ru
lang_es
lang_sv
lang_tu
lang_uk
Надеюсь поможет

А не подскажешь как их в поиске задать? (inurl:gbook.php ???)
 
Как и обещал(вроде).. дезенд парсера..
Спасибо можно говорить мне, и тому что на свете есть хорошие люди.

Скрипт в исходнике но не тестилса, могут быть баги. ;)
Или их может не быть:
*** скрытое содержание ***

Незнаю та ли эта версия что здесь.. может.. но точно не скажу. :)

В общем тестите!
Кто хочет помочь - могу в личку дать кошельки(за сервак то надо платить).

Добавлено через 2 минуты
Пасс наш родной..

:) and what is the pass?,i can see that "our your native" buti cant generate that,so can you please post it,thanks
 
у когото вообще работает нормально етот парсер? У меня в логах постоянно пишет что у гугла нет выдачи) может чего поправить? подсжите плис...
ЗЫ: Версия дезенденая Зератула.
 
и ещё забыл, закогда ставишь гео зоны все, то выдаёт ошибку, кто с таким сталкивался
Скрипт этот прежде чем начать парсинг пишет в файл task.txt все урлы с запросами. То есть, кол-во урлов = кол-во запросов * кол-во страниц * кол-во языков * кол-во зон

Если выбрать все географические зоны то скрипт зависнет пытаясь все это записать в файл (файл будет просто гигантский), поэтому и выдается ошибка.

Если запускать на сервере, ограничиться 3мя зонами (com,net,org), не выбирать подстановку языков, задать список запросов с подстановкой букв алфавита (функция есть в последних версиях), загрузить свежие прокси (не обязательно анонимные, главное - рабочие), подобрать оптимальное кол-во потоков (от 5 до 20) то скрипт работает как зверь.

Еще совет - не использовать inurl запросы, по ним очень быстро гугля банит, прокси не хватит. Лучше по признаку в тексте страницы.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху