KillDead
Хранитель порядка
- Регистрация
- 11 Авг 2006
- Сообщения
- 894
- Реакции
- 579
- Автор темы
- #1
Помогите, может кто знает как гугл парсеры банит, по какому принципу? Сейчас заменил что несколько человек перестали оказывать такие услуги, это с новым гуглофильтром связано? Вроде бы учёл всё что можно, но гугл всё равно банит.
В общем мне понадобилось спарсить с гугла контент. Капчу решил не вводить- при бане, просто менять ип. Вначале выбрал в качестве проксей tor. Пустил его в несколько потоков . Но обнаружил странный бан - один поток баннится. Всё предусмотрено- выполняется смена ип у забаненного тора. и запрос повторяется. Но ! всё равно, этот же поток, после смены сервера и повтора запроса сразу же получает ещё один бан и так далее. Остальные же потоки работают отлично. После всех попыток обойти, решил что у гугла есть список серверов тора и они банятся по диапазону.
Набрал проксей- 2.5к носков. Запустил парсинг в 300 потоков. 40 минут парсер работал отлично, нерабочие прокси и забаненные удалялись и осталось незадействованных 1.5к проксей. И тут бан- все запросы вызывали your computer or network may be sending automated queries. пока прокси не кончились.
Что я сделал - урл запроса разый (разные get параметры) ,
хеадер запроса
генерирую разный всё время. Юзер агент тоже.
И не смотря на это- гугл понимает что надо забанить. Как он это может делать?
В общем мне понадобилось спарсить с гугла контент. Капчу решил не вводить- при бане, просто менять ип. Вначале выбрал в качестве проксей tor. Пустил его в несколько потоков . Но обнаружил странный бан - один поток баннится. Всё предусмотрено- выполняется смена ип у забаненного тора. и запрос повторяется. Но ! всё равно, этот же поток, после смены сервера и повтора запроса сразу же получает ещё один бан и так далее. Остальные же потоки работают отлично. После всех попыток обойти, решил что у гугла есть список серверов тора и они банятся по диапазону.
Набрал проксей- 2.5к носков. Запустил парсинг в 300 потоков. 40 минут парсер работал отлично, нерабочие прокси и забаненные удалялись и осталось незадействованных 1.5к проксей. И тут бан- все запросы вызывали your computer or network may be sending automated queries. пока прокси не кончились.
Что я сделал - урл запроса разый (разные get параметры) ,
хеадер запроса
Код:
Accept-Encoding: gzip,deflate
Accept: */*
Accept-Language: ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: windows-1251, utf-8, iso-8859-1, utf-16, *;q=0.7
Connection: keep-alive
генерирую разный всё время. Юзер агент тоже.
И не смотря на это- гугл понимает что надо забанить. Как он это может делать?