Вопрос по массову чеку PR...

Статус
В этой теме нельзя размещать новые ответы.
А давно ты заметил, что база запросов у всех ДЦ общая? Я проверял PR на 18кк URLов в конце ноября, в 200 потоков через 50 своих проксей в двух подсетях, все нормально отработало за шесть суток.

Завтра проверю снова.
 
Так... все по-порядку:

2ТС
1)Не понял почему ты отказываешься от прокси... Гугля банит конкретный айпи или подсеть. Как только текущий айпи баниться начиаешь парситьсь с дугой прокси.
2)Юзер агент можно самому задавать.

От проксей не отказываюсь, на самом деле на данный момент похоже это единственный вариант...

lobzik написал(а):
Поставь на серваке себе чекалку прокси какуюнить, у меня вот вечно свежие прокси и проблем с парсингом чего-либо нет вообще.

У меня стоит чекалка проксей на сервере... но... сейчас надо прочекать базу в 4кк урлов... из начального условия бан после 1.5-2к урлов... нужно свежих 4кк/2к = 2000 проксей... У тебя в день есть 2000 свежих прокси??? Это ответ и на первый вопрос...

vitvvs написал(а):
посоветуй нормальный proxy cheker

вопрос есть в ответе, именно proxy cheker, у меня стоит 3.2, нуленый с нуледа... как альтернатива сансара, но слишком много нареканий и жалоб по дырявости... хотя может свежая есть...

E-van написал(а):
По-моему, прокси - единственный выход. Их не так уж много и требуется

2000 живых проксей за сутки это не так уж много????

StDutch написал(а):
А давно ты заметил, что база запросов у всех ДЦ общая?
До середины декабря чекал в дохера потоков, проблем не было... так что совсем недавно... проверь, отпишись плз...
 
До середины декабря чекал в дохера потоков, проблем не было... так что совсем недавно... проверь, отпишись плз...

Нда, есть проблема. Похоже, что после 1700-2000 запросов банит IP на полтора-два часа, затем снова можно долбить. Причем похоже, что timeouts/delays практически не влияют на поведение системы. Разные useragents совсем не влияют ни на что. Т.е. с одного IP можно проверить около 20к URLов в сутки.
 
по-моему банит не на 2-3 часа, а на... ну 6-12. Потому что сам уже несколько раз пробовал через 2-3 часа снова запускать чекалку - нифига.
Даже если на 2-3 часа, то 2к ресов чекается минут за 20 максимум. Ждать 2-3 часа - нерационально.
 
по сабжу точно такая же фигня даже тему такую поднимал. C аллсубмиттера меня тож побанили, правда я таймаут 40 секунд не ставил, как советовали в той ветке (тк быстрей помойму руками :=)
Как вариант думаю серверную чекалку на 10 разных хостов поставить и по 2к урлов с каждого проверять с перерывами. Только чекалки серверной не нашел пока, может кто подскажет где награбить можно?
 
Laudrendale
Proxy cheker нулленый 3тий на форуме лежит...

2ТС
ничего тут не поделаешь. либо действительно собирай прокси побольше, либо в несколько заходов. После разбана прокси - продолжать...
 
Laudrendale
Proxy cheker нулленый 3тий на форуме лежит...

Я на самом деле неясно видимо выразился.
Я искал серверный PR-чекер.
Уже нашел тут же на форуме.
Если кому интересно чтоб в поиске не рыться Для просмотра ссылки Войди или Зарегистрируйся

P.S. Толька его дописывать надо он чево то ругается
 
по-моему банит не на 2-3 часа, а на... ну 6-12. Потому что сам уже несколько раз пробовал через 2-3 часа снова запускать чекалку - нифига.
Даже если на 2-3 часа, то 2к ресов чекается минут за 20 максимум. Ждать 2-3 часа - нерационально.

да, StDutch похоже слишком оптимистичен ))) у меня тоже по наблюдениям от 6-12, по сути с одого ипа не чаще 3 раз в сутки получается, а это не более 6000 урлов ((
2к ресов чекается минут 5 )) не все сервера и скрипты одинаково полезны )))
 
а кто нибудь пробовал таймаут сек 5-7 выставлять и в один поток с одного ип\прокси ставить - так вроде не банит и быстрее должно быть :)
 
а кто нибудь пробовал таймаут сек 5-7 выставлять и в один поток с одного ип\прокси ставить - так вроде не банит и быстрее должно быть :)

Смотрю сейчас логи. С random(4,20) в один поток с одним useragent отработал 4112 запросов в течение примерно 16 часов, затем был забанен IP (с момента бана прошло меньше 3 часов и IP уже разбанен). Возможно, там система учета как в API Yahoo -- скользящее временнОе окно, в котором позволительно сделать N запросов к системе.

Это также объясняет различные сроки разбанивания у разных людей.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху