Обход блокировки при парсинге

Статус
В этой теме нельзя размещать новые ответы.
что бы эмулировать реального посетителя.
На текущий момент это усложнение будет не оправдано. Т.к. пока работает без этого.
Для эмуляции нужно не только зайти как браузер, требуется учет многих факторов.

Основные факторы:
1) User-agent
2) Исполнение js кода (или имитация данного действия)
3) Куки, токены, порядок выполнения
4) Временной интервал

Все это возможно сделать вручную используя только php и curl

Дополнительные факторы:
1) IP адрес с которого приходит запрос
2) Наличие или отсутствие дополнений таких как flash, java, adblock, ... специфичных для данной аудитории
3) Проверка на наличие эмулятора по признакам
4) Передвижение мышкой и их разнообразие
5) Проверка временного интервала на "человечность" - не может человек строго в пределах 1-2 минуты в течении 10 часов нажимать кнопки

Кроме IP и времени остальные факторы достаточно сомнительные с целью основной блокировки, поэтому если и применяются на крупных сайтах то в эксперементальном режиме.
 
Java + Selenium + FF
Задолбало разбирать js и прочее.
Сейчас очень много информации получить только по IP
Даже соответствие OS UserAgent и информации полученной из TCP/IP пакета.
Если на входе заголовок от Windows, защита определила что пакет из Linux и IP имеет RTP запись и открытый 80 порт, то тут даже к бабке не ходи.
 
Последнее редактирование:
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху