W
webrazrabot4ik
Прохожие
- Автор темы
- #11
watson_! Держи...
Только в php переименуй... запаковывать леньки было в архив... И скачай тот файлик с юзверь агентами, ложи его в ту же директорию де и скрипт будет... И посмотри, я там закоментил запись результатов в бд. Запрос исправишь, что бы брался не с БД, а так.. ну или.. короче настроишь:
- выборку запроса (с бд, или пропишешь в ручную)
- инклуд main.php - там просто конект к базе
Ahmea!
Ща попробую, только вот проблема с проксями ещё.. все старые листы только нахожу и нерабочии...
Добавлено через 17 минут
Только в php переименуй... запаковывать леньки было в архив... И скачай тот файлик с юзверь агентами, ложи его в ту же директорию де и скрипт будет... И посмотри, я там закоментил запись результатов в бд. Запрос исправишь, что бы брался не с БД, а так.. ну или.. короче настроишь:
- выборку запроса (с бд, или пропишешь в ручную)
- инклуд main.php - там просто конект к базе
Ahmea!
Ща попробую, только вот проблема с проксями ещё.. все старые листы только нахожу и нерабочии...
Добавлено через 17 минут
хм.... врде как начал принимать ) вот только теперь регуляка выё... ладно то уе поправим ) Сексн всем за помощь!Ahmea написал(а):Насчет проксей с фришных сервисов. Гуголь имеет свойство их банить. Поэтому перед парсингом по своему запросу отправь через прокси запрос на гуголь какое-нить распространенное слово. loan, car или ченить в таком духе. И проверь вернулись ли линки, если нет значит прокся забанена.
И еще рекомендую сделать чтобы с каждым запросом к гуглю использовался разный useragent, тогда гуголь думает что ты публичный прокси .
Еще гуголь не отдаст тебе больше 5000 результатов, чтобы избежать этого дописывай к своему запросу site:.com и так по всем доменным зонам которые знаешь, так будет больше эффективность.
Прилагаю файлик с небольшим списком юзерагентов.
Выбирать случайного можно как-то так:
PHP:function get_ua() { $temp = explode("\r\n", file_get_contents("useragents.txt")); return $temp[rand(0,count($temp)-1)]; }