morze
Постоялец
- Регистрация
- 9 Окт 2006
- Сообщения
- 74
- Реакции
- 51
- Автор темы
- #1
Ищутся люди пользовавшиеся этими скриптами, ну и соответственно имеющие их... )
Описание с оф. сайта, меня впечатлило:
Spambase 1.3
Модуль "SPAMBASE" содержит в себе инструменты для сбора баз спам ресурсов, каждая найденная ссылка проверяется на наличие форм, причем определяется подходит ли форма для сабмита (автоматически к примеру отсеивая формы авторизации и поиска). Кроме того скрипт в случае необходимости может пройтись по внутренним ссылкам расположенным на странице ресурса для поиска форм.
Основные возможности модуля:
Описание с оф. сайта, меня впечатлило:
Spambase 1.3
Модуль "SPAMBASE" содержит в себе инструменты для сбора баз спам ресурсов, каждая найденная ссылка проверяется на наличие форм, причем определяется подходит ли форма для сабмита (автоматически к примеру отсеивая формы авторизации и поиска). Кроме того скрипт в случае необходимости может пройтись по внутренним ссылкам расположенным на странице ресурса для поиска форм.
Основные возможности модуля:
- высокая скорость работы в режиме работы без покси (специальный алгоритм позволяет снизить вероятность бана IP), во время тестов на shared хостинге при работе в 25 потоков парсер Google собирал около 25к ресурсов в минуту, парсер Yahoo около 17к;
- парсинг поисковых систем Google и Yahoo в многопоточном режиме (список поисковых систем будет расширяться);
- система обеспечения стабильной работы скрипта, позволяющая автоматически восстанавливать процессы парсинга и анализа баз даже после перезагрузки сервера (специальный скрипт запускаемый с помощью планировщика CRON проверяет статус запущенных процессов);
- специальная система NiceSERP, позволяющая избавиться от "мусора" в выдаче Google. Как известно Google не всегда адекватно реагирует на некоторые запросы, к примеру посмотрев на выдачу по запросу Для просмотра ссылки Войди
или Зарегистрируйся можно увидеть, что только около 70% ресурсов содержат в ссылке фрагмент "gbook.php?a=sign" остальные ресурсы под это условие совсем не подходят. Конечно можно немного подкорректировать запрос таким образом, что бы результат выдачи был более точен, однако не всегда есть время проверять каждый запрос. Система NiceSERP позволяет получать более точные результаты оставляя только те ресурсы, которые подходят под заданные условия; - возможность задать список запросов;
- анализ отпарсеных ресурсов;
- использование подстановки TLD, для увеличения количества возвращаемых результатов;
- анализ пользовательских баз;
- проверка ресурсов на PR;
- приятный и удобный интерфейс.