Словари данных для CnStats

В логах засветилось несколько новых поисковиков...

Код:
//------------------- 13 Oct 2007 ---------------------------------
d(1,base64_encode("search1.seznam.cz"), base64_encode("Seznam.CZ"), base64_encode("/[^(?:q=)]*[\?|\&|;|_]q=([^\&]*).*/"), "", base64_encode("gutf-8"));
d(1,base64_encode("devilfinder.com"), base64_encode("DevilFinder"), base64_encode("/[^(?:q=)]*[\?|\&|;|_]q=([^\&]*).*/"), "", base64_encode("gutf-8"));
d(1,base64_encode("suche.aolsvc.de"), base64_encode("AOL Search"), base64_encode("/[^(?:q=)]*[\?|\&|;|_]q=([^\&]*).*/"), "", base64_encode("gutf-8"));
d(1,base64_encode("search.mywebsearch.com"), base64_encode("AOL Search"), base64_encode("/[^(?:searchfor=)]*[\?|\&|;|_]searchfor=([^\&]*).*/"), "", base64_encode("gutf-8"));
 
BiOM, ты бы подсказал, где и как это смотреть, я бы тоже поучаствовал, у меня роботы иногда сотнями пасутся.
 
Вот таких выловил:

Код:
PHP version tracker (http://www.nexen.net/phpversion/bot.php)
Sapienti/Indexer1
VadixBot
Randy
Pete-Spider Light/1.0
yacybot (i386 Linux 2.6.18-5-amd64; java 1.5.0_10; Europe/de) http://yacy.net/yacy/bot.html

К каким категориям их относить? Разъясните поподробнее, плз. Ну, видимо, среди них 3 робота, с остальными непонятно.
 
Вот таких выловил:
Код:
PHP version tracker (http://www.nexen.net/phpversion/bot.php)
Sapienti/Indexer1
VadixBot
Randy
Pete-Spider Light/1.0
yacybot (i386 Linux 2.6.18-5-amd64; java 1.5.0_10; Europe/de) http://yacy.net/yacy/bot.html
К каким категориям их относить? Разъясните поподробнее, плз. Ну, видимо, среди них 3 робота, с остальными непонятно.
Собственно из всего твоего списка нормальная инфа только по последнему боту.
В боты надо засчитывать тех агентов которые на протяжении недели заходили хотябы 5-10 раз. Иначе, если засчитывать всех экзотических агентов, база будет забита мусором.

Вот пополнение в базу - в нем и твой yacybot в последней строке
Обрати внимание на цифру 3 в этой строке - это указатель того, что содержимое этой записи представляет бота
Второй строковый параметр - описание бота, в таком виде он будет отображаться в статистике
Третий параметр - идентификатор, по которому опознается бот
Код:
//------------------- 16 Oct 2007 ---------------------------------
d(1,base64_encode("search.aol."), base64_encode("AOL Search"), base64_encode("/[^(?:query=)]*[\?|\&|;|_]query=([^\&]*).*/"), "", base64_encode("gutf-8"));
d(1,base64_encode("aolsearcht.aol.com"), base64_encode("AOL Search"), base64_encode("/[^(?:query=)]*[\?|\&|;|_]query=([^\&]*).*/"), "", base64_encode("gutf-8"));
d(3,base64_encode("yacybot (http://yacy.net/bot.html)"),base64_encode("yacybot") , "", "", "");
 
Вот маленькое дополнение от меня.
Вставляем этот код после последней строки начинающейся с d(6,
Код:
d(3,base64_encode("YahooFeedSeeker (http://publisher.yahoo.com/rssguide)"),base64_encode("YahooFeedSeeker/") , "", "", "");
d(3,base64_encode("GurujiBot (+http://www.guruji.com/en/WebmasterFAQ.html)"),base64_encode("GurujiBot/") , "", "", "");
d(3,base64_encode("BlogsNowBot, V 3.0 (+http://www.blogsnow.com/)"),base64_encode("BlogsNowBot") , "", "", "");
d(3,base64_encode("Moreoverbot/5.00 (+http://www.moreover.com)"),base64_encode("Moreoverbot/") , "", "", "");
d(3,base64_encode("BlogSearch/1.0 +http://www.icerocket.com/"),base64_encode("BlogSearch/") , "", "", "");
d(3,base64_encode("gooblog/2.0 (http://help.goo.ne.jp/contact/)"),base64_encode("gooblog/") , "", "", "");
d(3,base64_encode("Feedster Crawler/3.0; Feedster, Inc."),base64_encode("Feedster Crawler/") , "", "", "");
d(3,base64_encode("Sphere Scout&v4.0 (beta) - scout at sphere dot com"),base64_encode("Sphere Scout") , "", "", "");
Список составлен на основании тех ботов что бегают у меня и которые засчитывались в юзеров...
И вообще неплохо было-бы организоваться и самим пополнять эти словари. Как образец можно взять это моё дополнение
BiOM, скажи, а почему у тебя ссылки прописаны где-то в скобках, где-то без, где-то с плюсом -- причем в самых разных сочетаниях. Это так CNStats их определяет или это что-то означает? И, кстати, почему ты у этого yacybot убрал часть строки в скобках? Как CNStats распознает робота -- он что, парсит строку и выделяет из нее ссылку или как?

Добавлено через 12 минут
Еще вот такой хрен у меня регулярно заходит, почти каждый день:

shelob v1.0

Поиском в Гугле нашел про него Для просмотра ссылки Войди или Зарегистрируйся.

Как его прописать -- так?
Код:
d(3,base64_encode("shelob v1.0"),base64_encode("shelob v1.0") , "", "", "");
 
BiOM, скажи, а почему у тебя ссылки прописаны где-то в скобках, где-то без, где-то с плюсом -- причем в самых разных сочетаниях. Это так CNStats их определяет или это что-то означает? И, кстати, почему ты у этого yacybot убрал часть строки в скобках? Как CNStats распознает робота -- он что, парсит строку и выделяет из нее ссылку или как?
Добавлено через 12 минут
Еще вот такой хрен у меня регулярно заходит, почти каждый день:
shelob v1.0
Поиском в Гугле нашел про него Для просмотра ссылки Войди или Зарегистрируйся.
Как его прописать -- так?
Код:
d(3,base64_encode("shelob v1.0"),base64_encode("shelob v1.0") , "", "", "");

Нового робота ты прописал в принципе правильно. Единственно я бы изменил строку с сигнатурой, чтобы было более универсально
Код:
d(3,base64_encode("shelob v1.0"),base64_encode("shelob") , "", "", "");

Касательно данных в сткобках или без - обычно это в чистом виде строка агента. Но к примеру с тем-же yacybot - он ко мне тоже заходил, но инфа в скобках была другая - поэтому чтобы не плодить мульён вариантов одного бота - я обобщил их.
 
Касательно данных в сткобках или без - обычно это в чистом виде строка агента. Но к примеру с тем-же yacybot - он ко мне тоже заходил, но инфа в скобках была другая - поэтому чтобы не плодить мульён вариантов одного бота - я обобщил их.
Ты полагаешь, что CNStats после этого сумеет распознать этого робота в моем варианте? Или он будет ориентироваться по ссылке? (Он сумеет ее вычленить? Попробую проверить.)

Добавлено через 27 минут
Не знаю, не фильтрует ни по-твоему, ни по-моему (попробовал и так, и так). То есть все равно yacybot и shelob отфильтровываются в пользователей, а не в роботов. Разве что критерий "пользователь/робот" определяется Сиэнстатом сразу, в момент захода агента, и жестко прописывается в базу, а выборка формируется не по обновленному словарю роботов, а по ранее прописанным критериям.
 
Так и есть - cnstats сортирует на роботов и юзеров при заходе их на сайт.

Пополнение к поисковикам...
Код:
//------------------- 23 Oct 2007 ---------------------------------
d(1,base64_encode("att.net"), base64_encode("AT&T"), base64_encode("/[^(?:string=)]*[\?|\&|;|_]string=([^\&]*).*/"), "", base64_encode("gutf-8"));
d(1,base64_encode("search.icq.com"), base64_encode("search.icq.com"), base64_encode("/[^(?:q=)]*[\?|\&|;|_]q=([^\&]*).*/"), "", base64_encode("gutf-8"));
d(1,base64_encode("aolsearch.aol.co.uk"), base64_encode("AOL Search"), base64_encode("/[^(?:query=)]*[\?|\&|;|_]query=([^\&]*).*/"), "", base64_encode("gutf-8"));
d(1,base64_encode("ubbo.com"), base64_encode("Ubbo.com"), base64_encode("/[^(?:q=)]*[\?|\&|;|_]q=([^\&]*).*/"), "", base64_encode("gutf-8"));
d(1,base64_encode("soso.com"), base64_encode("SOSO.com"), base64_encode("/[^(?:w=)]*[\?|\&|;|_]w=([^\&]*).*/"), "", base64_encode("gutf-8"));
 
Я тоже парочку добавлю, часто заходят. Не знаю только, к какой категории их относить, записал в роботы.

Код:
d(3,base64_encode("PHP version tracker (http://www.nexen.net/phpversion/bot.php)"), base64_encode("PHP version tracker") , "", "", "");
d(3,base64_encode("Web Downloader/7.4"),base64_encode("Web Downloader/7.4") , "", "", "");
 
Назад
Сверху