Как отсортироват базу?

Статус
В этой теме нельзя размещать новые ответы.

Vales

Создатель
Регистрация
5 Фев 2008
Сообщения
14
Реакции
0
Ребята! Такой вопрос. Напарсил тут я базу небольшую(форумы,гесты) всего около 100К. А нельзя ли каким - либо образом, (и чем) отобрать с этой базы скажем только АМЕРИКАНСКИЕ форумы. Интересуют только они.
 
Берешь и составляешь список признаков русских форумов: регистрация, вход и тд.. или наоборот американских signup, login..
Дальше пишишь скрипт который получит страницу каждого форума и найдет вхождения признаков.. Так бы я сделал :)
 
Во! Нашел скрипт, когда-то для кого-то писал.. Вот тз на него, думаю должен тебе подойти:
Значит есть файл с урлами сайтов (размеры могут быть большые пару Мбайт ) скрипт должен качать каждую станицу в многопоточном режиме (количество потоков задается в интерф. в виде числа) и если размер страницы <= заданого (задаем в интерфейсе в окошке единица КБ) то єтот урл записываем в другой тхт файл. Для экономии трафика желательно закачивать если обем страницы не более заданого + N кБ это нужно для того чтобы не качать страницы по 500кб если нужны страницы не более 20 кБ. В интерф. нужен индикатор работы (% выполнения), который можно будет посмотреть зайдя на соответсв. урл., кнопка старт, стоп, сохранение результатов каждые например 10 минут. Нужна возможность поиска текста в тех страницах которые закачиваются (в интерф. строка ввода предложения) и галочка искать/не искать, полное/частичное вхождение фразы, а так же сохр. результатов поиска в отдельный файл.
 

Вложения

  • site-checker.rar
    184,7 KB · Просмотры: 5
уже собранную базу можно сортировать только по тексту. т.е. сразу определится с тем какие признаки для тебя есть укзание что этот форум АМЕРИКАНСКИЙ.
максимум думаю что можно это отсеять все с неанглийским текстом и с неанглийскими региональными доменами. хотя на com или net может быть как американский форум так и любой другой.

может есть какойто софт который прочекает базу на whois (хотя и этот признак есть всего лиш признак физического местоположения хоста на котором висит форум).

Добавлено через 7 минут
Во! Нашел скрипт, когда-то для кого-то писал.. Вот тз на него, думаю должен тебе подойти:
Значит есть файл с урлами сайтов (размеры могут быть большые пару Мбайт ) скрипт должен качать каждую станицу в многопоточном режиме (количество потоков задается в интерф. в виде числа) и если размер страницы <= заданого (задаем в интерфейсе в окошке единица КБ) то єтот урл записываем в другой тхт файл. Для экономии трафика желательно закачивать если обем страницы не более заданого + N кБ это нужно для того чтобы не качать страницы по 500кб если нужны страницы не более 20 кБ. В интерф. нужен индикатор работы (% выполнения), который можно будет посмотреть зайдя на соответсв. урл., кнопка старт, стоп, сохранение результатов каждые например 10 минут. Нужна возможность поиска текста в тех страницах которые закачиваются (в интерф. строка ввода предложения) и галочка искать/не искать, полное/частичное вхождение фразы, а так же сохр. результатов поиска в отдельный файл.

а каким образом этот скрипт помжет ему? я так понял скрипт загружает страницы по ссылкам из файла. он скачает 100к страниц. допустим чемто отфильтрует по какомуто признаку. а как он результат обратно в базу ссылок соберет то?

Добавлено через 9 минут
незнаю может оффтоп. но ИМХО фильтровать нужно на этапе парсинга составляя соответствующие запросы.
 
Берешь и составляешь список признаков русских форумов: регистрация, вход и тд.. или наоборот американских signup, login..
Дальше пишишь скрипт который получит страницу каждого форума и найдет вхождения признаков.. Так бы я сделал :)

Просто сказать напиши.Если бы я зна ПШП и ПЁРЛ. То не спрашивалбы

И что это вы мне посоветовали?? Так как вы описали я паршу. А напаршенная база уже имеется. Проверил я её на живучесть(200ОК!) Почеканил на дубли.Блек-лист Максимально возможно отобрал с базы форумы.

Дальше МНЕ необходимо отобрать ТОЛЬКО АМЕРИКАНСКИЕ ФОРУМЫ. Может я не совсем корректно вырожаюсь, но посетители форумов должны быть америкосы.

Я конечно понимаю что можна отсортировать по доменной зоне. Например .US Но ведь форумы могут быть и в другой доменной зоне .com .net и т п .?( Это максимально возможна сортировка?)

За скрипт спасибо. Но если чесно, єто не совсем то что мне необходимо.

Добавлено через 9 минут
[/I]незнаю может оффтоп. но ИМХО фильтровать нужно на этапе парсинга составляя соответствующие запросы.

Будте так добры, подскажите такие запросы. А то я не допонимаю. Паршу хрефером. естественно имеется признаки форумов+подставка слов. Думаю многие знают как работает хрефер. Часть баз нашел в сети. Вот с этих баз и нужно максимально возможно отобрать то что мне необходимо.

уже собранную базу можно сортировать только по тексту. т.е. сразу определится с тем какие признаки для тебя есть укзание что этот форум АМЕРИКАНСКИЙ.
.

И как это всё организовать.?

Для меня признак того что форум Американский - Американский IP основной массы посетителей моего сайта с этого форума.
 
Ребята! Такой вопрос. Напарсил тут я базу небольшую(форумы,гесты) всего около 100К. А нельзя ли каким - либо образом, (и чем) отобрать с этой базы скажем только АМЕРИКАНСКИЕ форумы. Интересуют только они.

Скачиваешь демо версию хрумера _ttp://www.botmaster.ru/more1/ и спользуешь инструмент Фильт базы ссылок. В справке подробно описано как он работает.

Чтобы не попадать в такие ситуации надо изначально при парсинге составлять правильные запросы, а не собирать все в подряд и потом думать что с этим делать. В хрефере например есть опция, собирать форумы только на английском языке + по зоне фильтровать, да много чего еще можно придумать. Учись правильно парсить!
 
И как это всё организовать.?
Для меня признак того что форум Американский - Американский IP основной массы посетителей моего сайта с этого форума.
в данном случае никак.
алгоритм ваш примерно такой.
1) берем ссылку с файла. идем на форум.
2) читаем информацию об ip пользователей (как вы собираетесь достать эту инфу? нужен доступ к логам админке)
3) проверяем принадлежит ли ip америке (?)
4) сравниваем массу ссылок вычисляем принадлежит ли БОЛЬШИНСТВО америке.
5) если да то сохраняем в итоговый файл.

вот такая схема. просто демонстрация логики. и видно что реально она невыполнима.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху