Follow along with the video below to see how to install our site as a web app on your home screen.
Примечание: This feature may not be available in some browsers.
Во! Нашел скрипт, когда-то для кого-то писал.. Вот тз на него, думаю должен тебе подойти:
Значит есть файл с урлами сайтов (размеры могут быть большые пару Мбайт ) скрипт должен качать каждую станицу в многопоточном режиме (количество потоков задается в интерф. в виде числа) и если размер страницы <= заданого (задаем в интерфейсе в окошке единица КБ) то єтот урл записываем в другой тхт файл. Для экономии трафика желательно закачивать если обем страницы не более заданого + N кБ это нужно для того чтобы не качать страницы по 500кб если нужны страницы не более 20 кБ. В интерф. нужен индикатор работы (% выполнения), который можно будет посмотреть зайдя на соответсв. урл., кнопка старт, стоп, сохранение результатов каждые например 10 минут. Нужна возможность поиска текста в тех страницах которые закачиваются (в интерф. строка ввода предложения) и галочка искать/не искать, полное/частичное вхождение фразы, а так же сохр. результатов поиска в отдельный файл.
Берешь и составляешь список признаков русских форумов: регистрация, вход и тд.. или наоборот американских signup, login..
Дальше пишишь скрипт который получит страницу каждого форума и найдет вхождения признаков.. Так бы я сделал
Добавлено через 9 минут
[/I]незнаю может оффтоп. но ИМХО фильтровать нужно на этапе парсинга составляя соответствующие запросы.
уже собранную базу можно сортировать только по тексту. т.е. сразу определится с тем какие признаки для тебя есть укзание что этот форум АМЕРИКАНСКИЙ.
.
Ребята! Такой вопрос. Напарсил тут я базу небольшую(форумы,гесты) всего около 100К. А нельзя ли каким - либо образом, (и чем) отобрать с этой базы скажем только АМЕРИКАНСКИЕ форумы. Интересуют только они.
в данном случае никак.И как это всё организовать.?
Для меня признак того что форум Американский - Американский IP основной массы посетителей моего сайта с этого форума.