Грабинг подписей на форумах

Статус
В этой теме нельзя размещать новые ответы.

dig555

Постоялец
Регистрация
22 Июн 2007
Сообщения
365
Реакции
160
Вопрос большей частью теоретический. Информация нужна для разработки концепции будущего сайта и написания ТЗ. На данном этапе интересует скорее принципиальная возможность реализации конкретной задачи средствами PHP. Сама реализация пока особо не нужна. Но если кто-то сталкивался с подобными решениями - просьба ткнуть носом. Итак, вопрос.

Есть порядка 30 форумов на стандартных распространённых движках. Форумы защищённые - все со сложной капчой и дерзкими админами. Но пользовательские аккаунты на всех этих форумах есть. Нужно собрать в MySQL базу подписи (signature) всех пользователей, у которых количество сообщений больше n. Чтобы впоследствии делать выборки по указанным параметрам. Возможно? Если да, то насколько сложна и времезатратна подобная задача для программистов?
 
на сколько я понял доступа к бд форумов нет поэтому вам нужен webspider, который будет обходить заданный форум. реализация такого спайдера зависит от структуры форума, но в большенстве своём все распространённые движки имеют разделы типа "участники" или "пользователи" вот его и надо будет просканировать.
по срокам я бы сказал 5(+-2) дней на один тип форума, зависит например надо ли вам многопоточность, запуск из под консоли или через веб и т.д.

и ещё имхо писать такое на php - извращение, для таких целе й как нельзя лучше подходит perl.
 
Ну был бы доступ к базам - не было бы вопросов. В принципе язык реализации не столь важен - абы работало. Ситуация усложняется тем, что предстоит периодически проверять соответствие подписей на форумах и подписей в базе между собой.
 
и ещё имхо писать такое на php - извращение, для таких целе й как нельзя лучше подходит perl.

:D
поостерегись таких смелых высказываний =)
лучше скажи что это "лучше" писать на perl, по той причине , что это будет быстрее работать. но никак в том виде, что ты сказал.

по срокам я бы сказал 5(+-2)
впринципе средний срок - такой и есть. остальное зависит от цены вопроса. можно и за день это сделать =)
 
но в большенстве своём все распространённые движки имеют разделы типа "участники" или "пользователи"

у тебя есть список путей к данным разделам по разным движкам? если есть, не мог бы выложить, то же нужно, но для других целей
 
Ситуация усложняется тем, что предстоит периодически проверять соответствие подписей на форумах и подписей в базе между собой.

ну вся это проверка сводиться к повторному запуску спайдера и заполнении твой бд заново.

nick1m написал(а):
у тебя есть список путей к данным разделам по разным движкам? если есть, не мог бы выложить, то же нужно, но для других целей

я высказал свою мысль (как бы я это делал) т.к. я делал подобные спайдеры, но не для форумов. Поэтому списка у меня нет, но не вижу проблемы его собрать (только не надо предлагать мне это сделать :) )
 
я высказал свою мысль (как бы я это делал) т.к. я делал подобные спайдеры, но не для форумов. Поэтому списка у меня нет, но не вижу проблемы его собрать (только не надо предлагать мне это сделать :) )

каким-то боком вышло так, я подумал, что пост топикстартера, когда отвечал, голова устала :)
вообщем тогда просьбу ему переадресовываю, все равно собирать придётся, может поделишься
 
Может и поделюсь;) Когда до реализации дойдёт. Не торопись.
 
фактически задача представляет из себя парочку регэкспов, да пару вложенных циклов.
список регэкспов:
1 - регэксп для раздела списка пользователей (чтобы вынуть адреса страниц пользователей), с учетом того что страниц много. т.е. на выходе это количество страниц, и все ссылки на пользователей с этой странице... крутим в цикле для всех страниц.
2 - регэксп который парсит страницу пользователя и вынимает из нее два параметра - собственно подпись и количество сообщений пользователя.
3 -повторяем это столько раз сколько у нас существенно отличающихся форумов... т.е. на разных движках или с сильно разными дизайнами.

в принципе сложность сильно зависит от того настолько разнообразными выйдут регэкспы.
В сроках оценить сложно, могу сказать свое мнение в деньгах.
собственно парсер на один форум это гдето сотка баксов (от полдня до двух дней работы довольно квалифицированного програмера) +20$ на каждый новый... (тот который не похож на другой).. сумарно на 30 форумов с проверкой и тп это 300$.
Но это если в лоб заказывать... а если самому писать, или наполовину сам, только с подсказками, то может и меньше... также есть люди не ценящие свою работу :)
ну и может оказаться что форумы у вас настолько похожи что вообще одного варианта хватит... так что это скорее информация для более точной оценки :)
PS: по времени это гдето в неделю...
 
собственно парсер на один форум это гдето сотка баксов (от полдня до двух дней работы довольно квалифицированного програмера) +20$ на каждый новый... (тот который не похож на другой).. сумарно на 30 форумов с проверкой и тп это 300$

мда ... с математикой конечно неполадки ;)
если за 30ф. 300$ - это по 10$ за штуку ... непонятно в таком случае куда пропали первые 90$ и еще 29*10$ с каждого ф.
если все же считать по твоей первой закидке , то это = 680$ :)

зы. со все остальным вполне согласен, разве что с самой суммой еще не согласен - поскольку все это убивалка времени, и опытный прог врятли возьмется за такие деньги в такие сроки.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху