Блин. Напилил здоровенный текст с примерами и удалил его
Короче второй раз сейчас его не распишу с примерами, по этому в кратце:
1) Выделяем тело страници внутри body, чистим его от скриптов и стилей
2) начинаем с самого первого символа искать пары html тегов. Первая пара для именно этой страницы для навторизованного (зашедшего из яндекса) юзера будет вот такой:
Сравниваем в двух частях страницы процентное соотношение контента и html символов. Там, где текста больше и более вероятно будет статья.
3) Повторяя в цикле предидущий пункт можно почистить всю страницу от лишних тегов.
После этого надо оставшуюся выжимку как то то чистить, разделяя например новость от комментариев к ней. С тем как чистить я уже пока нафантазировать не могу, но вот способ выделить часть страници со статьей по моему более чем работоспособный.
Короче второй раз сейчас его не распишу с примерами, по этому в кратце:
1) Выделяем тело страници внутри body, чистим его от скриптов и стилей
2) начинаем с самого первого символа искать пары html тегов. Первая пара для именно этой страницы для навторизованного (зашедшего из яндекса) юзера будет вот такой:
Код:
<div id="loginBar">
<div class="pageWidth">
<div class="pageContent">
<h3 id="loginBarHandle">
<label for="LoginControl"><a href="login/" class="concealed noOutline">Войти или зарегистрироваться</a></label>
</h3>
<span class="helper"></span>
</div>
</div>
</div>
3) Повторяя в цикле предидущий пункт можно почистить всю страницу от лишних тегов.
После этого надо оставшуюся выжимку как то то чистить, разделяя например новость от комментариев к ней. С тем как чистить я уже пока нафантазировать не могу, но вот способ выделить часть страници со статьей по моему более чем работоспособный.