akigleo
Постоялец
- Регистрация
- 7 Фев 2010
- Сообщения
- 378
- Реакции
- 123
Подскажите решение.
Допустим, я напарсил Content Downloader~ом кучу статей, используя поисковую выдачу Яндекса, Google, новостные сайты, узкотематичные ресурсы и т.п.
Предположим, программа хорошо справилась с задачей и сняла все без мусора.
Однако возникает вопрос чем/как отсортировать полученные результаты.
- нужно убрать дубликаты статей (не url). То есть нужно найти статьи с идентичным/похожим содержимым и оставить только одну из них.
- проверить частотность вхождения поискового слова в текст. Например, если слово входит в статью менее трех раз, то можно считать, что статья не является тематической для данного ключевого слова и ее можно снести из базы.
Допустим, я напарсил Content Downloader~ом кучу статей, используя поисковую выдачу Яндекса, Google, новостные сайты, узкотематичные ресурсы и т.п.
Предположим, программа хорошо справилась с задачей и сняла все без мусора.
Однако возникает вопрос чем/как отсортировать полученные результаты.
- нужно убрать дубликаты статей (не url). То есть нужно найти статьи с идентичным/похожим содержимым и оставить только одну из них.
- проверить частотность вхождения поискового слова в текст. Например, если слово входит в статью менее трех раз, то можно считать, что статья не является тематической для данного ключевого слова и ее можно снести из базы.