Content Downloader

akigleo · 21 Май 2012

Подскажите решение.

Допустим, я напарсил Content Downloader~ом кучу статей, используя поисковую выдачу Яндекса, Google, новостные сайты, узкотематичные ресурсы и т.п.

Предположим, программа хорошо справилась с задачей и сняла все без мусора.

Однако возникает вопрос чем/как отсортировать полученные результаты.
- нужно убрать дубликаты статей (не url). То есть нужно найти статьи с идентичным/похожим содержимым и оставить только одну из них.
- проверить частотность вхождения поискового слова в текст. Например, если слово входит в статью менее трех раз, то можно считать, что статья не является тематической для данного ключевого слова и ее можно снести из базы.

CAPAXA · 21 Май 2012

У себя я использую пхп скрипт+ phpmorphy.

3xmaster · 21 Май 2012

Sergey1987 написал(а):
Если что-то не нравится, напишите, я переделаю

Да мне сейчас уже вроде как без надобности..

Но ок, то что когда-то надо было:
Для просмотра ссылки Войди или Зарегистрируйся (не помешает и ниже почитать

)
Для просмотра ссылки Войди или Зарегистрируйся
Для просмотра ссылки Войди или Зарегистрируйся (после АПД)

Можно тут не отвечать (неактуально, да и частично объяснили). Это я просто показал, что будь мануалы...

Sergey1987 · 22 Май 2012

akigleo написал(а):
Подскажите решение.

Допустим, я напарсил Content Downloader~ом кучу статей, используя поисковую выдачу Яндекса, Google, новостные сайты, узкотематичные ресурсы и т.п.

Предположим, программа хорошо справилась с задачей и сняла все без мусора.

Однако возникает вопрос чем/как отсортировать полученные результаты.
- нужно убрать дубликаты статей (не url). То есть нужно найти статьи с идентичным/похожим содержимым и оставить только одну из них.
- проверить частотность вхождения поискового слова в текст. Например, если слово входит в статью менее трех раз, то можно считать, что статья не является тематической для данного ключевого слова и ее можно снести из базы.

Таких задач передо мной не стояло. На данный момент с этим помочь не могу.

akigleo · 22 Май 2012

Sergey1987 написал(а):
Таких задач передо мной не стояло. На данный момент с этим помочь не могу.

Думаю, что такой функционал был бы интересен многим пользователям вашей программы. В планы поставите?

Вопрос всем.
Подскажите, чем можно воспользоваться для автоматизации решения этих задач. Спасибо.

Genk0 · 22 Май 2012

Ура товарисчи - Content Downloader II

Content Downloader II версии 2.00 (20.05.2012
Большое количество доработок!
Старые проекты, где используются повторяющиеся границы парсинга могут не подойти!
После обновления может потребоваться переактивация программы (перед обвновлением посмотрите ваш ключ в “меню” – “справка” – “о программе”)!
– Полностью переработан редактор шаблона вывода;
– Переработана настройка повторяющихся границ парсинга;
– Добавлена возможность задавать обычные границы парсинга внутри повторяющихся (одна из самых важных доработок!);
– Макрос шаблона вывода TOPRICE теперь округляет числа до 2 знаков после запятой;
– Теперь при предпросмотре парсинга контента (CSV) количество колонок не фиксированное (как ранее), а увеличивается автоматически;
– В сканер сайтов добавлена функция удаления перечисленных параметров из ссылок списка очереди;
– В отчет парсинга контента добавлена функция копирования web-адресов загруженных документов в буфер обмена системы (правый клик по списку ссылок лога);
– Большое количество доработок, изменений и исправлений.

_sbfactory.ru/?p=2610
Уже апдейтнулся, что то поменялось

unkn0wn · 22 Май 2012

akigleo написал(а):
Подскажите решение.

Допустим, я напарсил Content Downloader~ом кучу статей, используя поисковую выдачу Яндекса, Google, новостные сайты, узкотематичные ресурсы и т.п.

Предположим, программа хорошо справилась с задачей и сняла все без мусора.

Однако возникает вопрос чем/как отсортировать полученные результаты.
- нужно убрать дубликаты статей (не url). То есть нужно найти статьи с идентичным/похожим содержимым и оставить только одну из них.
- проверить частотность вхождения поискового слова в текст. Например, если слово входит в статью менее трех раз, то можно считать, что статья не является тематической для данного ключевого слова и ее можно снести из базы.

это уже из области семантического анализа, и, согласитесь, глупо навешивать подобный функционал на парсер, задача которого - вытаскивать контент. Для подобного рода действий, я думаю, подойдет платформа Opencalais для тэгирования и идентификации аналогов, и Sphinx для семантического поиска словоформ. Конечно, придется разобраться с API, но, как показывает практика, без этого редко когда удается обойтись, если стоит цель чуть более серьезная, чем создание очередного ГС под сапу.

akigleo · 22 Май 2012

unkn0wn написал(а):
подойдет платформа Opencalais для тэгирования и идентификации аналогов, и Sphinx для семантического поиска словоформ. Конечно, придется разобраться с API

Выглядит достаточно сложным делом.

В общем я надеялся, что есть готовое десктопное решение, где все в одном флаконе.
Например, в Semonitor есть HTML анализатор. С его помощью несложно отсортировать статьи по числу вхождений определенных ключевых слов в разных словоформах и выкинуть случайные статьи для которых искомое ключевой слово было "непрофильным".

А вот как отсеять дубли и "рерайтных родственников" пока не придумал. Есть антиплагиатные программы, которые позволяют оценивать схожесть статей в пакетном режиме. Но тут сравнение идет статьи(ей) на локальной машине с тем, что есть в Интернет, а не между собой... Может есть прога, сравнивающая похожесть статей между собой?

unkn0wn написал(а):
если стоит цель чуть более серьезная, чем создание очередного ГС под сапу

Цель - наполнение сателлитов.
Для ГС не стоит заморачиваться с таким отсевом статей, а для качественного СДЛ лучше уник.

volandmax · 14 Июл 2012

Граждане, вот задумываюсь о покупке проги. Не подскажите она вообще сложна в освоении? Для чего сея софтина мне будет трэба: тупо парсить контент для ГС, то есть я хочу ввести слова для поиска ( к примеру автомобили) ну и соответственно получить хорошую пачку статей, либо зная сайт, вытащить все оттуда. Смотрел ролики на сайте проги, понимаю что это вполне реально, просто тяжело ли ей пользоватся?
Ещё вопросик-кто синоминайзом пользовался от этого же производителя? как впечатления?

Genk0 · 14 Июл 2012

volandmax написал(а):
Граждане, вот задумываюсь о покупке проги. Не подскажите она вообще сложна в освоении? Для чего сея софтина мне будет трэба: тупо парсить контент для ГС, то есть я хочу ввести слова для поиска ( к примеру автомобили) ну и соответственно получить хорошую пачку статей, либо зная сайт, вытащить все оттуда. Смотрел ролики на сайте проги, понимаю что это вполне реально, просто тяжело ли ей пользоватся?
Ещё вопросик-кто синоминайзом пользовался от этого же производителя? как впечатления?

Пользоваться совершенно не сложно. Ну, по крайней мере после пары настроенных проектов)
Мануалы все на сайте есть - как и где правильно настраивать, как быть в определенных ситуациях, есть даже реальные примеры. Вобщем все ФАКи на сайте есть, я учился по ним. Парсил и хотлайн и кинопоиск и даже вконтакте, ничего сложного там нет.
Синонимайзером не пользовался.

Content Downloader

akigleo

Постоялец

CAPAXA

Хранитель порядка

3xmaster

Постоялец

Sergey1987

Писатель

akigleo

Постоялец

Genk0

Хранитель порядка

unkn0wn

Гуру форума

akigleo

Постоялец

volandmax

Постоялец

Genk0

Хранитель порядка