Авто теги для текста

Статус
В этой теме нельзя размещать новые ответы.

D@nil

Постоялец
Регистрация
1 Окт 2006
Сообщения
340
Реакции
122
Есть желание реализовать авто генерацию тегов для своих постов.

Идеи решения:
Парсим большую базу с тегами (написанные человеком)
Берем пост разбиваем на слова, выкидывая короткие и стоп слова.
Ижем каждое слово в базе, если есть то ставим тег.

Посмотрел как работают плагины для CMS. алгоритм почти такойже, только базы используют от _del.icio.us/popular/
_www.flickr.com/photos/tags/
_technorati.com/tag/

Что можете посоветовать для русского текста? Есть у кого идеи где можно тегов достать? (писать руками не предлагать =) )
 
Ну как где, на бобрдобр, моеместо и т.д.
По аналогии с делишез для англ.

Тока я бы еще посоветовал переводить все слова в начальную форму, или хотя бы просто отбрасывать приставки-суффиксы. Больше шансов что найдет правильный тег в списке своем.
 
Написал такой скрипт для себя:

разбивает текст на слова, переводит все слова в начальную форму, выбирает самые частовстречающиеся

У функции на входе : текст, массив стоп-слов которые не нужно учитывать ( который, быть и т.д. базу нужно собирать вручную, уточняя, с каждым текстом число неважных слов будет уменьшаться), минимальная длинна слова, число слов на выходе )

если нужно -- вечером выложу
 
Выкладывай конечно, интересно будет посмотреть.
 
ZCFD
То что надо, спасибо.

теперь осталось прикрутить скрипт к базе человеко написанных тегов, и можно смело автоматом облако генерировать.

SkiLLer

Можешь вкратце рассказать принцип его работы.
 
С самим принципом работы я не разбирался, т.е. в коде не копался. А вот работать с ним просто, мы задаем текст, задаем параметры, и на выходе получаем набор тегов. С русским языком не очень, потому что это специфика русского языка, тут и склонения и падежи и т.д. а вот с английским довольно неплохо, как для автомата. В качестве параметров указывается минимальная длина для однословных тегов, двухсловных и трехсловных.
 
Вариант о котором я говорил используется зендроиде - Для просмотра ссылки Войди или Зарегистрируйся

Надо теперь от туда базу достать, вдруг автор там хорошую насобирал =)
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху