Как выбрать самый близкий по тематике текст?

Статус
В этой теме нельзя размещать новые ответы.

roddik

Колбаска
Регистрация
26 Янв 2007
Сообщения
346
Реакции
292
Привет! В общем ТЗ, есть допустим 100 текстов, добавляется 101ый, нужно в нем расставить линки на скажем 5 самых близких по тематике текстов. Как это сделать. Есть идея выбирать 5 самых частых терминов в тексте и потом смотреть где-термины такие же. Тут единственная проблема тогда: как узнать, что слово является термином? Если есть другие идеи, просим:) Спасибо!
 
если я правильно понял, то проще дополнительно хранить ключевые слова и тогда по ним, с релевантностью, делать выборку.
 
similar_text и похожие строковые функции попробуйте, но вобще по ключам(RomAndry) это делать лучше и быстрее(bitrix,habrahabr и т.д.).
 
самое удобное - делать подборку ключевиков к статьям и сравнивать по ключам... similar_text нужного эффекта не даст...это вообще сюда не относится...
 
Скармливаешь текст скрипту, удалит все что не алфавит, удалить все что меньше четырех и больше 15 символов, переводишь всё в маленькие, всё в массив, считаешь повторяющиеся, сортировка по кол-ву от большего к меньшему, берешь, например, первые 10. Это и будет как-бы показатель статьи по ключевым.
Т.е. так делаешь для всех.
Потом, когда добавляешь, новую, также считаешь, и прочекиваешь по всем на количество совпадений. Где больше совпало - ту и берешь.
ИМХО
...
Либо сам статье назначай свои ключевые слова.
 
Скармливаешь текст скрипту, удалит все что не алфавит....
я так и делаю сейчас - из первых 5 слов 4 - например "сказал" или что-то подобное
similar_text и похожие строковые функции попробуйте, но вобще по ключам
если я правильно понял, то проще дополнительно хранить ключевые слова и тогда по ним, с релевантностью, делать выборку.
окей, как выбрать из текста ключевые слова? вышеназванный способ работает хреново, знаю по собственному опыту

и далее, допустим в тексте ключевик united states, как сделать, чтобы считалось вместе "united states", а не "united", "states"?

вот пример, тут tag_cloud - именно по такому алгоритму, как предложил censored!, (в смысле что когда добавляется пост - считаются его ключевики и пишутся тэгами)
, economic тут нафик не нужно, так же как и service и learning...
 
я так и делаю сейчас - из первых 5 слов 4 - например "сказал" или что-то подобное
окей, как выбрать из текста ключевые слова? вышеназванный способ работает хреново, знаю по собственному опыту
и далее, допустим в тексте ключевик united states, как сделать, чтобы считалось вместе "united states", а не "united", "states"?
вот пример, тут tag_cloud - именно по такому алгоритму, как предложил censored!, (в смысле что когда добавляется пост - считаются его ключевики и пишутся тэгами)
*** скрытое содержание ***, economic тут нафик не нужно, так же как и service и learning...
Подскажите пожалуйста - есть ли во фрихостии взять бесплатно поддомены - как на юкозе к примеру...Я предполагаю что можно - потому что вижу много доров на субдоменах фрихостии...но зашёл туда - и пока не нашёл - только как фри хостинг со своим доменом(или купить домен).Подскажите кто там не новичёк - как зарегистрироваться там и взять поддомен бесплатно?
Спасибо
 
чтобы исключить слова типа "сказал" - нужно проредить текст на слова, встечающиеся во многих текстах сразу (например в 10 и более)...
 
Почему не регится на фрихостии?

Кто имеет опыт регить на фрихостии - подскажите в чём дело?
Я зарегился, мне вылез ресит - с моим мылом и надписью что через 30 минут придут данные на моё мыдо - но уже часов 8 прошло - а письма с данными аккаунта так и не пришло...
кто знает почему???
Спасибо
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху