Алгоритм Шинглов – определяем уникальность текста

Inviseble_Demon · 20 Июн 2009

Заинтересовала тема по получению процента почти уникальности текста.

С самого начала наткнулся на тему на питоне, решил переписать на PHP но тут меня опередили

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Но вот чет я понять не могу... В чем смысл делать шинглы по количеству слов ?? Намного релевантное посимвольно! Потому как несовподаемость шинглов при проверке текста с 100 словами и измененным только лиш 1 последним выйдет 90% уникальной :nezn:

В итоге созрела идея о том чтобы шингл состоял не из набора слов а из набора символов - замедлит работу но увеличит релевантность (вроде..).

Что скажите ? Может, существуют более новые методы ?

Jeurey · 21 Июн 2009

Посмотрел бегло класс... Фигово то, что метод канонизации не занимается стеммингом. Есть ведь фри-стеммер от яндекса. Если использовать - так только с начальными формами слов (кстати, в том же yandex.mystem можно зафильтровать стоп-слова).

nick1m · 23 Июн 2009

Jeurey написал(а):
Посмотрел бегло класс... Фигово то, что метод канонизации не занимается стеммингом. Есть ведь фри-стеммер от яндекса. Если использовать - так только с начальными формами слов (кстати, в том же yandex.mystem можно зафильтровать стоп-слова).

Полностью поддерживаю, нужно стеммер включать, потому как есть падажи склонения и тд, а пословно и посимвольно, так на пхп для этого есть свои функции similar_text(), функция левинштейна, да и для поисковиков это уже не вчерашний, а позавчерашний день, лучше бы ты переписал бы стеммер один с си на пхп

vivid · 24 Июн 2009

я пользуюсь примерно таким стеммером Для просмотра ссылки Войди или Зарегистрируйся
ну конечно же слово "журнал" он определяет как глагол прошлого времени (ты что делал? я журнал. а ты будешь журнить?) так что пришлось добавить исключения.

e64f · 25 Июн 2009

Inviseble_Demon написал(а):
В итоге созрела идея о том чтобы шингл состоял не из набора слов а из набора символов - замедлит работу но увеличит релевантность (вроде..).

Набор символов, это в каком смысле?
Слоги? Корни слов? Или еще что?

everest · 30 Ноя 2009

e64f написал(а):
Набор символов, это в каком смысле?
Слоги? Корни слов? Или еще что?

я так думаю, набор символов - это идущие подряд символы, например 3 символа...

сим-имв-мво-вол-ола-...

nittis · 30 Ноя 2009

Потому как несовподаемость шинглов при проверке текста с 100 словами и измененным только лиш 1 последним выйдет 90% уникальной

при какой длине шингла? если в тексте из 100 слов вы замените только последнее слово, то у вас будет лишь один совпадающий шингл, а при длине шингла, например, в 5 слов вы построите их (100 - (5 - 1)) = 96 штук

схожесть = (96-1)/96 ~ 98.96% т.е. статьи практически идентичны

В итоге созрела идея о том чтобы шингл состоял не из набора слов а из набора символов - замедлит работу но увеличит релевантность (вроде..).

будет существенно хуже. все тексты будут казаться одинаковыми. например трехбуквенных шинглов в русском языке чуть меньше 36000. вы непеременно найдете общие в любых тесктах, даже если в них не совпадает ни слова.

Алгоритм Шинглов – определяем уникальность текста

Inviseble_Demon

Мой дом здесь!

Jeurey

Хранитель порядка

nick1m

Постоялец

vivid

Постоялец

e64f

Постоялец

everest

Полезный

nittis

Постоялец