Inviseble_Demon
Мой дом здесь!
- Регистрация
 - 11 Дек 2008
 
- Сообщения
 - 478
 
- Реакции
 - 377
 
- Автор темы
 - #1
 
Заинтересовала тема по получению процента почти уникальности текста.
С самого начала наткнулся на тему на питоне, решил переписать на PHP но тут меня опередили
Но вот чет я понять не могу... В чем смысл делать шинглы по количеству слов ?? Намного релевантное посимвольно! Потому как несовподаемость шинглов при проверке текста с 100 словами и измененным только лиш 1 последним выйдет 90% уникальной
В итоге созрела идея о том чтобы шингл состоял не из набора слов а из набора символов - замедлит работу но увеличит релевантность (вроде..).
Что скажите ? Может, существуют более новые методы ?
	
		
			
		
		
	
				
			С самого начала наткнулся на тему на питоне, решил переписать на PHP но тут меня опередили
	Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Но вот чет я понять не могу... В чем смысл делать шинглы по количеству слов ?? Намного релевантное посимвольно! Потому как несовподаемость шинглов при проверке текста с 100 словами и измененным только лиш 1 последним выйдет 90% уникальной

В итоге созрела идея о том чтобы шингл состоял не из набора слов а из набора символов - замедлит работу но увеличит релевантность (вроде..).
Что скажите ? Может, существуют более новые методы ?