ну, если этот метод сложнореализуем - то от него следует отказаться.
В принципе, мне даже не нужно узнавать процент уникальности статьи- текст либо весь выложен в инете, без всяких изменений (или с искажениями- там переносы строк), либо его нет.
Вроде звучит легко- поискать по точному соответствию, для выбранной фразы из 6-10 слов из текста, это я и реализовал, но в этом методе встретились ошибки- 1- уникальный текст опр. как неуник, 2- неуник опр как уник:
1) Бывало так что фраза, которая выбиралась, была довольно часто встречающейся. И уникальный текст определялся как вообще неуникальный.
2) не смотря на то, что фразы я выбирал по всему тексту, по 3 штуки- всё равно, для них гугл не находил точное соответствие.
Можно конечно увеличить количество поисковых фраз, но тогда вероятность 1 ошибки возрастает. Есть вариант, поискать и остальные фразы на этом сайте. Но если "фраза популярна"- это будет оч много запросов.
Пока, ищу метод, который максимально уменьшил запросы у гугле и давал адекватные результаты
вы бы хот бы погуглили про шинглы, что ли
Они простые как пять копеек.
то, что поисковики не сильно рады такой работе с ними, это уже не сложность реализации, а сложность работы с методом.
ваши упомянутые действия вообще-то и есть по-сути метод шинглов, только без систематического подхода.
метод шинглов примерно так выглядит:
1)сперва создается база существующих текстов(среди которых и проверяем уникальность).
Эта база должна в себя включать цепочки по 6 (6-длина шингла.может быть и другой) слов.
в качестве такой базы идеально подходит ПС, так как он уже проанализировал много текстов, и позволяет искать в себе такие цепочки
2)анализируемый текст разбивается на все возможные цепочки из 6-и подряд идущих слов.
то есть с перввого по 6-е слово
затем со 2-го по 7-е
и т.д.
3)каждый из шинглов анализируемого текста проверяется на вхождение в базу.
4)на выходе получаем процент шинглов не найденных в базе.
это и есть уникальность во многих программах.
вы же выбираете изх текста случайные шинглы, а не все, и это способствует проблемам и ошибкам.
Если вы ищите 100-% дубликат, то можно так:
выбираем набор различных шинглов.
для тех, которые нашлись в ПС, скачиваем всю выдачу ПС-а.
важно, чтобы это была и вправду вся выдача.
среди текстов на сайтах из выдачи ищем наш, уже полной сверкой шинглов.
при этом мы сущесвтенно уменьшим количесвто запросов на ПС, но за кадром останутся плохо синонимизированные дубликаты.
зато полные копии мы найдем, если они вообще есть