Хм, надеюсь тема не умерла, сейчас всё ещё не дошёл до неё, но пишу что уже придумано - одними синонимами в уникализации контанта (а что ни говори - основная тема именно в этом) не обойдёшься - нужен целый набор действий направленных на уникализацию... Синонимы на данном этапе могут представлять только какойто набор - но никак не AI или морфоанализ, несомненно стоящие синонимизаторы есть, но на то они и синонимизаторы - золотым родником никто делиться не станет... пока что думал и не писал ничего дабы не бить забаненым или признанным флудильщиком ( ЫЫ))) - я оно и есть ) Ладно а теперь что можно делать - кстать, хз я запарился с этим рсс граббер и взял реалзиацию от Achiless (обсуждаетсо гдето в параллельной теме) - проблем меньше, но думаю всётаки подход к синонимизации и уникализации в целом у нас будет одинаков =) и оно не принципиально... итак - пункты уникализации
1. Синонимизация, добивать по максимуму но не доходить до дорной бредогенерации и морфологию лучше оставить в сторонке - благу у нас итак много свободно подменяемых слов.
/* Перед тем как писать про другие пункты скажу сразу - всё остальное при реализации стоит врубать , естественно, определённым процентом функцию вызова получения процента от всего количества (с рандомным разбросом - тоесть типо 5 процентов из тысячи - это 50 значений из 1000 причём все 50 рандомно разбросаны по всей этой 1000) вот, незнаю правильно или нет (вообще подход к идее может быть разный, но надеюсь вы меня поняли) - функцию врубания этого процента я накидал примерно так...
PHP:
function variat ($procent , $N) {
for ($i = 0; $i<$procent*$N/100 ; $i++){
$v[$i] = 1;
}
for($k = $procent*$N/100; $k<$n; $k++){
$v[$k]=0;
}
return ($v);
}
Э... вроде всё ^__^ Теперь объясню - всё просто функция принимает два значения - процент и количество, переменная, которая будет содержать значения (1 и 0 - ну как true и false) - $v назначаем $v от ключа 0 до процента от количества (например процент 8, количество сто - от 0 до 8) значения 1, и 0 присваиваем всем остальным значениям (до ключа N) и далее перемешиваем все значения - всё теперь возвращаемый массив имеет процент еденичек в рандомном порядке... всё, теперь пример применения - врубим 1% пропущенных пробелов
$t = 'текст текст текст текст текст текст текст текст текст тескст ... и т.д.'ж
$probel = preg_match_all('/[\s]/', $t);
$v = variat (1, count ($probel));
$c = explode (' ', $t);
for ($i = 0; $i <count($v); $i++){
if ($v[$i] == 1){
$t2 .= '';
} else {
$t2 .= $c[$i];
}
}
имхо - вообще это мой подход, ктото может посмеётся, но такой способ - первое что пришло в голову - принцип включения любых дополнений что я ниже перечислю можно сделать похожим способом... */
2. Различные махинации с расположением слов и предложений (придумать можно много всего - например менять предложения местами до +/- 2 от начального расположения... предложения ведь законченная мысль, верно? )
Выделение слов тегами например <strong> </strong> <i></i> (по разному - моно просто любые, можно процент из частей отделённых запятыми , или предложений (между двумя точками) или между . и , моного всего)
Выделение слов написанных БОЛЬШИМИ БУКВАМИ, английский слов, текста в скобгах - вобщем вы меня поняли =) не знаю как на это отреагируют поисковики, так что интересно
Добавления пустых тегов типо 'текст текст текст <b></b> текст текст'
Пропуск пробелов
Двойной пробел
Добавление внутренних тегов - типо было '<b>'колобок'</b>' cnfkj '<b>'коло'<b>''</b>'бок'</b>'
Врубание некоторых букв транслитом (или например ч = 4 x=х о=o)
Двойные повторения букв - например б - бб
Замена двойных букв (уже присутствующие в тексте) на одинарные например рассвет - расвет
Повторения слов
Манипуляция N-ым количеством слов, отделённых запятыми (комбинирование, возможно удаление некоторых второстепенных слов)
Замена тегов, добавление пустых тегов
Добавление <br>
Повторение слова
Замена:
большой буквы на маленькую с убиранием точки и без
<br> на пробел
? и ! на .
, <--> и (и то и другое взаимо заменяемо)
?! и ?!! <--> ?
. -> !
! <--> !!!
" <-->'
; <--> ,
: <--> -
ну вобщем вы меня поняли - тут можно две сотни приеров привести
'Один' -> 1 и т.п.
Вот это всё помимо синонимайзинга думаю может принести до 10-15 процентов уникальности
D хотя возможно я очень сильно ошибаюсь - вообще интересно узнать) Плюс синонимайзинг и вообще круто =)
также возможно rssВолшебник я пока хз, вообще что это такое и можно ли вообще его както с граббером связать, но похоже что можно... думаю всё это вместе - будет взрывная смесь. И никакой морфологии
. Ладно, терзайте меня критики... Всё это я писал немного спеша и по памяти, так что извините если где ошибся... Ы) Ладно, будет интересно кто что скажет, надо бы самому узнать - может ли както повлиять на уникальность мой подход....
Хм, ну а потом заниматься морфо , AI и прочим. можно уже когда ну совсем не придумать ничего простого - тогда уж зачем мудрить - можно сразу браться за книжки типо этих
Для просмотра ссылки Войди или Зарегистрируйся , думаю идея создания пары десятков тысяч обновляемых порталов с целью создания эволюционной модели генерации методов уникализации не нова - ну всмысле идею толкнуть типо - придумывает скрипт алгоритм, если он хорошо идёт (отдача по посещаемости, выдаче поисковиками, сравнение кеев с тематикой, методу, приёмами ) - алгоритм получает продолжение, развитие, дочерние мутации, если не катит - дохнет и генерится новый алгоритм - таким образом выживают и мутируют, потом снова отсеиваются и снова мутируют, и в конечном итоге выживают только сильнейшие и лучшие методы и алгоритмы, параллельно посещаемость всех проектов в целом растёт =) Конечно от прививки баном ничто не спасёт. даже закалка самого мутарнутого генома, однако
Да и браться за это пока не стоит, в одиночку точно нет смысла , но если кто решится - человек 10, я с вами Ы )) =).