[хак] синонимы для RSS grabber 2.2

MaxLord · 11 Ноя 2007

ЫЫ - я тоже об этом сегодня думал - ну там надо думать как прикрутить чтобы можно было добавлять несколько слов, и чтобы он реально работал как синонимайзер... хз, опять таки данный вариант удобен тем что замена идёт уже на уровне добавления статей, а не перебора уже существующих, а граббер насколько мне известно просто прописывает в бд сграбленные статьи, и не имеет никакого отношения к стандартному методу добавления новостей чарез addnews так что... :nezn:

Кстати как граббер работает на dle 6.3 ? у мну чёто в последнее время вообще отказывается грабить =(

MaxLord · 13 Ноя 2007

Хм, надеюсь тема не умерла, сейчас всё ещё не дошёл до неё, но пишу что уже придумано - одними синонимами в уникализации контанта (а что ни говори - основная тема именно в этом) не обойдёшься - нужен целый набор действий направленных на уникализацию... Синонимы на данном этапе могут представлять только какойто набор - но никак не AI или морфоанализ, несомненно стоящие синонимизаторы есть, но на то они и синонимизаторы - золотым родником никто делиться не станет... пока что думал и не писал ничего дабы не бить забаненым или признанным флудильщиком ( ЫЫ))) - я оно и есть ) Ладно а теперь что можно делать - кстать, хз я запарился с этим рсс граббер и взял реалзиацию от Achiless (обсуждаетсо гдето в параллельной теме) - проблем меньше, но думаю всётаки подход к синонимизации и уникализации в целом у нас будет одинаков =) и оно не принципиально... итак - пункты уникализации
1. Синонимизация, добивать по максимуму но не доходить до дорной бредогенерации и морфологию лучше оставить в сторонке - благу у нас итак много свободно подменяемых слов.
/* Перед тем как писать про другие пункты скажу сразу - всё остальное при реализации стоит врубать , естественно, определённым процентом функцию вызова получения процента от всего количества (с рандомным разбросом - тоесть типо 5 процентов из тысячи - это 50 значений из 1000 причём все 50 рандомно разбросаны по всей этой 1000) вот, незнаю правильно или нет (вообще подход к идее может быть разный, но надеюсь вы меня поняли) - функцию врубания этого процента я накидал примерно так...

PHP:

function variat ($procent , $N) {
for ($i = 0; $i<$procent*$N/100 ; $i++){
$v[$i] = 1;
}
for($k = $procent*$N/100; $k<$n; $k++){
$v[$k]=0;
}
return ($v);
}

Э... вроде всё ^__^ Теперь объясню - всё просто функция принимает два значения - процент и количество, переменная, которая будет содержать значения (1 и 0 - ну как true и false) - $v назначаем $v от ключа 0 до процента от количества (например процент 8, количество сто - от 0 до 8) значения 1, и 0 присваиваем всем остальным значениям (до ключа N) и далее перемешиваем все значения - всё теперь возвращаемый массив имеет процент еденичек в рандомном порядке... всё, теперь пример применения - врубим 1% пропущенных пробелов
$t = 'текст текст текст текст текст текст текст текст текст тескст ... и т.д.'ж
$probel = preg_match_all('/[\s]/', $t);
$v = variat (1, count ($probel));
$c = explode (' ', $t);
for ($i = 0; $i <count($v); $i++){
if ($v[$i] == 1){
$t2 .= '';
} else {
$t2 .= $c[$i];
}
}
имхо - вообще это мой подход, ктото может посмеётся, но такой способ - первое что пришло в голову - принцип включения любых дополнений что я ниже перечислю можно сделать похожим способом... */

2. Различные махинации с расположением слов и предложений (придумать можно много всего - например менять предложения местами до +/- 2 от начального расположения... предложения ведь законченная мысль, верно? )

Выделение слов тегами например (по разному - моно просто любые, можно процент из частей отделённых запятыми , или предложений (между двумя точками) или между . и , моного всего)

Выделение слов написанных БОЛЬШИМИ БУКВАМИ, английский слов, текста в скобгах - вобщем вы меня поняли =) не знаю как на это отреагируют поисковики, так что интересно

Добавления пустых тегов типо 'текст текст текст текст текст'

Пропуск пробелов

Двойной пробел

Добавление внутренних тегов - типо было ''колобок'' cnfkj ''коло''''бок''

Врубание некоторых букв транслитом (или например ч = 4 x=х о=o)

Двойные повторения букв - например б - бб

Замена двойных букв (уже присутствующие в тексте) на одинарные например рассвет - расвет

Повторения слов

Манипуляция N-ым количеством слов, отделённых запятыми (комбинирование, возможно удаление некоторых второстепенных слов)

Замена тегов, добавление пустых тегов

Добавление 

Повторение слова

Замена:
большой буквы на маленькую с убиранием точки и без
 на пробел
? и ! на .
, <--> и (и то и другое взаимо заменяемо)
?! и ?!! <--> ?
. -> !
! <--> !!!
" <-->'
; <--> ,
: <--> -
ну вобщем вы меня поняли - тут можно две сотни приеров привести
'Один' -> 1 и т.п.

Вот это всё помимо синонимайзинга думаю может принести до 10-15 процентов уникальности

D хотя возможно я очень сильно ошибаюсь - вообще интересно узнать) Плюс синонимайзинг и вообще круто =)

также возможно rssВолшебник я пока хз, вообще что это такое и можно ли вообще его както с граббером связать, но похоже что можно... думаю всё это вместе - будет взрывная смесь. И никакой морфологии

. Ладно, терзайте меня критики... Всё это я писал немного спеша и по памяти, так что извините если где ошибся... Ы) Ладно, будет интересно кто что скажет, надо бы самому узнать - может ли както повлиять на уникальность мой подход....

Хм, ну а потом заниматься морфо , AI и прочим. можно уже когда ну совсем не придумать ничего простого - тогда уж зачем мудрить - можно сразу браться за книжки типо этих Для просмотра ссылки Войди или Зарегистрируйся , думаю идея создания пары десятков тысяч обновляемых порталов с целью создания эволюционной модели генерации методов уникализации не нова - ну всмысле идею толкнуть типо - придумывает скрипт алгоритм, если он хорошо идёт (отдача по посещаемости, выдаче поисковиками, сравнение кеев с тематикой, методу, приёмами ) - алгоритм получает продолжение, развитие, дочерние мутации, если не катит - дохнет и генерится новый алгоритм - таким образом выживают и мутируют, потом снова отсеиваются и снова мутируют, и в конечном итоге выживают только сильнейшие и лучшие методы и алгоритмы, параллельно посещаемость всех проектов в целом растёт =) Конечно от прививки баном ничто не спасёт. даже закалка самого мутарнутого генома, однако :-]

Да и браться за это пока не стоит, в одиночку точно нет смысла , но если кто решится - человек 10, я с вами Ы )) =).

tigraz_kill · 13 Ноя 2007

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

типа рабочий

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

demmy · 14 Ноя 2007

MaxLord,
1. Зачетная вещь 100%
2. Насколько я знаю теги влияют на вес станицы, но не уникальность содержимого и тупо игнорируются. Туда же идут большие буквы.Буквы транслитом в кивордах, прощайте поисковики.

MaxLord · 14 Ноя 2007

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Добавлено через 8 минут

tigraz_kill написал(а):
*** скрытое содержание ***

типа рабочий
*** скрытое содержание ***

А толку то от него =) Если оно не качабельно - встроить то его в граббер мы не сможем

Полюбасу кста. рсс волшебник можно юзать вместе с граббером - результат - большой процент к уникальности =) насколько я понял. ещё не пробовал - теперь интересно - как это можно связать с моей идей тысячи порталов.... :nezn:

Ладно, будем дерзать :smmne:

к выходным хочу уже приступить

rus-us · 14 Ноя 2007

Идея хорошая.
Но учтите, что нагрузка на серв. будет нехилая при таком алгоритме. Разве что на выделенном запускать. Или както процес разделить на части.

MaxLord · 14 Ноя 2007

Ноу проблемз =) Выделен целый комп и отдельный интернет канал, ипак правда один пока на все сайты, но посмотрим какая отдача получится, идея ещё дорабатывается, но часть скриптов готова - проекты будут прямо генериться из окна - вводишь только название, описание - он сам подбирает ключевики, вбивает домен из списка, прописывает его на папку, генерит шаблон и проект для All Submitter в итоге должна получиться штука порталов, прогнанных по каталогам... базку каталогов вроде нормальную сколотил... Сегодня вроде закончил с поиском/регом/собиранием рсс каналов с сайтов, с которых будет тыриться инфа, скрипты дописаны на 90% чуствую - осталось чуть чуть... ещё немного осталось продумать - домены тоже практически автоматически регаются - net.ru и pp.ru
... Если кто хочет - можно присоедениться - хорошие идею, и лишние руки никогда не помешают... (впрочем руки лишними не бывают Ы) )

Добавлено через 18 минут
хм, кстати токо узнал - рсс волшебник не грабит полные новости, так что предложение с обработкой сначала волшебником, а потом граббером - не в силе, однакож задумываться о превношении функционала волшебника в граббер можно - там ведь код открытый, верно? значит просто нуно во всём разобраться... Далее... ещё такой пунктик неплохо бы для снижения нагрузки сначала полностью клонировать каналы - тоесть о чём я говорю - допустим 1000 порталов - все они грузят инфу в 20 разделов с допустим нескольких тысяч рсс (примерно по 200 рсс рандомно из списка на каждый потал) - тогда получается что многие рсс используются несколькими порталами - тоесть лишний раз.ю а может быть и не раз, а двадцать грузится одно и тоже - логично снизить нагрузку обеспечив клонирование всех каналов, а потом обращение из грабберов непосредственно к клонам - на локалхост - тогда не грузится ничего лишнего, меньше тратится ресурсов. и обработка естественно быстрее, причём берётся одинаковый только исходник - - уникализация будет рандомной, да и сами наборы рсс будут отличаться .... Только вот я не знаю как это реализовать... Либо может может целый скрипт писать для непосредственного граббинга каналов в ббазу - а в порталах только получение из базы, обработка и постинг... незнаю,Ю проще наверно первый вариант, но хз как =) хотя по ресурсо-затратам второй вариант намного более привлекателен... надо подумать на досуге.

apgo · 15 Ноя 2007

MaxLord написал(а):
Ноу проблемз =) Выделен целый комп и отдельный интернет канал, ипак правда один пока на все сайты, но посмотрим какая отдача получится, идея ещё дорабатывается, но часть скриптов готова - проекты будут прямо генериться из окна - вводишь только название, описание - он сам подбирает ключевики, вбивает домен из списка, прописывает его на папку, генерит шаблон и проект для All Submitter в итоге должна получиться штука порталов, прогнанных по каталогам... базку каталогов вроде нормальную сколотил... Сегодня вроде закончил с поиском/регом/собиранием рсс каналов с сайтов, с которых будет тыриться инфа, скрипты дописаны на 90% чуствую - осталось чуть чуть... ещё немного осталось продумать - домены тоже практически автоматически регаются - net.ru и pp.ru
... Если кто хочет - можно присоедениться - хорошие идею, и лишние руки никогда не помешают... (впрочем руки лишними не бывают Ы) )

Добавлено через 18 минут
хм, кстати токо узнал - рсс волшебник не грабит полные новости, так что предложение с обработкой сначала волшебником, а потом граббером - не в силе, однакож задумываться о превношении функционала волшебника в граббер можно - там ведь код открытый, верно? значит просто нуно во всём разобраться... Далее... ещё такой пунктик неплохо бы для снижения нагрузки сначала полностью клонировать каналы - тоесть о чём я говорю - допустим 1000 порталов - все они грузят инфу в 20 разделов с допустим нескольких тысяч рсс (примерно по 200 рсс рандомно из списка на каждый потал) - тогда получается что многие рсс используются несколькими порталами - тоесть лишний раз.ю а может быть и не раз, а двадцать грузится одно и тоже - логично снизить нагрузку обеспечив клонирование всех каналов, а потом обращение из грабберов непосредственно к клонам - на локалхост - тогда не грузится ничего лишнего, меньше тратится ресурсов. и обработка естественно быстрее, причём берётся одинаковый только исходник - - уникализация будет рандомной, да и сами наборы рсс будут отличаться .... Только вот я не знаю как это реализовать... Либо может может целый скрипт писать для непосредственного граббинга каналов в ббазу - а в порталах только получение из базы, обработка и постинг... незнаю,Ю проще наверно первый вариант, но хз как =) хотя по ресурсо-затратам второй вариант намного более привлекателен... надо подумать на досуге.

круто. я тож хочу поучаствовать. пиши в личку, чем помочь. так же есть несколько идей.

MaxLord · 15 Ноя 2007

э... пок ане забыл - это тоже по теме - кто знает нормальный крон? а то перловский я не врубил как ставить вообще =) , либо объясните что как, либо дайте чтонить десктопное плз... а то щас у мну визуал крон, триальный - штучка супер, токо вот 30 дней скоро закончатся =(

Добавлено через 2 минуты

aliokero написал(а):
а не боитесь зендовыого кота в мешке ставить? а если грохнуть сайт?

хм, ты о чём собсно? Инет такая штука - тут везде коты в мешках... а я хочу если уж кота, то не в мешке, а в красивой упаковке. Жизнь не сказка, зато вляпаться можно поразному

Если что вдруг - у мну ещё вагон фантазии... дизайнер же я как никак... :-]

sotaman · 16 Ноя 2007

Есть RSS Grabber и без Zend. Ищите на этом форуме. Не надо лениться.

[хак] синонимы для RSS grabber 2.2

MaxLord

Профессор

MaxLord

Профессор

tigraz_kill

Гуру форума

demmy

Постоялец

MaxLord

Профессор

rus-us

Гуру форума

MaxLord

Профессор

apgo

Мастер

MaxLord

Профессор

sotaman

Постоялец