Воруют контент - парсят каждую статью. Что можно сделать?

Статус
В этой теме нельзя размещать новые ответы.

itpeople

Гуру форума
Регистрация
6 Дек 2007
Сообщения
545
Реакции
64
Есть СДЛ с регулярно обновляемым контентом. Wordpress. Контент уникальный.
Случайно нашел сайтик, который уже 6 месяцев тянет каждую публикацию - даже размещаемые статьи лиекса :D

Вырезает из статей все ссылки, все картинки, берется только текст. В конце ставит ссылку на источник, но закрывает в noindex, nofollow.
Статью прогоняет через синонимайзер, но похоже только некоторые абзацы, а не всю статью целиком, причем синонимизируется до нечитаемого текста :)

Теоретически не исключаю того, что контент парсит не один сайт и особо предпринимать то нечего.

Защититься от этого думаю сложно. Но по всей видимости это автоматический парсинг - от него как-то можно попробовать защититься?
 
Сначало, думаю стоит обратиться к админу сайта и попросить его убрать noindex и nofollow. Если откажется, то напиши в техподдержку Яндексу и скажи, что это злобный вор твоего контента, к тому же ещё и кривой синонимайзер использует. Если контент правда становится нечитаем, то такому сайту бан обеспечен!
 
ставишь статью без единой ссылки, добавляешь её на индексацию, ждешь, пока проиндексируется, потом подключашь внутренние ссылки, как "должны быть"

без ссылок - её не отпарсят, а после индексации - уже не так важно
 
Смирись и забудь, ты не первый и не последний, даже если его хостеру напишешь и тот его пуганёт, то воришка просто перевезёд этот сайтег на другой.
Если хочешь жаловаться или просить о помощи, лучше места нат, чем темы с граберами контентов.
 
Смирись и забудь, ты не первый и не последний, даже если его хостеру напишешь и тот его пуганёт, то воришка просто перевезёд этот сайтег на другой.
Можно сказать, что я и смирился, т.к. придерживаюсь политики яндекса "делайте сайт для людей и все будет в порядке", но раз это делается на автомате - может всеже есть способы как-то насолить человеку, я просто совсем не знаю, как работают парсеры - может нужно закрыть все карты сайтов и убрать rss или ничего из все же лучше забить?
 
Насчет защиты от парсинга - тема уже была, в поиск. Есть парочка модулей для Апача - они блокируют ИП клента, который делает больше чем N запросов в единицу времени.

Модули mod_evasive, limitipconn.
 
Насчет защиты от парсинга - тема уже была, в поиск. Есть парочка модулей для Апача - они блокируют ИП клента, который делает больше чем N запросов в единицу времени.
Модули mod_evasive, limitipconn.

Только лучше все-таки не банить, а просто вычислить ip, с которого он тебя граббит (90% что это тот же самый ip, что и у его сайта), и добавь в .htaccess rewrite_cond конкретно для этого ip. И когда этот ip в следующий раз будет лезть к тебе за контентом, подмешивай ему всякий мусор в статью - типа там стоп-слов, откусывания окончаний и т.п. Если он действительно грабит на автомате - он быстро таким контентом загонит себя в бан.

Потому что если просто закрывать по ip - найдется тысяча проксей.
 
Имхо, единственный способ прекратить парсинг - закрыть фид, менять почаще хтмл код страниц. На какое то время тянуть перестанут.

Все остальное, как то: банить айпи, совать чето в код и т.п. геморные и неэфффективные.
 
Сначало, думаю стоит обратиться к админу сайта и попросить его убрать noindex и nofollow. Если откажется, то напиши в техподдержку Яндексу и скажи, что это злобный вор твоего контента, к тому же ещё и кривой синонимайзер использует. Если контент правда становится нечитаем, то такому сайту бан обеспечен!
ну так если он авторские права то ставит, просто с ноиндексом, то так-то все законно))
 
  • Заблокирован
  • #10
В вордпрессе есть премодерация, можно не размещая на сайте скармливать статью поисковику и как статья попадает в индекс Вы ее публикуете на сайте.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху