Воруют контент - парсят каждую статью. Что можно сделать?

Статус
В этой теме нельзя размещать новые ответы.
Есть СДЛ с регулярно обновляемым контентом. Wordpress. Контент уникальный.
Случайно нашел сайтик, который уже 6 месяцев тянет каждую публикацию - даже размещаемые статьи лиекса :D
Вырезает из статей все ссылки, все картинки, берется только текст. В конце ставит ссылку на источник, но закрывает в noindex, nofollow.
Статью прогоняет через синонимайзер, но похоже только некоторые абзацы, а не всю статью целиком, причем синонимизируется до нечитаемого текста :)
Теоретически не исключаю того, что контент парсит не один сайт и особо предпринимать то нечего.
Защититься от этого думаю сложно. Но по всей видимости это автоматический парсинг - от него как-то можно попробовать защититься?

Не постесняйся и закрой диапазон ip фаером, посмотри будут ли у него появляться новые статьи, если да, то вычисляй по логам как ходит бот (на rss и на статью, или на морду сайта и на статью) и в бан.

Можно продублировать теги (в которых текст) на странице в виде пустого кейса, под шапкой, чтобы в коде он был первым.

<div class="content"></div>

html разбирают обычно от тега ... до тега, все лишнее отсекают, если угадаешь то он будет забирать пустой тег/див

Насчет защиты от парсинга - тема уже была, в поиск. Есть парочка модулей для Апача - они блокируют ИП клента, который делает больше чем N запросов в единицу времени.
Модули mod_evasive, limitipconn.

Это работает только тогда, когда весь сайт вытягивают, а если только новые статьи, то допустимый предел не превисят.


ну так если он авторские права то ставит, просто с ноиндексом, то так-то все законно))

Законно, когда прямая, индексируемая ссылка, nofollow к этому не относится.

В вордпрессе есть премодерация, можно не размещая на сайте скармливать статью поисковику и как статья попадает в индекс Вы ее публикуете на сайте.

слишком много лишшних движений, проще попинговать его ip :) со своего хоста, пока не ляжет.
 
надо поставить анта хот линк - от парсинга лучьше всего по ай пи банить
 
Законно, когда прямая, индексируемая ссылка, nofollow к этому не относится

с чего бы это?
это абсолютно законно - ссылка есть ссылка и индексирует прекрасно, только вес не передает

ИМХО самый оптимальный - сначала статью в индекс, потом пусть парсят - всё равно ведь отпарсят и "телодвижений" так - минимум
уж точно меньше, чем вычислять и банить, тем более, что это, практически, безсмыссленно - возможно только как разовая мера
 
А если отдавать в рсс только цитату, а не статью полностью? Или все равно спарсят статью полностью?
 
Или все равно спарсят статью полностью?
Легко. Получаем из РСС ссылку на полную статью, идём по этой ссылке и парсим полную статью. Чистим от мусора, обрабатываем и добавляем к себе. Пишется за 5 минут.
porsche2, нормальный вариант предложил, с добавочными тегами.
 
porsche2, нормальный вариант предложил, с добавочными тегами.

Я думаю, это не поможет, первое время может и остановить, но после корректировки парсера все вернется, причем можно сделать универсальный парсер, который берет большой диапазон тегов и текста, отсекает теги и не важно какие там ловушки, - все уберет.
Здесь вариант писать хостеру и разбираться с сайтом.
 
porsche2, нормальный вариант предложил, с добавочными тегами.
этот вариант подходит только для парсеров, которые парсят по маскам, а для автопарсеров по ключевикам - это не подойдет
 
Сталкивался с подобной проблемой, опишу по порядку.
1) Связаться с говноклепателем спога даже не пытайтесь, 99% что ничего не выйдет;

2) Связываться с хостером тоже нет смысла. Большинство таких ГС размещаются на буржуйских фрихостах или дешевых хостингах, на которых администрация вас попросту проигнорирует;

3) Пишите в яндекс сразу как заметили. Но проблема в том, что ГС чаще всего уже забанены в яше, но хорошо кушаются гуглом, который порой воспринимает их как первоисточник. Но сделать новый сайт легче, чем доказать гуглу, что ваш контент воруют;

4) Заблокируйте ип воришки в htaccess;

5) Если лента транслируется через специальный сервис, типа фидбернера то:
5.1) Подавайте в RSS неполные новости;
5.2) Подавайте только заголовки новостей;
5.3) Настройте отложенную публикацию с помощью плагина Deferred RSS для WP;

6) Самый ценный совет: не регистрируйте новый сайт в каталогах RSS! Никакого эффекта от регистрации в подобных сервисах вы не получите, вместо этого вашу ленту разворуют сплогеры.

Вообще воровство контента для молодого сайта чревато попаданием под фильтр "Ты последний", т.к. контент на хороших сплогах обновляется ежеминутно, поэтому проще всего на начальном этапе подавать в RSS только заголовки.
 
все все парсят, грех жаловаться на это. не мы такие, жизнь такая.:)
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху