porsche2
Мой дом здесь!
- Регистрация
- 18 Ноя 2007
- Сообщения
- 669
- Реакции
- 234
Есть СДЛ с регулярно обновляемым контентом. Wordpress. Контент уникальный.
Случайно нашел сайтик, который уже 6 месяцев тянет каждую публикацию - даже размещаемые статьи лиекса
Вырезает из статей все ссылки, все картинки, берется только текст. В конце ставит ссылку на источник, но закрывает в noindex, nofollow.
Статью прогоняет через синонимайзер, но похоже только некоторые абзацы, а не всю статью целиком, причем синонимизируется до нечитаемого текста
Теоретически не исключаю того, что контент парсит не один сайт и особо предпринимать то нечего.
Защититься от этого думаю сложно. Но по всей видимости это автоматический парсинг - от него как-то можно попробовать защититься?
Не постесняйся и закрой диапазон ip фаером, посмотри будут ли у него появляться новые статьи, если да, то вычисляй по логам как ходит бот (на rss и на статью, или на морду сайта и на статью) и в бан.
Можно продублировать теги (в которых текст) на странице в виде пустого кейса, под шапкой, чтобы в коде он был первым.
<div class="content"></div>
html разбирают обычно от тега ... до тега, все лишнее отсекают, если угадаешь то он будет забирать пустой тег/див
Насчет защиты от парсинга - тема уже была, в поиск. Есть парочка модулей для Апача - они блокируют ИП клента, который делает больше чем N запросов в единицу времени.
Модули mod_evasive, limitipconn.
Это работает только тогда, когда весь сайт вытягивают, а если только новые статьи, то допустимый предел не превисят.
ну так если он авторские права то ставит, просто с ноиндексом, то так-то все законно))
Законно, когда прямая, индексируемая ссылка, nofollow к этому не относится.
В вордпрессе есть премодерация, можно не размещая на сайте скармливать статью поисковику и как статья попадает в индекс Вы ее публикуете на сайте.
слишком много лишшних движений, проще попинговать его ip со своего хоста, пока не ляжет.