как сказал один мой сотрудник: "если человек может прочитать - машина сможет распарсить" и это тру.
сам неоднократно писал хитрые парсеры...
если задаться целью - все ухищрения коту под хвост... от гуру не уйдешь...
из рекомендаций: версию для печати отдавать только владельцам по крайней мере 1-5 новостей (комменты не в счет - их робот может насрать хорошо);
рсс в любом случае отключить или же подрихтовать ручками как это сделали на THG.ru: "о которой редакция THG подготовила подробный рассказ в конце марта 2009 года, когда игра увидела свет. Подробнее об этом читайте на страницах www.thg.ru..."
они просто сократили вывод информации в рсс до минимума и посылают на свой сайт...
можно разбавить текст каким-нить мусором, который через css скрывать, можно сделать быстро и удобно, а копипастеры пойдут лесом
да и отсечь это будет сложно, например:
"Это тру текст из поста"
.......^-сюда вставляем что то типа span class="show_always"> кровавая баня /span
ну и так далее... в алгоритм заложить: кажый 5й пробел заменять 1м и 2м словом из распаршиваемого предложения...
в общем прикладываем голову