Еще раз говорю: забейте на синонимайзер. Не тратьте время впустую. В любой статье найдутся слова, для которых нету синонимов. Ну просто нету, и все. И при любых синонимайзингах этой статьи все эти слова останутся в строго том же количестве и той же последовательности. Это как вирусы детектировать, у которых есть слабые-слабые зачатки полиморфизма: часть инструкций меняется, а часть - остается от копии к копии. Вот по статической части и вычисляют.
С текстом ничуть не сложнее.
Вот простейший алгоритм:
1) берем все словари синонимов, что выкладывались здесь или вообще есть в паблике (задача для яндексоидов вполне посильная, там обычные люди работают). Собираем их в один. Составляем список всех слов, которые в этом словаре встречаются. Просто список, по одному слову в строке.
2) Берем проверяемую статью. В ней все слова, которые встречаются в нашем словарике из пункта 1), заменяем на %
3) Полученный "огрызок" статьи разбиваем по %. Имеем последовательность ключевых слов, по которым производим поиск - т.е. просто ищем все тексты, где определенные ключевые слова (а их у нас из статьи останется довольно много) встречаются в определенном порядке. И получаем весь список статей, полученных синонимайзингом из этой. Сапплементал резалтс, так сказать..
Словарик из пункта 1) можно безболезненно увеличивать путем автоматической обработки вообще всех подряд текстов, взятых из инета. Даже если в него попадет что-то лишнее, что на самом деле не является синонимом - ничего страшного. Какой бы ни был большой словарик, а на пункте 3) мы все равно получим последовательность ключевых слов нужной длины.
Алгоритм этот разумеется можно улучшать и оптимизировать. Здесь приведено лишь простое решение "в лоб" с использованием той технической базы, которой располагаю я как рядовой пользователь яндекса. Внутри компании возможно есть интерфейс поиска по шаблонам - что еще более упрощает задачу.
Добавлено через 2 минуты
Ну вернее нет, не забейте же конечно же. Синонимайзинг вещь полезная и даже необходимая, но далеко не достаточная для того, чтобы текст стал уникальным.