Несколько мыслей по поводу составления словаря.
1. базовый блок - однозначных синонимов. Это самый трудный этап, так ка нужно подобрать действительно однозначных.
Предположим ряд:
красивая->великолепная->прекрасная дает однозначность, а
великолепная->прекрасная->красивая уже нет (пример прекрасная погода)
И так дело обстоит во многих случаях. единственное, что можно на первых порах осилить, так это глаголы и наречия. Взять самые употребительные (популярные) глаголы и наречия и сделать основу. Посмотреть, как все будет работать.
Если все будет корректно, сделать систему расширительных слов.
Снова проверить в работе.
Дело ведь не только , чтобы синтезировать контент с определенной уникальностью, но и оценить, как он будет восприниматься поисковиками.
Да и в процессе работы будет приходить определенный опыт, а контроль синонимизированного текста позволит вносить необходимые корректировки.
Как организовать работу, этакий принцип или план "Барбаросса"
1. Софт: чисто специфический парсер, в задачи которого будет входить подсчет числа уникальных слов.
После сбора базы, можно будет узнать наиболее употребительные слова в русском сегменте.
После составления такой базы, ее необходим разбить на составляющие - сущ, прил, причастия, наречия и.т.д. и только после этого, приступать к подбору синонимов.