дарю идею.
данный метод успешно работал в 2009 году.
как сейчас - не знаю, перешел на СДЛ и соц. сети
Выбрали нишу.
Берем базу Пастухова и дергаем ключи.
Далее делаем запросы для ПС по этим ключам и парсим выдачу. Заметил, что лучше парсить не первые позиции а пониже.
Вычищался текст от тегов и прочей ерунды.
Далее программа синонимизировала контент с помощью словаря Тришина. Там простые dbf-файлы были, поэтому прицепиться к ним не было проблемы.
Затем шел ручной труд! Вычитка и удаление мусора, который оставался, затем статьи паковались в tar.gz и грузились на сайт.
В планах было реализовать сетку сайтов с одним сервером, управляющим сектой (зачеркнуто) сеткой. При загрузке tar.gz он должен бы был распределять статьи между несколькими сайтами и делать перелинковку.
Да, в схеме есть ручной труд. Но все же это копать с помощью экскаватора, а не ладошками.