на самом деле для тотального исключения дублей следует несколько изменить структуру базы, а именно:
1)создать таблицу со словами(корнями слов).
2)создать таблицу со ссылками корень слова-документ.
это базис для того, чтобы анализировать процесс вхождений определенных слов и схожести контента.
при добавлении объявления выдирать из него все слова в массив, брать из них корень, избавляться от вских "в", "на", формировать записи в таблицах описанных выше.
далее для анализа выкидываете допустим 10% полученных слов и смотрите нет ли в базе таких же документов. если есть - дубль.
геморно? да!
а смысл какой? доски объявлений созданы для сбора НЧ трафика с пс. есть дубли, нет дулей - какая разница
1)создать таблицу со словами(корнями слов).
2)создать таблицу со ссылками корень слова-документ.
это базис для того, чтобы анализировать процесс вхождений определенных слов и схожести контента.
при добавлении объявления выдирать из него все слова в массив, брать из них корень, избавляться от вских "в", "на", формировать записи в таблицах описанных выше.
далее для анализа выкидываете допустим 10% полученных слов и смотрите нет ли в базе таких же документов. если есть - дубль.
геморно? да!
а смысл какой? доски объявлений созданы для сбора НЧ трафика с пс. есть дубли, нет дулей - какая разница