dandandan
Мой дом здесь!
- Регистрация
- 7 Авг 2008
- Сообщения
- 1.036
- Реакции
- 293
- Автор темы
- #1
Есть около 60 000 ключей из поисковиков, по которым заходили на сайт и около 50 000 страниц сайта. Нужно как-то попытаться вставить ключи в тексты страниц автоматически. Интересует алгоритм или готовое решение на php.
Что делал: Пытался это дело автоматизировать с помощью рекомендаций поисковиков. Указываю искать на моем сайте, вбиваю длинный ключ из 4 - 6 слов, получаю результат - страницы, где есть похожие слова... Но они могут быть разбросаны по всему тексту. В итоге получается много ручной работы...
Тексты могу брать из mysql, могу из txt файлов.
Сейчас появилась идея в следующем алгоритме.
1. Беру ключ: "мама мыла качественно раму мылом дуру". (6 слов)
2. Формирую регулярное выражение со всеми возможными перемешиваниями всех шести слов ключа.
3. Ищу по всем текстам, если нашлись такие словосочитания, записываю куда-нибудь.
4. Составляю все возможные перемешанные варианты из 5 слов.
5. Ищу эти варианты, если что-то нашлось - сохраняю.
6. Итерационно довожу до количества слов = 2, результат записываю.
Ваши рекомендации, пожелания предложения по улучшению алгоритма? Может есть что-то подобное уже в реализованном виде?
Что делал: Пытался это дело автоматизировать с помощью рекомендаций поисковиков. Указываю искать на моем сайте, вбиваю длинный ключ из 4 - 6 слов, получаю результат - страницы, где есть похожие слова... Но они могут быть разбросаны по всему тексту. В итоге получается много ручной работы...
Тексты могу брать из mysql, могу из txt файлов.
Сейчас появилась идея в следующем алгоритме.
1. Беру ключ: "мама мыла качественно раму мылом дуру". (6 слов)
2. Формирую регулярное выражение со всеми возможными перемешиваниями всех шести слов ключа.
3. Ищу по всем текстам, если нашлись такие словосочитания, записываю куда-нибудь.
4. Составляю все возможные перемешанные варианты из 5 слов.
5. Ищу эти варианты, если что-то нашлось - сохраняю.
6. Итерационно довожу до количества слов = 2, результат записываю.
Ваши рекомендации, пожелания предложения по улучшению алгоритма? Может есть что-то подобное уже в реализованном виде?