Разбивка и статистика текста

lift

Читатель
Заблокирован
Регистрация
1 Июл 2007
Сообщения
2.222
Реакции
1.487
Собственно суть, есть текст и много. Разбить его в формат "одно предложение на одну строку" это 5 минут в TextPipe и готово.
А как можно разбить полученый конечный файл на словосочетания по одному в одной строке? Вообще на сколько это реально сделать?
И следом, если допустим все разбито, я могу эти словосочетания упорядочить тоже без особых проблем, тоесть все повторяющиеся будут подрят идти. Можно как то этот файл потом обвешать статистикой, посчитать сколько каждое словосочетание встречается раз, чтоб следом со статистикой этой работать?
Тоесть на входе уменя список с предложениями в текстовом виде (если критично то в мускул загнать не сложно) а на выходе он весь обработаный в виде списка
"словосочетание";N-раз встречается в тексте.
 
Назад
Сверху