- Автор темы
- #1
Собственно суть, есть текст и много. Разбить его в формат "одно предложение на одну строку" это 5 минут в TextPipe и готово.
А как можно разбить полученый конечный файл на словосочетания по одному в одной строке? Вообще на сколько это реально сделать?
И следом, если допустим все разбито, я могу эти словосочетания упорядочить тоже без особых проблем, тоесть все повторяющиеся будут подрят идти. Можно как то этот файл потом обвешать статистикой, посчитать сколько каждое словосочетание встречается раз, чтоб следом со статистикой этой работать?
Тоесть на входе уменя список с предложениями в текстовом виде (если критично то в мускул загнать не сложно) а на выходе он весь обработаный в виде списка
"словосочетание";N-раз встречается в тексте.
А как можно разбить полученый конечный файл на словосочетания по одному в одной строке? Вообще на сколько это реально сделать?
И следом, если допустим все разбито, я могу эти словосочетания упорядочить тоже без особых проблем, тоесть все повторяющиеся будут подрят идти. Можно как то этот файл потом обвешать статистикой, посчитать сколько каждое словосочетание встречается раз, чтоб следом со статистикой этой работать?
Тоесть на входе уменя список с предложениями в текстовом виде (если критично то в мускул загнать не сложно) а на выходе он весь обработаный в виде списка
"словосочетание";N-раз встречается в тексте.