[DMI] DMII 2.5

Статус
В этой теме нельзя размещать новые ответы.
Скажите а в сборке Родика надо менять пути до теггера в файле crdict.pl на свои?

не нужно, он юзает таггер ввиде перл модуля (use Lpost примерно так должно быть), так что если таггер установился нормально, то все ок должно быть. Мне так и не удалось дождаться, когда разобьет словарь на части речи, а ждала я долго (больше суток) на хорошей тачке, так что пока использую другую версию
 
не нужно, он юзает таггер ввиде перл модуля (use Lpost примерно так должно быть), так что если таггер установился нормально, то все ок должно быть. Мне так и не удалось дождаться, когда разобьет словарь на части речи, а ждала я долго (больше суток) на хорошей тачке, так что пока использую другую версию

Эх.. таки не дождалась, у меня один словарь 4 дня рубило... понимаю что смешно, но факт :)
 
Эх.. таки не дождалась, у меня один словарь 4 дня рубило... понимаю что смешно, но факт :)

Ипать... 4 дня... нет господа, так не катит, надо развивать тему генерации контента, я понимаю что без готовых текстов не обойтись но все таки без быстрой генерации перейти к каким то ощутимым мощностям невозможно...
 
У меня вот такой вопрос, кто как часто обновляет свои словари?
 
У меня словарь на полметра юзаеться для 20к кейвордов=40 доров Х 500 паг
 
А попроще никак? :)
Нужно просто, чтобы кейворды каждый раз перемешивались, а потом генерились.
В PHP shuffle хватает как RedButone, в perl вроде тоже она работает, только в каком месте её применить.
Может подскажешь?
Ну не прогер я :)


У меня вот такой вопрос, кто как часто обновляет свои словари?

Словари обновлять не надо. Новый словарь создается под новую нишу-тему.
 
*** скрытое содержание ***

Словари обновлять не надо. Новый словарь создается под новую нишу-тему.

как это не надо, думаю надо... за заюзаный текст даже перемешанный во многих копиях доров гугль плюс не поставит. ИМХО
 
как это не надо, думаю надо... за заюзаный текст даже перемешанный во многих копиях доров гугль плюс не поставит. ИМХО

Словари если они достаточно большие не могут быть заюзаны. И тексты сгенеренные этим доргеном на их основе получаются уникальными.

Потому что: 2000 наиболее часто используемых слов практически любого языка перекрывают 90% всех текстов на этом языке.

Даже словари из разных тематик, собранные DMI перекрываются процентов на 80-90. Что говорить о об узконишевых текстах? Проверено, что собираются практически одинаковые словари на одной и той же тематике независимо от собранного тематического текста, если его больше чем 2Mb. И они отличаются не более чем на 1-2% друг от друга.
 
Попробывал скормить свой текст. Сделал так как советовали в этом топике. Убрал все галочки в настройках источников. Положил файл с текстом в папку dict/text. Назвал его keyword.txt. В задании словаря так же указал keyword. Запускаю создание, появляется пустой файлик WC и статус Tagging speach. Скажите почему не идет разбивка текста на части речи?

В фале с тексом каждое предложение идет с новой строки.

Использую сборку Родика, LPost поставил. Ось - Убунту.
 
Попробывал скормить свой текст. Сделал так как советовали в этом топике. Убрал все галочки в настройках источников. Положил файл с текстом в папку dict/text. Назвал его keyword.txt. В задании словаря так же указал keyword. Запускаю создание, появляется пустой файлик WC и статус Tagging speach. Скажите почему не идет разбивка текста на части речи?

В фале с тексом каждое предложение идет с новой строки.

Использую сборку Родика, LPost поставил. Ось - Убунту.

Читай выше, ждать надо ооочень долго.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху