Предлагаю объединить усилия и создать базу синонимов.

Статус
В этой теме нельзя размещать новые ответы.

kutuzov

Писатель
Регистрация
12 Сен 2008
Сообщения
9
Реакции
3
Значит так.
Суть моего предложения такова: объединиться всем заинтересованным лицам и создать нормальную базу синонимов.
Нормальная в моем понимании - это та, которой можно нормально пользоваться.
Конечно, можно нарыть много готовых баз, но пользоваться ими ... В общем, сами понимаете.
Нужна база совершенно иного качества.

Такую базу реально можно сделать только вручную, обдумывая каждое слово.
В одиночку такую работу проделать можно, но для этого нужно очень много времени и огромная сила воли, так как процесс подбора синонимов очень нудный.
Запала обычно хватает на несколько дней, потом на это дело обычно забивается ...:D

А если объединиться, разделить объем работы на части, то каждому достанется совсем по чуть-чуть.
Например, для базы синонимов в 100 тысяч слов раскладка будет такая:

Если 100 человек - то каждому нужно обработать 1000 синонимов;
если 50 человек - то по 2000 синонимов.
Если меньшее количество людей, то объем будет побольше, но в любом случае это несколько тысяч синонимов.

Согласитесь, что обработать несколько тысяч (максимум) слов гораздо проще, чем несколько десятков тысяч.
Уйдет на это времени - максимум неделя (без учета организационного периода). Итого через неделю мы заимеем нормальную рабочую базу синонимов. (На самом деле их будет гораздо больше - но об этом позже).
Например, 50 человек, каждому по 2000 синонимов - делим на 7 дней - получаем, каждый день нужно обработать около 300 слов - согласитесь, это несложно.

К тому же, работа в команде дисциплинирует - ведь каждый будет отвечать за свою часть работы перед всей командой.

Вообще, весь процесс работы над этим проектом я представляю достаточно хорошо.
Как и то, какая должна на выходе получиться база и как это осуществить.

Осталось набрать команду.

Высказывайтесь. Жду вопросов, предложений.

Впереди два выходных дня - можно решить все организационные вопросы, а за следующую неделю все сделать.
И к первому октябрю будет готовая база. :yahoo:
___________
ПС. Просьба к модераторам, если не в тот раздел форума запостил, исправить, и, если можно, закрепить.
 
речь идет о ру или eng синонимах ?
 
База синонимов ничего толкового не даст, читабельным текст не будет! Нужен умный синонимайзер под который разобрана база.

А 100 тругоголиков-активистов набрать на форуме почти не реально:)
 
Уже неоднократно обсуждалось, что любая база синонимов не имеет смысла без анализа контекста при замене.

Можно составить только базу наречий.
 
Уже неоднократно обсуждалось, что любая база синонимов не имеет смысла без анализа контекста при замене.

Можно составить только базу наречий.

Конечно не имеет смысла. Это будет просто голая база синонимов. А что с ней делать - это уже проблемы каждого пользователя. В том числе и как прикрутить анализ контекста.
То есть нужен еще и нормальный синонимайзер.

Лично для себя я это уже решил;). Мне нужна именно база синонимов.
Я понимаю, что 100к слов я просто физически не осилю, поэтому и предлагаю объединиться.
 
в базе синонимов Тришина около 1М синонимичных связей, кто больше?:)
ТС, делайте лучше анализатор контента
 
в базе синонимов Тришина около 1М синонимичных связей, кто больше?:)
ТС, делайте лучше анализатор контента

То, что в базе синонимов Тришина около 1М синонимичных связей - что с того? Да хоть 100 М. Толку только 0.
Ну для синонимизации вручную подойдет. Задача ведь стоит - автоматизировать.

Теперь по поводу анализатора контента;).

Их есть у меня.
Возможности:
Определяет, о чем данный текст в общем и каждое предложение в частности.
Используется база, в которой 2,9 М связей. Ну и словосочетаний - около 24 М.
То есть для меня это пройденный этап:)

Теперь мне нужен словарь синонимов, которые должны быть отобраны вручную.

Один я не справлюсь.
Вот я и подумал - вдруг найдутся желающие поучаствавать в проекте.

Ведь лучше всей компанией есть торт, чем одному давиться дерьмом, не правда ли?
 
  • Заблокирован
  • #8
Уважаемый ТС собрать базу синонимов не сложно, сложно сделать так что б текст полсе автоматического прогона по ней был читабельный. в буржуйском языке все просто и синонимайзер на с++ был написан за 3 дня моим одногрупником, в русском все на много сложнее, куча правил куча исключений роды падежи склонения и прочее. вам уже говорили что база не проблема, проблема умный софт кторой сможет грамотно с ней работать.

если текст обрабатывать в ручную то сойдут и базы которые уже лежат в паблике...
 
вам уже говорили что база не проблема, проблема умный софт кторой сможет грамотно с ней работать.

А я уже говорил, что софт не проблема. Проблема отобрать нужную базу.

вы правильно заметили, что
собрать базу синонимов не сложно, сложно сделать так что б текст полсе автоматического прогона по ней был читабельный
а также
в русском все на много сложнее, куча правил куча исключений роды падежи склонения и прочее
Я все это прекрасно понимаю, и поэтому и предлагаю создать базу, которая бы все это учитывала.

Вообще я предложил создать базу синонимов, а не обсуждать сложности и тонкости создания умного софта.
Никто не говорит, что это просто.
Например у меня ушло на создание софта (который все это учитывает) несколько месяцев.
На выходе получился аналог яндексовской весны. Текст читабельный полностью, только смысла нету. Ну плюс можно задавать процент кеев, стиль изложения, и все такое.

Еще раз говорю - умный софт (учитывающий все правила исключения роды падежи склонения и прочее) написать не проблема.

Вручную отобрать связи - вот проблема.
 
...Нормальная в моем понимании - это та, которой можно нормально пользоваться...
Это не есть четкий критерий, у каждого свое понимание как можно нормально пользоваться.


...100к слов я просто физически не осилю...
100К слов не нужно, их столько не будет распространенных в русском языке, если не считать склоняемые словоформы. Достаточно примерно 10-15К.


в базе синонимов Тришина около 1М синонимичных связей
Тришинский словарь никуда не годится, в нем масса устарелых и практически неупотре***емых слов, а также весьма идиотских словосочетаний, при работе с реальным анализатором окружения используется примерно 2-3К синонимов. Для боевого применения кое-как подходит словарь Евгеньевой.


...На выходе получился аналог яндексовской весны. Текст читабельный полностью, только смысла нету...
Модифицированный алгоритм Маркова - не так ли?


По поводу совместной работы: здесь уже были неоднократные попытки организовать оную, они ни к чему ни привели. Если совместно составлять словарь синонимов, то у каждого человека могут быть отличающиеся мнения по поводу отбора того или иного синонима. Тут главную роль играет общее развитие человека и меньше его образование, а у всех присутствующих они разные. Поэтому я оцениваю такого рода совместное творчество как весьма маловероятное.


Из личного опыта: примерно год назад я тоже собрался вручную создать базу синонимов. Для этого сначала сидел сам пару недель, пока совсем не перестал понимать смысл слов :D, затем нашел парочку профессиональных лингвистов и передал дело им. Но даже предлагая им приличную сумму (до 1К$), тестовые синонимы, которые были ими отобраны, показали малую пригодность при работе на реальных текстах без учета контекста, к тому же крайне трудно было обьяснить этим людям четкие критерии выбора тех или иных синонимов, поскольку и у меня самого они вызывали неоднозначные толкования, причем в зависимости от настроения в данное время :D.


Как вариант: сделать компиляцию всех баз, лежащих в паблике.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху