Обработка текста и когнитивные технологии
Вид материала | Документы |
4. Общие принципы работы системы снятия семантической многозначности в проекте нкря 4.1 Типы контекстов 4.2 Правила выбора значения 4.3 Семантическая разметка |
- Нарушение требований точности словоупотребления: употребление слов в несвойственных, 177.4kb.
- Перевод и обработка текста но бф «приют детства» проект «К новой семье», 117.8kb.
- Центр усыновления швеции. Обработка текста но бф «приют детства» проект «К новой семье», 233.45kb.
- Системно-смысловой анализ текста, 11.16kb.
- План стилистического анализа текста Экстралингвистический анализ текста, 26.37kb.
- 1. Информационные технологии. Структура информационного процесса. Сбор, обработка,, 1016.5kb.
- М. Б. Бергельсон, мгу когнитивные механизмы через призму практического овладения языком, 388.98kb.
- «Прикладные технологии гидроакустики и гидрофизики» га–2012, 39.78kb.
- Тема: обработка конструкционных материалов лекция 16 Обработка конструкционных материалов, 82.83kb.
- А. В. Бернштейн, заведующий лабораторией, 122.14kb.
4. ОБЩИЕ ПРИНЦИПЫ РАБОТЫ СИСТЕМЫ СНЯТИЯ СЕМАНТИЧЕСКОЙ МНОГОЗНАЧНОСТИ В ПРОЕКТЕ НКРЯ
Структура нашей системы разрешения неоднозначности выглядит следующим образом:
- на входе система получает текст с морфологической и семантической разметкой
- "внутри" находится множество правил, которые на основе морфосемантического контекста выбирают правильное значение для многозначных слов
- после работы системы в области семантической разметки для многозначного слова, остается описание правильного значения, либо "вычеркиваются" значения, которые, согласно правилам, это слово не может иметь в данном контексте.
В дальнейшем мы будем предполагать, что правила применяются только к текстам со снятой морфологической омонимией, которые входят в состав Национального корпуса русского языка. Теоретически, ничто не запрещает их использование и для корпуса с неснятой омонимией, однако точность результатов будет однозначно ниже, либо же правила разрешения многозначности нельзя будет применить.
4.1 Типы контекстов
Все правила выбора значения опираются на непосредственный контекст омонимичного слова. Идеальным решением было бы формулировать такие правила на основе синтаксической структуры предложения. Однако в нашей системе снятия семантической многозначности мы отказались от использования синтаксического уровня представления. Это связано в основном с тем, что для русского языка на сегодняшний момент не существует достаточно надежной системы автоматического синтаксического анализа.
Тем не менее, отсутствие полной синтаксической структуры не является существенным препятствием. Дело в том, что в НКРЯ принята детальная морфологическая разметка текстов, и существует возможность развернутого контекстного поиска словоформ. Это дает возможность построить некоторый вариант упрощенного синтаксического анализа, который позволяет устанавливать элементарные синтаксические отношения между словами-соседями. Как показывает данное исследование, для разрешения многозначности омонимичных имен в подавляющем большинстве случаев достаточно рассмотреть такие синтаксические фрагменты.
Все синтаксические конструкции, необходимые для наших задач можно разделить на несколько групп, в зависимости от типа контекста, который они описывают:
- с атрибутивным определением;
- с генитивной конструкцией;
- с предложным управлением;
- с глагольным управлением.
4.2 Правила выбора значения
Правила снятия семантической многозначности можно разделить на два следующих вида:
(1) если для слова W, имеющего n значений с семантическими описаниями, соответственно, {S1, S2 .. Sn}, выполняется некоторое условие IF, то это слово употреблено в значении Si.
(2) если для слова W, имеющего n значений с семантическими описаниями, соответственно, {S1, S2 .. Sn}, выполняется некоторое условие IF, то это слово не может быть употреблено в значениях {Si .. Sj}.
Правила первого типа называются селективными, потому что они непосредственно задают выбор значения, правила второго типа называются рестриктивными, так как они запрещают употребление слов определенных семантических классов в рассматриваемом контексте. Легко видеть, что если у слова выделяется только два значения, рестриктивное правило автоматически становится селективным: неверное значение отсекается и остается единственно возможное второе значение.
Если же слово имеет более двух значений, то применение рестриктивных правил снижает число неверных интерпретаций, таким образом, результаты запроса, которые получает пользователь, содержат гораздо меньше лингвистического "шума".
Все множество правил организовано в виде очереди: сначала идут правила, применимые к крупным классам имен, затем правила, описывающие индивидуальные особенности лексем классов нижних уровней таксономической иерархии. Правила выполняются последовательно для каждого случая многозначности, если на определенном этапе у слова остается только одно значение, то работа по разрешению неоднозначности прекращается. Если для данного контекста неприменимо ни одно из правил, то многозначность остается неснятой.
Таким образом, при формировании правил главной исследовательской задачей стало выявление контекстных условий для слов различных таксономических классов. При их поиске мы активно пользовались корпусом русских текстов со снятой морфологической омонимией, которым была приписана семантическая разметка. Была создана специальная программа, позволяющая осуществлять поиск контекстов слова по разным морфосемантическим признакам. Итак, первоначальные гипотезы о правилах выбора значения формировались на основе данных классификации и корпуса морфологически размеченных текстов. Затем, полученные правила проверялись на большом корпусе (НКРЯ) без снятой омонимии, при такой проверке главное внимание уделялось двум факторам: 1) сколько предложений с многозначными предметными именами попадают под действие правил, 2) в скольки процентах случаев применения правил выбиралось верное значение существительного. Заметим, что главным требованием при создании правил было следующее: применение правил не должно давать неверных результатов. Наш опыт в разработке автоматических систем обработки текста показывает, что на порядок проще развивать систему, построенную на базе простых правил, постепенно усложняя и оптимизируя ее работу, чем, изначально заложив возможность решать очень широкий круг задач, в последствии бороться с неверными результатами, которые неизбежно возникают при разработке систем такого уровня сложности.
4.3 Семантическая разметка
Как видно из перечня синтаксических конструкций, которые используются в правилах выбора значения, для полноценной работы системы помимо классификации предметных существительных необходимо иметь семантическое описание прилагательных и глаголов. Такие классификации были созданы в рамках работы над проектом Национального корпуса русского языка.
Перед участниками проекта встала задача создать достаточно емкое, но, в то же время, компактное семантическое описание классов прилагательных и глаголов, которое бы отражало общепринятые представления о семантической организации лексики. Такой подход в большой степени связан с экспериментальным характером планируемой семантической разметки. И наше исследование в числе других задач, призвано оценить точность и полноту проведенной классификации и предоставить объективные требования к изменению состава и наполнения классов.
Для глаголов выделялись такие семантические классы как восприятие(наблюдать, слышать), речь(лгать, орать), движение(лезть, бежать) и др., всего около 40. Прилагательные были разделены примерно на 30 категорий такие как размер(высокий, маленький), форма(круглый, рифленый), эмоции(веселый, растерянный) и др.16
Несмотря на немногочисленность классов, такая классификация глаголов и прилагательных, в большинстве случаев позволяет выбрать правильное значение предметного имени.