Обработка текста и когнитивные технологии

Вид материалаДокументы
2. Снятие семантической многозначности в проекте нкря
3. Классификация предметных имен
Мереологический статус
И еще последите, чтобы в платяном шкафу в моих костюмах не завелась моль.
Подобный материал:
1   ...   6   7   8   9   10   11   12   13   ...   25

2. СНЯТИЕ СЕМАНТИЧЕСКОЙ МНОГОЗНАЧНОСТИ В ПРОЕКТЕ НКРЯ


При создании экспериментальной системы снятия семантической многозначности в нашей работе мы попытались преодолеть недостатки описанных методов, поставив перед собой две цели: 1) система не должна зависеть от тренировочного корпуса и должна опираться на содержательные лингвистические данные; 2) система должна обрабатывать максимальное количество употреблений многозначных слов.

Решением этих двух задач стал подход, основанный на использовании правил контекстного поведения для лексем, принадлежащих отдельным классам семантической классификации. Мы исходили из предположения о том, что большинство особенностей контекстного поведения слов выводимы из их глубинных семантических свойств15. Из этого следует, что, имея развернутую семантическую классификацию предметных имен, мы можем формулировать правила не для отдельных лексем, а для целых классов – ведь класс как раз и является обобщением семантических свойств некоторого множеств лексем (Кобрицов и др. (2004)).

Таким образом, для реализации этого метода необходимо было решить две подзадачи: 1) создание таксономической классификации предметной лексики русского языка и 2) описание контекстных правил выбора значения.

3. КЛАССИФИКАЦИЯ ПРЕДМЕТНЫХ ИМЕН


Подходя к созданию классификации предметных имен, мы сформулировали несколько основных требований, которым она должна удовлетворять. Во-первых, в ней должны отражаться сочетаемостные свойства лексем, во-вторых, номенклатура классов должна быть компактна, логична и удобна в использовании, в-третьих, в классификации должны быть представлены онтологические связи между описываемыми объектами. Наконец, классификации должна быть реализована в таком формате, который допускал бы ее простое применение для семантической разметки текста и анализа семантических контекстов.

В качестве основы было решено взять классификацию предметных имен из базы данных "Лексикограф" (Красильщик, Рахилина (1992)), разрабатываемой группой специалистов под рук. Е.В.Падучевой в отделе лингвистических исследований ВИНИТИ РАН, так как принципы, заложенные в ее основу, идеально соответствуют нашим задачам. Исходное множество предметных имен из "Лексикографа" (~ 4000) было дополнено лексикой из словаря русского языка Ожегова. Всего в классификацию попало около 25 тыс. предметных существительных, из них порядка 4 тыс. имен являются многозначными, образуя около 10 тыс. лексико-семантических вариантов.

При разработке структуры словарной статьи предметного имени главным требованием стали компактность и сопоставимость семантического описания с описаниями других предметных имен. После тщательного рассмотрения различных вариантов решено было остановиться на четырех семантических атрибутах, которые, по нашему мнению, охватывают большую часть семантики существительного. Эти атрибуты: таксономический класс, мереологический статус, форма объекта и предметная область.

Таксономический класс. В поле "таксономический класс" лексеме приписывается семантический класс из выработанной в системе классификации: это может быть 'изделие', 'вещество', 'приспособление', 'емкость', 'отверстие', 'сооружение', 'животное' и многие др. (всего около 80 классов, находящихся в разных узлах иерархии). Значения этого признака устанавливают гипо-гиперонимические отношения между лексемами. Как и в любой иерархии, классы нижних уровней классификации наследуют все семантические признаки классов-родителей.

Мереологический статус. В традиционных словарях тезаурусного типа отношение часть-целое является вторым по значимости после гипо-гиперонимической зависимости. Оно также является чрезвычайно существенным для нашей классификации, так как анализ определенных словосочетаний, выражающих такое отношение, очень во многих случаях позволяет выбрать правильное значение слова, употребленного в этом контексте. Поля данного атрибута – 'мереологический статус' и 'мереологический коррелят', связаны и описывают одно из двух семантических отношений: часть – целое; множество – элемент.

Вопрос о заполнении этого атрибута в классификации решается в зависимости от того, существуют ли в русском языке грамматические конструкции, выражающие соответствующее мереологическое отношение между лексемами. Например, наличие генитивной конструкции крыша сарая является формальным основанием для введения в описание слова крыша мереологического отношения <крыша = часть → строение>. В то же время, недопустимость генитивного определения в конструкции *полуостров страны или *полуостров континента дает основания не считать полуостров частью суши.

Форма. Семантический атрибут "форма" введен в структуру словарной статьи для того, чтобы отразить некоторые особенности семантики имен, которые не представлены в описании других атрибутов. Семантика слова многогранна, и иногда одно и то же слово, может выступать в разных лексико-синтаксических контекстах в зависимости от того, какой аспект значения находится в данный момент в центре внимания. Например, некоторые объекты из класса мебели (но далеко не все) одновременно являются и контейнерами определенного типа, предназначенные для хранения других предметов, что подтверждается наличием контекстов с предлогами 'в', 'из', 'внутри', ср.:

И еще последите, чтобы в платяном шкафу в моих костюмах не завелась моль. (Я.Гашек. Похождения бравого солдата Швейка)

Предметная область. Этот семантический атрибут введен в классификацию для того, чтобы разделить употребления разных значений слов в текстах различной жанровой принадлежности. В НКРЯ представлена разветвленная структура текстовых жанров (см. rpora.ru/corpora-structure.phpl), это в некоторых случаях дает возможность различать значения предметных имен.