Обработка текста и когнитивные технологии

Вид материала

РАЗРЕШЕНИЕ СЕМАНТИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ ПРЕДМЕТНЫХ ИМЕН НА ОСНОВЕ ПРАВИЛ СОЧЕТАЕМОСТИ ДЛЯ ТАКСОНОМИЧЕСКИХ КЛАССОВ Борис Кобрицо
1. Методы снятия семантической многозначности
1.2 Типология систем

Подобный материал:

1 ... 5 6 7 8 9 10 11 12 ... 25

РАЗРЕШЕНИЕ СЕМАНТИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ ПРЕДМЕТНЫХ ИМЕН НА ОСНОВЕ ПРАВИЛ СОЧЕТАЕМОСТИ ДЛЯ ТАКСОНОМИЧЕСКИХ КЛАССОВ

Борис Кобрицов

ВВЕДЕНИЕ

При создании любой системы автоматической обработки текста одной из важнейших проблем является лексическая многозначность слова. Наличие у слова нескольких семантический интерпретаций создает серьезные препятствия для построения правильной структуры текста или выбора релевантных результатов при информационном поиске.

Очевидно, что устранение многозначности способно существенно улучшить результаты работы самых разных систем обработки текста, начиная от машинного перевода, заканчивая программами информационного поиска, автоматического аннотирования и реферирования и т.д.

История создания систем снятия многозначности насчитывает не одно десятилетие, и в последнее время за рубежом существуют проекты, в рамках которых достигнуты весьма неплохие результаты для определенных областей лексики (см. Кобрицов (2004)). К сожалению исследований в этом направлении для русского языка практически нет. Тем не менее, представляется, что такая задача весьма актуальна, более того в этом смысле отечественная лингвистика находится, в некотором смысле, в более выгодном положении: мы можем в полной мере использовать опыт западных разработок в этой области, взяв от них все лучшее и приспособив к русскому материалу.

В данной статье рассматривается метод снятия семантической многозначности для предметных существительных русского языка, основанный на анализе сочетаемостных свойств слов различных таксономических классов. Эта экспериментальная система планируется к внедрению в Национальный корпус русского языка^¹⁴ для частичного снятия многозначности в корпусе семантически размеченных текстов

Статья состоит из 6 разделов: в Разделе 1 рассматриваются типы существующих автоматических систем снятия многозначности, оцениваются их преимущества и недостатки. Раздел 2 представляет наш подход к разрешению неоднозначности, основанный на правилах сочетаемости лексем целых таксономических классов. В Разделе 3 приводится краткий обзор принципов построения классификации предметных имен в нашей системе. В Разделе 4 рассматривается общая стратегия работы системы, описываются типы анализируемых контекстов и типы правил снятия многозначности. В Разделе 5 приводятся примеры правил выбора значения имен в морфосемантическом контексте. В Разделе 6 подводятся итоги и содержится предварительная оценка эффективности работы системы.

1. МЕТОДЫ СНЯТИЯ СЕМАНТИЧЕСКОЙ МНОГОЗНАЧНОСТИ

1.1 Общие принципы

Задача автоматического разрешения семантической неоднозначности находится в центре внимания исследователей, начиная с самого начала работ по компьютерной обработке языка в 50 гг.(Ide, Veronis (1998)). Обычно под снятием семантической неоднозначности подразумевают выбор конкретного словарного толкования для данного употребления слова в тексте. Задача, таким образом, разделяется на два этапа: (1) выделение всех различных значений слова; (2) создание правил, которые позволяют автоматически определить значение каждого употребления слова в тексте.

На первом этапе работы по снятию неоднозначности обычно опираются на данные об общепринятых значениях слова – в них используются:

список значений, например, толкования в обычных словарях;
группы свойств, семантических категорий или семантически связанных слов (например, синонимов, как в тезаурусных толкованиях);
статьи из двуязычных словарей, включающие переводы на другой язык, классы переводных эквивалентов и т. д.

На этапе (2) выполняется выбор значения слова, который базируется на использовании в основном информации двух типов:

контекст слова, для которого осуществляется выбор значения. Контекст включает сведения из текста, в котором употребляется слово, вместе с другими экстралингвистическими данными об этом тексте, например, знание ситуации, в которой употребляется слово и т. п.
внешние источники знаний, включая лексические и энциклопедические словари, и другие источники знаний, которые содержат данные полезные при определения значения слова.

Сама же процедура снятия семантической неоднозначности работает следующим образом. Сначала собираются сведения о контексте употребления слова, сюда могут входить данные о конкретных лексемах, грамматических конструкциях, семантических категориях слов, входящих в окружение рассматриваемого многозначного слова. А затем эта информация сравнивается с такими же данными из базы знаний, в которой собраны свойства контекста для уже определенных значений слова. Если свойства контекста для рассматриваемого словоупотребления совпадают (или имеют высокое сходство) со свойствами контекста из базы знаний, то данному употреблению слова приписывается соответствующее значение из базы знаний.

1.2 Типология систем

Все разнообразие систем автоматического разрешения неоднозначности можно разделить на две категории: 1) основанные на применении лингвистических правил; 2) основанные на статистическом анализе контекстов. В системах первого рода для выбора верного значения используются правила, связывающие употребление слова в определенном значении с характерным контекстом.

Работа систем второй группы состоит из двух этапов: "обучение" на материале тренировочного корпуса и последующее применение к реальным текстам. Сначала на вход системе подается массив текстов, в которых для каждого многозначного слова уже выбрано правильное значение. На основе данных тренировочного корпуса алгоритм разрешения семантической омонимии для значений многозначных слов строит списки контекстов, которые свойственны для данного значения. Таким образом, формируется набор соответствий между употреблением слова в данном значении и непосредственным контекстом. Такие списки контекстов обрабатываются специфическими статистическими алгоритмами, в результате чего образуются эвристические правила выбора значения слова в определенном контексте (см., например, Yarowsky (1992)).

Из сказанного хорошо видны преимущества и недостатки двух методов. Достоинство систем, основанных на статистических моделях, в том, что в них используется минимум лингвистической информации, их можно быстро реализовать, кроме того, один и тот же алгоритм можно применять к текстам на разных языках.

Однако из их достоинств вытекают и их недостатки: для того, чтобы уровень точности снятия многозначности был достаточно высок, размер тренировочного корпуса должен быть очень большим. Это принципиальное ограничение – невозможно построить статистически адекватный механизм выбора значений без достаточно представительной выборки употреблений многозначных слов, со снятой многозначностью. А создание большого корпуса без семантической омонимии требует чрезвычайно больших затрат времени и труда специалистов, что накладывает определенные рамки на проекты такого рода.

Напротив, системы снятия многозначности, основанные на правилах, не требуют тренировочного корпуса, и могут применяться к любому тексту (Weiss (1973)). Кроме того, правиловый подход дает возможность содержательного лингвистического анализа поведения слов в тексте, что обусловливает его ценность с теоретической точки зрения. Однако недостатком этого метода является то, что создание индивидуальных правил требует также большого труда специалистов.