Система семантического разбора для естественно-языковых текстов

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

?томатизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации.

Встречаются системы, использующие семантический анализ естественно-языковых текстов в вопросно-ответном режиме. Пример такой системы описан в статье Ш. Сулейманова и М. Аюповой (Казанский государственный университет, Академия наук Татарстана) [3].

Система интерпретации ЕЯ-текстов в контексте, управляемом системой, включает лексический процессор, семантический интерпретатор и двухуровневую модель ответа, показанный на рисунке 1.3.

Рисунок 1.3 - Крупноблочная схема вопросно-ответного лингвопроцессора

Интерпретация ответного текста происходит следующим образом. Ответ поступает в лексический процессор (ЛексПР) и на основе экземпляра фрейма (ЭКФ) модели ответа (МО) переводится в канонизированное представление ответа (КО) в виде последовательности концептул. Часть информации на лексическом уровне может представлять интерес для дальнейшего разбора (например, для проверки на непротиворечивость с ожидаемой частью ответа), поэтому накапливается в специальных файлах (СФ). Одновременно формируется частичный вектор ситуации (ЧВС), отражающий промежуточную диагностику ответа. Далее канонический текст интерпретируется с привлечением ИКГ. Результат формируется в виде некоторого полного вектора ситуации (ПВС), по которому в блоке управления (БУ) принимается управляющее действие системы на основе соответствующих опций, заполненных предварительно преподавателем и содержащихся в базе знаний предметной области (БЗ ПО). Разработана интерфейсная оболочка, обеспечивающая удобное взаимодействие при эксплуатации семантического анализатора для преподавателя (при подготовке базы вопросов, модели ответов и других опций) и обучаемого (притвете на вопросы системы). На рисунке 1.4 показан фрагмент автоматизированного рабочего места преподавателя. Программа реализована на языке Delphi и обеспечивает семантический анализ ответов и интерфейс на русском, татарском и английском языках.

Рисунок 1.4 - Фрагмент интерфейса АРМ преподавателя

В статье предложен подход к разработке семантического анализатора естественно-языковых текстов в диалоговых обучающих системах в условиях детерминированного контекста, определяемого заданным вопросом. На ряде иллюстрированных примеров изложены особенности и преимущества анализа вопросно-ответных текстов в ситуации "ожидаемого текста" и "детерминированного контекста". В настоящее время разрабатывается развитая версия семантического анализатора в условиях двуязычных вопросно-ответных текстов на татарском и русском языках [4, 5].

Очень важно упомянуть о рабочей группе AOT [6], которое разрабатывает программное обеспечение в области автоматической обработки текста. В круг их интересов в основном входит анализ русского языка. Начиная с 2002 года группа выкладываем разработки с лицензией LGPL. Теперь каждый может бесплатно использовать библиотеки в своих программах, в том числе и в коммерческих приложениях.

Здесь пойдет речь о Леонтьевой Нине Николаевне (русский лингвист , специалист по структурной и прикладной лингвистике, преподаватель). Леонтьева одна из первых заговорила о том, что нужно использовать семантическую информацию для машинной обработки текста. Ее основополагающие концепты семантического отношения, семантической категории и характеристики стали основой прикладной машинной семантики. Несмотря на всеобщее признание ее заслуг, которые могли бы привести к некоторой догматичности, Нина Николаевна по-прежнему интересуется прикладными системами и готова менять и улучшать свои подходы. В центре ее теории находится Русский общесемантический словарь (РОСС), в котором содержится семантическое описание полнозначных лексем русского языка.

В основу ее методологического подхода положено разделение анализа на разные уровни, где каждый уровень есть некоторое представление входного текста. На каждом уровне - свой язык представления, именно язык, а не просто какие-то атрибуты. Конечный результат анализа - построение семантического представления, которое состоит из текстовых фактов-ситуаций. Отношения между ситуациями и другими ситуациями и другими актантами называются семантическими отношениями [7].

Работы группы AOT используют:

-компания "Интеллектуальный Партнер" (русская морфология, Windows);

-компания "@Маil.ru " (русская морфология, FreeBSD);

-Лукойл-Информ (русская и английская морфология, система добавления, Linux);

-проект ВААЛ (синтаксис и тезаурусы, Windows);

-РосНИИ Искусственного интеллекта (русская и английская морфология, Windows);

-компания Megaputer Intelligence (русская и английская морфология, Windows);

-академический проект развития семантического словаря под руководством д.т.н. Н.Н.Леонтьевой в НИВЦ МГУ (синтаксис и поверхностная семантика, Windows).

В общем случае проектов, использующие семантический разбор естественно-языковых текстов, большое количество [6].

Например, такие как, OpenCyc [8]. Выпущенная в июле 2006 года, включает в себя полную онтологию Cyc содержащую сотни тысяч выражений, миллионы утверждений. База знаний содержит 47 000 концепций и 306 000 фактов и её можно просмотреть на сайте OpenCyc. Первая версия OpenCyc была выпуще