E-mail: Djavdet. Suleymanov@ksu
Вид материала | Документы |
- Новые технологии в системе оценки качества школьного образования, 184.96kb.
- Авторы программы и лекторы: доктор физ мат наук, профессор Д. А. Таюрский (Dmitrii., 162.8kb.
- с) 1999 А. Аливердиев (e-mail: aliverdi@mail, 1826.11kb.
- О. А. Невзорова ниимм им. Н. Г. Чеботарева, Татарский государственный гуманитарно-педагогический, 220.71kb.
- Нп «сибирская ассоциация консультантов», 69.44kb.
- Берестовая Жанна Александровна, методист гцро, тел. 74-57-34; e-mail: metodist-70@mail, 43.21kb.
- Россия. Москва, ул. Сущевский вал, д. 47, стр. 2, оф. 1, Пц «Маэстро» (конкурс), 127.12kb.
- Кубанского Государственного Аграрного Университета, Краснодарского края состоится 18-я, 28.2kb.
- Открытый конкурс. Наименование, почтовый адрес, номер контактного телефона, 1173.49kb.
- Научная электронная коллекция: опыт разработки и реализации, 120.82kb.
Система SAM, созданная Р.Шенком, читает небольшие рассказы и отвечает на разнообразные вопросы по прочитанному материалу. Акцент в работах Р.Шенка сделан на вычленении, описании и использовании общих знаний о мире при автоматической переработке текстов на естественных языках. Модель концептуальной зависимости, разработанная группой исследователей под руководством Шенка, позволяет описывать знания о языке и знания об окружающем мире, выраженные в терминах семантических атомов и сценариев [101], оперировать комплексом правил, классами умозаключений и классами английских лексем для обработки входного текста.
Исследования У.Ленерта в области вопросно-ответных диалоговых систем связаны с системой SAM и другими концептуальными системами понимания текстов на естественном языке, для которых умение отвечать на вопросы является демонстрацией понимания. В работе "Проблемы вопросно-ответного диалога" [151] исследуются проблемы, возникающие при построении системы, способной понимать тексты рассказов и демонстрировать свое понимание, отвечая на вопросы по тексту. Рассмотрены ряд трудностей, которые проявляются на трех уровнях - социального контекста, языковой обработки и поиска информации в памяти.
Система ПОЭТ, разработанная группой Э.В.Попова, одна из первых промышленных ЕЯ - систем, позволяющей интерпретировать запросы пользователя и формировать соответствующие ответы в проблемной области транспортных перевозок на ограниченном ЕЯ в условиях жестких временных ограничений. Эта система осуществляет: 1) анализ входного предложения; 2) его интерпретацию; 3) синтез ответа на ЕЯ. Анализ входного предложения включает этапы морфологического, синтаксического и семантического анализов.
Система MYCIN Шортлиффа отвечает на вопросы врача, обращающегося к базе знаний за объяснениями симптомов болезни, помогает ставить диагноз и предлагает рецепт лечения.
Авторы интеллектуальной вопросно-ответной системы (ИВОС) [42] еще в 1977 году провели большую опытно-исследовательскую работу и изложили базовые принципы создания подобных систем. Под ИВОС понимаются системы, способные накапливать информацию о проблемной среде и использовать ее для ответов на разнообразные вопросы относительно этой проблемной среды. Все вопросы, задаваемые пользователем системе, делятся на два класса. К первому отнесены вопросы, информация для ответов на которые находится в системе в явном виде. Задача при этом заключается в организации эффективного поиска данных, поставляющих ответ на вопрос. Второй класс составляют такие вопросы, ответы на которые не хранятся в системе в явном виде, а могут быть получены лишь в результате вывода на основе имеющейся информации.
Система конструирования ЕЯ-интерфейсов к базам данных (БД) InterBASE [54, 122] также является примером прагматически ориентированного подхода к построению лингвопроцессора. Здесь прагматичность достигается за счет четкой ориентации на тип входных текстов - это обращения на ЕЯ к реляционным базам данных или к их приложениям, максимальный учет всех известных факторов: универсальной лексики (относящиеся к классам ОТНОШЕНИЕ, СОЮЗ, НЕЗНАЧИМОЕ и др.), слова специальных категорий БД (значения атрибута). Основой для создания ЕЯ-интерфейса служит заполненная БД. Система работает в двух режимах: построения ЕЯ-интерфейса к базам данных (режим конструктора) и обработки запросов к базам данных (режим пользователя).
ЭТАП-2 - система, разработанная как переводческая и предназначенная для качественного перевода научно-технических текстов с английского языка на русский. Однако, лингвистическое обеспечение системы, раскрываемое в [7], благодаря доступности основных лингвистических компонент для специалистов, может быть использовано в широком спектре информационных систем, имеющих дело с переработкой текстов на ЕЯ, в частности, в диалоговых системах, предусматривающих общение с базами данных и базами знаний на относительно свободном естественном языке. ЕЯ-интерфейс, сконструированный на основе лингвистического обеспечения ЭТАП-2 является самостоятельной программной единицей, позволяющей обращаться к базе данных с запросами на естественном языке.
Как показывает анализ исследований и систем, ориентированных на запросно-ответный диалог, каждая из них, имея свои особенности моделирования запросно-ответной ситуации, в то же время реализует следующую общую схему: воспринимает сообщение пользователя как запрос и формирует соответствующий ответ на основе знаний системы.
В работах [45-47] рассматриваются аспекты естественно-языкового запросно-ответного интерфейса в обучающей ситуации. Обоснованно утверждается, что автоматизированное обучение является одной из таких сфер, где использование для общения с ЭВМ ЕЯ целесообразно и с точки зрения удобства для пользователя, и по существу. К тому же разумно требовать, чтобы изучение входного языка АОС не отнимало много времени и сил, а в диалоге обучаемый заботился прежде всего о содержании адресуемых системе сообщений, а не о допустимости того или иного слова или оборота. Ориентация на активного обучаемого - наиболее характерная черта АОС «Луч» (Лисп-УЧитель), обучающей языку программирования Лисп. В отличие от нашего подхода, здесь активным является ученик, задающий системе вопросы по теме. Обучаемый имеет право начать в любой момент, например, когда он не может решить очередную задачу и обращается к системе с вопросом. Главная функция вопросно-ответного блока: поиск ответа на вопрос обучаемого.
Аннотированный библиографический указатель работ по теории вопросов и ответов (составители У.Эгли и Х.Шлейхерт), приведенный в [151], содержащий ссылки на более чем 200 источников с аннотациями, также демонстрирует интенсивность исследований и разработок именно для второго подхода, т.е., когда активным является пользователь. Классификация вопросов в большинстве случаев осуществляется: либо по лексическому принципу (например, что-, почему-, как-вопросы), либо по степени конкретности запроса и эксплицитности или имплицитности поисковой информации в базе данных.
Выше рассматривались системы, функционирующие в ситуации, когда активен пользователь. Диалоговое общение с системой в режимах 1 и 3 практически остается малоизученной областью, что вполне объяснимо. Режим 1 в чистом виде встречается на практике сравнительно реже [25], чем второй режим взаимодействия человек - ЭВМ, и в большей степени этот режим изучается как часть режима 3, когда осуществляется общение с ЭВМ с переменной инициативой участников общения. Но уровень теоретических исследований и существующие модели языков, как показала практика, пока не позволяют удовлетворительно реализовать третий (т.е., свободный, гибкий) режим общения пользователя с системой [35, 50, 51].
Принципы построения лингвистической модели и реализации функций лингвистического процессора естественным образом находятся в прямой зависимости от прагматической ориентированности лингвистической модели и специфики соответствующего класса ЛП. Выявление и учет этих прагматических характеристик дает возможность строить более эффективные системы, ввиду применения адекватных методик, ориентированных на узкий круг задач.
Что меняется, когда вопросы задает система, а пользователь отвечает, т.е. имеет место первый режим взаимодействия пользователя и системы? Рассмотрению вопросно-ответных текстов и построению соответствующих формализаций именно в такой ситуации посвящена работа [25].
- Вопросно-ответные системы.
В процессе диалогового общения всегда существует контекст, который определяет дополнительную информацию, способствующую правильному пониманию смысла сообщения. В условиях вопросно-ответного диалога такой контекст настолько определенен, что задающий вопрос достаточно четко может априори очертить круг ожидаемых возможных ответов и декодировать ожидаемый смысл из многообразия грамматически правильно построенных фраз в соответствии с этим предварительным знанием. Другой важнейшей особенностью вопросно-ответной ситуации является довольно жесткое управление смыслом ответного текста контекстом, ранее сложившимся в процессе диалога и смысловой формой поставленного вопроса. Очевидно, прагматическая информация о том, что анализ текста происходит в ситуации, когда смысл логически правильного ответа известен и ожидаем, а также то, что ответ пользователя управляется контекстом, должна быть учтена при разработке эффективного лингвистического процессора.
Примером диалоговой модели, наиболее естественно моделирующей вопросно-ответную ситуацию, т.е. режим, когда активна система и пассивен пользователь, является вопросно-ответный диалог в автоматизированной обучающей системе (АОС). Вопросно-ответная ситуация в автоматизированных обучающих системах имеет следующие особенности, учет которых позволяет строить прагматически-ориентированные лингвистические модели как основы эффективных анализаторов ответов обучаемого.
1. Особенность входного текста.
Анализаторы автоматизированных обучающих систем (АОС), систем понимания естественного языка (СПЕЯ) и системы машинного перевода (СМП) имеют дело с различными входными текстами. В СМП - это произвольный текст практически без ограничений на форму и объем. В СПЕЯ содержание диалога, хотя и ограничено какой-то темой, может быть достаточно свободным, размытым и может включать избыточную правильную (т.е. не противоречащую, адекватную знаниям системы) информацию, которая также должна быть понята. Это, безусловно, "отвлекает" анализатор и требует выполнения избыточной работы, занимает избыточное время. В АОС текст на ЕЯ - это ожидаемый ответ на заданный вопрос. Вопрос АВТОРа накладывает определенные ограничения на форму ответа и его содержание. Ожидаемый объем ответа ограничивается требуемой степенью подробности по заданному вопросу. В силу определенности контекста и ожидаемых лексем, сводится к минимуму неоднозначность лексем (омонимия, полисемия, синонимия).
2. Особенность "понимания" текста.
Как правило, в системах понимания ЕЯ (СПЕЯ), главной задачей является понимание смысла текста, т.е. достаточно полное проникновение в смысл фразы [59]. СПЕЯ для "понимания" должны использовать общие и конкретные знания о действительности и речи и соотносить высказывания, образующие текст, с моделью действительности и определять истинность этих высказываний. В машинном переводе текстов с одного языка на другой основной задачей считается преобразование текста в смысл и обратно в рамках, определенных общим контекстом или достаточно широким контекстом [44, 59]. При этом требуется достаточно подробное рассмотрение каждой компоненты текста, всевозможных вариантов ее интерпретации, как правило, с учетом полных знаний о языке (синтаксис, морфология, исключения и т.п.). Задача анализа ответов в АОС - это проверка правильности ответа обучаемого, т.е. соответствия его ожидаемому [25]. При этом в АОС, зачастую, достаточно извлечение из текста только той его части, где содержится ответ на заданный вопрос. В качестве такой части может быть выделен также некоторый текст на ЕЯ. Выделенная часть текста подвергается лингвистической обработке (возможно, в специально определенных терминах).
3. Особенность семантической классификации текстов.
Многообразие форм представления смысла текста на естественном языке (ЕЯ) требует определения принципов элиминации этой многозначности на основе типовых смысловых конструкций. Одним из таких принципов является принцип семантической классификации вопросно-ответных текстов. Семантическая типизация вопросов позволяет разбить множество ответов обучаемого на семантические классы, в каждом из которых требуется раскрытие некоторого однотипного смысла, определенного типом вопроса и независимого от формы задания вопроса [25, 70, 78].
Смысловая типизация вопросов и семантическая классификация ответных текстов дают возможность противопоставить каждому типу вопроса ограниченный набор допустимых, т.е. логически правильных, смысловых конструкций (ответных формул). Можно рассматривать совокупность этих формул, соответствующих конкретному типу вопроса, как некоторую грамматику, кодирующую конструкции, передающие правильный смысл ответа.
Подробно принцип семантической классификации отношений и вопросно-ответных текстов описывается в [25]. При классификации вопросных текстов, как отчасти уже было изложено выше в п.1.2.1.1, в современных интерактивных системах, как правило, за основу принимается либо лексический [13], либо другие подходы, не связанные однозначно с раскрываемым смыслом. Тип вопроса при таком подходе, как правило, определяется формой его задания (WH - вопросы, т.е. кто, что, где, ли - вопросы и т.п.). Однако такой подход не обеспечивает прямой зависимости смысла ответа от типа вопроса, что затрудняет дифференцированный анализ ответов в соответствии с типами вопросов.
4. Особенность формальной основы анализа.
В существующих анализаторах ответов обучаемого в АОС грамматика естественного языка либо полностью игнорируется, либо используется жесткая "грамматика" в рамках строго формализованного обучающего курса.
В СМП и многих СПЕЯ используется либо ограниченная грамматика ЕЯ, подробно описанная Хомским, ее модификации [62, 63, 99, 113], либо формальные системы Филлмора, Шенка и др. [96, 101]. Их особенности описаны в п.1.1 данной статьи. Диалог обучаемого с АОС предполагает вопросно-ответную ситуацию, когда задающему вопрос (т.е. АОС) естественно ожидать в ответе обучаемого раскрытия определенного смысла, заданного вопросом, ограниченного объема лексем в ответе, с большой точностью соответствующих лексемам, ожидаемым по заданному вопросу. При этом важно не поверхностно-синтаксическое различие фраз, а то, какое предметное содержание имеет слово в ответе. Это содержание не зависит ни от части речи, которой выражено слово, ни от того, каким членом предложения оно является, а определяется той ролью, которую выполняет соответствующая лексема в ряду других в текущем контексте. Вследствие этого, при контроле ответа обучаемого в АОС для получения эффективных алгоритмов анализа ЕЯ-текста могут быть использованы упрощенные лингвистические модели, ориентированные на информированного (т.е. знакомого с контекстом) "слушающего".
5. Особенность выходной информации.
Результатом работы СМП является текст на другом языке. То есть смысл, полученный со входного текста, должен быть переведен обратно в адекватный по смыслу текст, только на другом языке.
В СПЕЯ выдача текста необязательна. Цель понимания состоит в интерпретации того смысла, который обнаружен в тексте (т.е. реакции, обусловленной этим смыслом). В частности, если этой обусловленной реакцией является изложение понятого смысла на другом языке, то этой интерпретацией окажется перевод текста. В этом смысле СМП есть разновидность СПЕЯ.
В результате анализа ответов обучаемого необходимо получить набор параметров, характеризующих степень правильности ответа (диагностику), с целью управления учебным процессом. Как известно, управление процессом обучения зависит от многих параметров, в том числе от дидактических требований, опыта преподавателя, особенности каждого предмета, предыстории обучения и т.п. Здесь возможно и автоматическое управление, если только АВТОР заранее предусмотрел реакцию на все ситуации, определяющие диагностику анализа ответа.
Как показывает анализ возможностей контроля естественно-языковых текстов в реальных обучающих системах, описанных в работах [94], практически, ни одна из исследованных разработок не содержит модули, предназначенной для анализа естественно-языковых ответов обучаемого по смыслу. Подробный сравнительный анализ средств автоматизации контроля ответов обучаемого приводится в совместной монографии диссертанта с Бухараевым Р.Г. [25]. Задача семантического анализа естественно-языковых текстов в проанализированных нами традиционных АОС не решена, более того, не существует конструктивных методов формального определения семантики. Анализатор ответов обучаемого, включенный в состав лингвистического обеспечения АОС ВУЗ-ОСКАР [67], развитый в настоящее время возможностями анализа ответов новых типов вопросов и семантических классов значений вопросов, раскрываемый в диссертации, реализует частное решение задачи семантического анализа ответных текстов на естественном языке на основе прагматически-ориентированного подхода.
- Формализмы в основе систем семантической обработки ЕЯ-текстов.
В современных исследованиях по компьютерной лингвистике имеет место определенная поляризация. С одной стороны, разработаны очень простые грамматические модели, т.е. различного рода грамматики конечного состояния, которые поддерживают высокую эффективность обработки (см. п.1.2.3.). Некоторые подходы отказываются от грамматик и используют статистические методы для основных лингвистических шаблонов. С другой стороны, на другом конце шкалы находится целый ряд представлений мощных и лингвистически сложных формализмов, предназначенных для построения грамматик.
Наиболее распространенная группа грамматических формализмов, используемая в настоящее время в вычислительной лингвистике - формализмы на основе ограничений [114, 137] .
С.Пулман в [141], исследует «извечную» проблему семантики - выделение ее главного элемента - составляющего, сути. Семантика здесь понимается как буквальная интерпретация предложений в контексте, не принимая в расчет такие феномены как ирония, метафоры, или разговорные недомолвки. Утверждается, что знание значения предложения может быть приравнено знанию условий его корректности: т.е. знанию, которое порождает впечатление, что исследуемое предложение корректно в этом мире. Очевидно, это не то же самое, что знать, является ли предложение верным (корректным), что есть вопрос эмпирический, а то, что знание условий корректности есть предпосылка, чтобы была возможна их проверка. Признание значения как совокупности корректных условий, которое, практически, в той или иной форме является общим для всех современных теорий и имеет свое философское обоснование, также нуждается в обобщении каким-то образом и для императивов и вопросов. Семантическое описание языка есть некоторый конечно-установленный механизм, который позволяет для каждого предложения утверждать, какие условия для него являются корректными.
Многообразие форм представления смысла текста на естественном языке (ЕЯ) требует определения принципов элиминации этой многозначности на основе типовых смысловых конструкций. Одним из таких принципов, как уже было сказано выше, является принцип семантической классификации вопросно-ответных текстов, подробно изложенный в [25].
Построение семантического интерпретатора текстов на ЕЯ в контексте, управляемом вопросом системы к пользователю, имеет свою специфику, выгодно отличающую ее от других ЕЯ-диалоговых систем и создающую реальные предпосылки для построения эффективного смыслового интерпретатора (см. п. 1.2.1.2). Такой подход требует решения задачи классификации самих контекстов, т.е. значений вопросов, а соответственно и ожидаемых ответов. В случае вопросно-ответной ситуации для первого режима взаимодействия (соответственно и для режима 3, включающего режим 1) такая классификация оказывается возможной и конечной. Семантическая типизация вопросов позволяет разбить множество ответов обучаемого на семантические классы, в каждом из которых требуется раскрытие некоторого однотипного смысла, определенного типом вопроса и независимого от формы задания и лексического наполнения вопроса.
В работе [25] дано следующее определение понятия концептулы. Концептула - это смысловая единица (обобщенная семантическая единица) семантической структуры текста, отражающая роль лексем и в определенном их сочетании формирующая ожидаемый логически правильный смысл текста в управляемом контексте. Принцип выделения концептул приводит к необходимости провести типизацию понятий, отношений, грамматических признаков и специальных ролей лексем и установления соответствия между ними и концептулами в управляемом контексте, т.е. в контексте заданного вопроса.
Язык для записи глубинной структуры и некоторые правила перевода глубинных структур в поверхностные предложили ряд исследователей, в их числе Ч.Филмор, Р.Шенк, Уинстон и др. [96, 101, 152] (подробнее см. ниже). Между "ролями" - элементами глубинной структуры, и аргументами - элементами текста и элементами поверхностной структуры, нет взаимно-однозначного соответствия. Состав набора и названия отдельных падежей (ролей) не являются окончательным. В системе ТОРУС [59] использованы такие семантические роли: