E-mail: Djavdet. Suleymanov@ksu

Вид материалаДокументы
Подобный материал:
1   2   3   4   5   6   7
Следовательно, весьма актуально иметь некий инструментарий для фиксирования выделенных объектов и отношений, а также автоматизированного поиска и установления их в огромных массивах машино-читаемых ЕЯ-текстов. Таким инструментом является структурно-функциональная модель татарских морфем, описываемая в [84, 85].


  1. Анализ систем обработки ЕЯ-текстов на основе концептуально-формальной модели.


Концептуально-формальные модели обеспечивают целевую обработку текстов согласно соответствующих формальных правил определенного языкового уровня.

В работах [80, 81, 88, 146, 147] описываются морфологических моделей татарского языка как концептуально-формальных моделей - двухуровневой автоматной модели, лежащей на основе двухуровневого морфологического анализатора, и генеративной модели, лежащей на основе татарского морфологического корректора. В этой связи, анализ концептуально-формальных моделей осуществляется на примере работ, содержащих описания различных моделей морфологии.

В последние 10-15 лет по сравнению с другими областями обработки языка наиболее результативно в сторону реальных приложений развилась вычислительная морфология. Следующие две проблемы занимают внимание практически всех исследователей: 1) морфологические альтернативы - одни и те же морфемы могут быть реализованы различными путями, в зависимости от контекста (множество алломорфов); 2) морфотактика: основы, аффиксы и составляющие части не комбинируются свободно, и морфологический анализатор должен уметь определять правильные сочетания морфем. Распространенным для решения первой проблемы является применение метода cut-and-paste. Каноническая форма строится путем удаления и присоединения букв к концу слова. Именно такой подход использован нами при построении татарского морфологического корректора [88], а также программы лемматизации татарских словоформ, включенный в состав инструментального комплекса структурно-функциональной модели морфем.

Использование технологии конечного состояния для автоматического распознавания и генерации словоформ было введено вначале 1980-х. Он основан на замечании, что правила морфологических альтернатив могут быть реализованы трансдьюсерами конечного состояния. Также известно, что возможные комбинации основ и аффиксов могут быть кодированы как сеть конечного состояния. Первая практическая система, включающие эти идеи - двухуровневая модель, подробно представленная в работах [106, 128, 139]. Он основан на множестве деревьев связанных букв для лексикона и параллельных трансдьюсеров конечного состояния, кодирующих морфологические альтернативы. Двухуровневый распознаватель отображает поверхностную строку в последовательность веток в дереве букв, используя трансдьюсеры, и вычисляет лемму исходя из информации, имеющейся в границах веток. В разработках, связанных с этими, было замечано, что огромные списки слов, проверяемых на правильность, могут быть скомпиллированы в удивительно маленький автомат конечных состояний (Appel& Jacobson, 1988; Lucchesi & Kowaltowski, 1993) [107, 132]. На таком подходе - использовании двухуровневой морфологической модели, устроен татарский морфологический анализатор, реализованный в среде программного инструментария РС-КIММО [106] и описанный в [80].


1.3.1. Анализ автоматизированных корректоров ЕЯ-текстов.


К концептуально-формальным, в частности, относятся модели автоматизированных корректоров, осуществляющих проверку орфографии в ЕЯ-текстах. Практически, большинство известных моделей для русского языка представляют собой компьютерную реализацию словаря Зализняка [4, 10, 11, 97]. Модели корректоров отличаются интерфейсом и дополнительными функциями обработки сопутствующей информации, принципами реализации (резидентно - ОРФО, ОРК-Т, RUSC; в виде встроенной модули - спеллчекер ОРФО, ТАТЕДКОР, Пропись; или в виде отдельной программы ТАТКОР, Грамота), но проверка корректности текста, как правило, реализуется по схожему алгоритму следующим образом. На основе исходного словаря основ порождается список словоформ, далее этот список некоторым образом упаковывается и в нем реализуется функция поиска. Таким образом, проверка правильности написания слова сводится к поиску в словаре соответствующей словоформы. При этом процесс порождения словоформ, достаточно сложный для русского языка, осуществляется вне этапа непосредственной проверки. По этому принципу возможно построение корректора для любого языка: берется большой объем текстов и на его основе формируется список словоформ (так, в частности, создаются корректоры в системе оптического распознавания FineReader [4]). Такой корректор может допускать ошибки, но используя его проще проверять тексты, содержащие специальные термины, и создание словаря для нового языка не занимает много времени. Именно используя такой, так называемый парадигматический, подход был построен один из первых коммерческих татарских корректоров ОРК-Т группой «Стагирит» из г.Екатеринбурга под руководством Ахметьянова Р. [56]. Однако эта модель, успешно работая на относительно большом пространстве текста, не покрывает всевозможные правильные словоформы в силу специфики татарского языка. При анализе татарских текстов установлено, что хотя в 90% случаях к основе присоединяется не более 3 аффиксов, в некоторых случаях возможно участие гораздо большего числа аффиксов (более 10) в образовании татарской словоформы, к тому же, число порождаемых словоформ от одной основы потенциально не ограничено (об это более подробно в [88]). В работе Ашманова [10] содержатся классификация существующих систем проверки правописания, описание стандартных наборов функций, анализ принципов построения существующих грамматических и стилистических корректоров и типов обнаруживаемых ими ошибок. В нашей работе, в большей степени, мы ограничимся рассмотрением описаний систем и аспектов, не раскрытых в обзорной литературе.

Парадигматический способ организации проверки правильности словоформы, наиболее широко используемый в корректорах, лежит в основе, в частности, также и грамматического и стилистического корректора ОРФО [11]. Первыми пакетами программ, возможности которых были проанализированы и учтены при разработке первого татарского генеративного корректора были корректоры RUSP, ОРФО, ОРК-Т (для русского и татарского языков).

RUSP реализован по следующей стандартной схеме: в словаре содержатся неизменяемые основы (например, для корней с чередующимися буквами в словарь помещается либо два варианта корня, либо общая неизменяемая часть). К каждой такой основе приписаны атрибуты, которые содержат ссылку на определенный тип словоизменения. При проверке слова в словаре отыскивается соответствующий корень и по ссылке образуется проверяемое слово (окончания содержатся в определенном файле, на позицию в котором указывает ссылка). Такая схема предусматривает большую предварительную работу по разбиению слов по различным типам словоизменения.

ОРК-Т работает по такой же схеме, но при всех достоинствах его интерфейса, множества сервисных функций, он имеет существенный недостаток, связанный с его универсальностью. Этот корректор изначально создавался для русского языка и оболочка была использована для татарского языка, который относится к другой группе языков - агглютинативной, и, соответственно, имеет свою специфику, учет которой, безусловно, повысил бы эффективность программы коррекции. Известно, что в татарском языке количество присоединяемых аффиксов не ограничено. Это приводит к необходимости организации перекрестных ссылок в базе окончаний, что принципиально усложняет создание корректора по принципу флективных языков (другой путь - увеличение базы, невозможен, т.к. ее размер возрастает в степенной зависимости).

ОРФО является одной из наиболее развитых в настоящее время программ проверки корректности текста. С помощью точного морфологического разбора ОРФО находит и исправляет орфографические ошибки, механические ошибки правописания (строчная буква в начале предложения, отсутствие точек после сокращений, смесь латиницы и кириллицы, слова с цифрами, повтор слов и т.д.). ОРФО также обнаруживает случаи несогласованности частей сложных слов. Специальный алгоритм построения структуры согласованности дает возможность находить ошибки согласования предложно-именных групп. Кроме того, ОРФО находит нарушения правил оформления знаков препинания, а Windows-версия ОРФО - также ошибки в расстановке запятых, слишком сложные и тяжеловесные предложения, а также другие стилистические и грамматические ошибки.

Многоязычная система проверки правописания текстов ГРАМОТА (автор Харин Н. [97]) в результате проведения проверки создает копию файла, в которой содержится тот же самый текст, но уже без орфографических ошибок. Основной отличительной особенностью системы является лежащий в ее основе статистический метод обнаружения орфографических ошибок (в других системах типа ОРФО, СПЕЛ-РУС и др. для проверки правописания текстов используется словарный метод). Применение статистического метода обусловливает следующие преимущества системы ГРАМОТА по сравнению с аналогичными системами: 1) Можно проверять правописание не только русскоязычных текстов, но и текстов, подготовленных на любом другом языке алфавитного типа (английском, украинском, французском, татарском, казахском и т.д.).

Система ГРАМОТА состоит из двух подсистем - подсистемы проверки правописания текстов и подсистемы ведения словарей. Подсистема проверки правописания реализует основные функции системы, подсистема ведения словарей - вспомогательные функции. Подсистема проверки правописания выполняет обнаружение орфографических ошибок в текстах. Подсистема проверки правописания реализует следующие основные возможности:

- автоматическое обнаружение орфографических ошибок в текстах;

- предоставление пользователю возможности не только исправлять обнаруженные орфографические ошибки, но и вносить в текст другие изменения (например, удалять лишние знаки препинания);

- пополнение словаря новыми словами (если системой принято решение об ошибочности некоторого слова, а это слово правильное, то достаточно ввести команду на переход к исправлению следующей ошибки, и неопознанное слово будет занесено в словарь), всего в словарь может быть таким образом добавлено порядка 50 тыс. слов с неповторяющимися основами. Подсистемы проверки правописания и ведения словарей системы Грамота и ТАТКОР (см. [88]) во многом идентичны. Однако, главное отличие заключается в модели проверки корректности словоформы. Как и в случае парадигматического подхода, статистический подход не может покрыть пространство всевозможных словоформ татарского языка как агглютинативного, следовательно, заранее закладывается неизбежность обнаружения корректных форм слова как неверных. Хотя, справедливости ради надо сказать, что возможность такой ситуации, когда обнаруживается «ошибка» по причине длинной непредусмотренной словоформы составляет не более 2-3% от всех словоформ в тексте. В статье [141] приводится описание процессора русского языка Руссикон, состоящего из морфологического, синтаксического и семантического подпроцессоров, русского машинно-читаемого словаря и ряда специальных Словарей и осуществляющего анализ и синтез русского текста. На основе процессора Руссикон разработаны русский орфографический корректор (RSC-Russian Spelling Corrector), Russicon Russian Language Processing Program Kit (RLPPK), Русский электронный тезаурус, включен в состав OCR INTEXT. Универсальная программа русской лингвистической поддержки для MS Windows ПРОПИСЬ осуществляет проверку орфографии, расстановку переносов, проверку грамматики, поиск и замену всех словоформ русского слова на основе толкового словаря и словаря синонимов, а также осуществляет статистический анализ текста. Как и ТАТКОР [71], помимо того, что является встроенной частью текстового редактора, имеет автономную программу коррекции со своим интерфейсом. Основной словарь построен также на базе "Грамматического словаря русского языка" А.А.Зализняка [38], дополненный современной и специальной лексикой, предусмотрена также поддержка словарей пользователя. ПРОПИСЬ и ОРФО, в отличие от эксплуатируемой версии татарского корректора, помимо корректировки ошибок вне зависимости от контекста - для функции проверки орфографии, реализуют проверку грамматики, учитывая ближайший контекст (синтагмы). Также, как и в ТАТКОРе, для слов, не найденных в словарях, предлагаются варианты правильного написания. Установив Пропись, можно проверять русскую орфографию и расставлять переносы во всех программах, работающих в среде Windows. Версия татарского корректора TatWin 1.0, являющаяся, практически, реализацией модели ТАТКОР, используемой в реальных лингвистических технологиях, в настоящее время также проходит опытную отладку в среде Windows.


Литература

  1. Алиуллов А.Д., Ихсанов Н.Х. Концептуальное моделирование понимания технического текста. В сб. Трудов Международного семинара Диалог-97 по компьютерной лингвистике и ее приложениям, Ясная Поляна, 10-15 июня, 1997 г. Под ред. А.С.Нариньяни. - С.18-21.
  2. Абрамов В.Г., Брябрин В.М., Пховелишвили М.Г. ДИЛОС - диалоговая система для взаимодействия на естественном языке. Сообщения по программному обеспечению ЭВМ. - М., 1979. - 41 с.
  3. Андрусенко Т.Б. Лингвистические структуры в компьютерных учебных средах. -Киев: Наукова Думка, 1994. -160 с.
  4. Анисимович К., Селегей В. О роли лингвистических технологий в оптическом распознавании полиязычных текстов. //В сб. Трудов Международного семинара Диалог-96 по компьютерной лингвистике и ее приложениям, Пущино, 4-9 мая, 1996. Под ред. Нариньяни А.С. -С. 28-30.
  5. Àïðåñÿí Þ.Ä. Îáðàç ÷åëîâåêà ïî äàííûì ÿçûêà: ïîïûòêà ñèñòåìíîãî îïèñàíèÿ //Âîïðîñû ÿçûêîçíàíèÿ, Íàóêà, 1995, ¹1.
  6. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистический процессор для сложных информационных систем. -М.: Наука, 1992. - 256 с.
  7. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистическое обеспечение системы Этап-2. -М.: Наука, 1989.
  8. Ахматова И.Х. Структурно-семантические модели простого предложения в современном карàчаево-балкарском языке. Нальчик, 1983. С.90-92
  9. Ахоу А.В. Индексные грамматики - расширение контекстно-свободных грамматик // Кибернетический сборник. - М., 1962. - Вып.5. - С.15-21.
  10. Ашманов И.С. Архитектура и технология промышленной реализации прикладных лингвистических систем (проверка правописания и электронные словари). Автореферат дисс. На соискание ученой степени кандидата технических наук. -Переславль-Залесский, 1995. -22 с.
  11. Ашманов И.С. Грамматический и стилистический корректор русского языка //Труды международного семинара по компьютерной лингвистике Диалог-95. Казань, 1995, С.39-42.
  12. Бейлин Дж. Краткая история генеративной грамматики. В сб. обзоров: Фундаментальные направления современной американской лингвистики/ Под ред. А.А.Кибрика, И.М.Кобозевой и И.А.Секериной. - М.: Изд-во МГУ, 1997. -С.13-57.
  13. Бельнап Н., Стил Т. Логика вопросов и ответов. Пер. с англ. Г.Е.Крейдлина -М.: «Прогресс». -1981. -288 с.
  14. Братчиков И.Л. Экспертные системы и проблема анализа ответов обучаемых // Бюллетень. Экспертные системы и ПРОЛОГ в учебном процессе II. Краткое изложение докладов на школе-семинаре. - Йошкар-Ола: ОП СНИО, 1990. - С.18-24.
  15. Брябрин В.М., и др. ДИЛОС - диалоговая система для взаимодействия с ЭВМ на естественном языке. -М.: Изд. ВЦ АН СССР, 1979.
  16. Брябрин В.М., Сенин Г.В. Анализ естественного языка в ограниченном контексте // Вопросы кибернетики. -1980.- 61. - С. 111-117.
  17. Бухараев Р.Г., Сулейманов Д.Ш. К разработке семантического анализатора вопросно-ответных текстов // Тезисы докладов Всесоюзной школы-семинара. -М., 1990.
  18. Бухараев Р.Г., Сулейманов Д.Ш. К разработке АОС с развитыми возможностями семантического анализа ответов обучаемого // АОС и их применение. Тезисы докладов межвузовского совещания-семинара "Проблемы автоматизации обучения персонала систем организационного управления". -Казань: Изд-во КГУ, 1983. - С. 7-9.
  19. Бухараев Р.Г., Сулейманов Д.Ш. Об одном подходе к разработке интеллектуальных АОС // Кибернетика, 1986, N 3. - С.42-49.
  20. Бухараев Р.Г., Сулейманов Д.Ш. Подсистема обеспечения интеллектуального взаимодействия в диалоговой системе // Тезисы докладов IY Всесоюзной конференции "Диалог Человек-ЭВМ". Ч.2. - Киев: ИК им. В.М.Глушкова АН УССР, 1985. - С. 11-13.
  21. Бухараев Р.Г., Моисеев В.С., Сулейманов Д.Ш. АОС как обслуживающая подсистема развивающейся САПР // Деп. в ВИНИТИ N 3453. - 1987.
  22. Бухараев Р.Г., Сулейманов Д.Ш. Подсистема обеспечения интеллектуального взаимодействия в диалоговой системе. // В сб.тезисов докладов IV Всесоюзной конференции "Диалог Человек - ЭВМ": Ч.2. ИК им.В.М.Глушкова АН УССР, Киев, 1985, с. 11-13.
  23. Бухараев Р.Г., Сулейманов Д.Ш. О разработке автоматизированных обучающих систем с интеллектуальными возможностями // Кибернетика. - 1986. - N 3. - С.42-49.
  24. Бухараев Р.Г., Сулейманов Д.Ш. Принципы построения лингвопроцессоров в вопросно-ответном контексте. //В сб. научных трудов в трех томах. 5-я национальная конференция с Международным участием «Искусственный интеллект-96», Казань, 5-11 октября, 1996г. Том 1. С.149-155.
  25. Бухараев Р.Г., Сулейманов Д.Ш. Семантический анализ в вопросно-ответных системах. - Казань: Изд. КГУ. - 1990. 124 с.
  26. Виноград Т. Программа, понимающая естественный язык. -М., 1976. - 283 с.
  27. Гвида Дж., Сомальвико М. Общение с системами искусственного интеллекта на естественном языке: проект DONAU. -В кн.: Лингвистические процессоры и представление знаний. Новосибирск, 1981. с.41-65.
  28. Гвида Дж., Тассо К. Алгоритмы и эвристики в системе понимания ЕЯ. В Сб.научн. тр. под ред. А.С. Нариньяни. Новосибирск, 1982, Прикладные и экспериментальные лингвистические Процессоры. C.37-59
  29. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения (Вступительная статья)// Новое в зарубежной литературе. М.: «Прогресс». Вып. XXIV. Компьютерная лингвистика. Под ред. Городецкого Б.Ю. С. 5-31.
  30. Гофен А.М., Левин Н.А., Анацкий Н.И., Мясник А.А. Принципы построения обучающих и контролирующих систем нового поколения // Разработка и применение программных средств ПЭВМ в учебном процессе. Материалы YI Всесоюзного семинара. Кн.1. - М.: ИПИ АН, 1991.- С.122-124.
  31. Денинг В., Эссиг Г., Маас С. Диалоговые системы «Человек-ЭВМ». Адаптация к требованиям пользователя. Пер. Котова Ю.Б., под ред. Мартынюка В.В. М.: Мир, 1984. 112 с.
  32. Диненберг Ф.Г., Трапезников С.П. Фабрика лингвистических процессоров // Конструирование программных средств интеллектуализации. - Новосибирск, 1988. -с.63-76.
  33. Довгялло А.М. Диалог пользователя и ЭВМ. Основы проектирования и реализации. - Киев, 1981.- 232 с.
  34. Довгялло А.М., Никулин В.Н., Петрушин В.А. Учебная информатика и компьютерная технология обучения // Теоретические и учебные аспекты информатики. - Киев: ИК АН УССР, 1987. - С.10-16.
  35. Дракин В.И., Попов Э.В., Преображенский А.Б. Общение конечных пользователей с системами обработки данных. -М.: Радио и связь, 1988. -288 с.
  36. Ефимов Е.И. Сфинкс - вычислительный комплекс, предназначенный для обоснования интеллектуальных решений//-Ì.: ВЦ РАН, 1993, 20с. (Отв.ред. Д.А.Поспелов.).
  37. Çàêèåâ Ì.Ç. Òàòàðñêàÿ ãðàììàòèêà. Ò3. Ñèíòàêñèñ. — Êàçàíü: Òàòêíèãîèçäàò. 1992. — 488 ñ.
  38. Зализняк А.А. Грамматический словарь русского языка. Словоизменение. -М.: «Русский язык», 1980.-880ñ.
  39. Искусственный интеллект / Под ред. Попова Э.В. -1990. Главы 10-13. ********
  40. Кононенко. И.С. Типологические особенности текста и моделирование процесса понимания. Диалог-95. С. 159-164