Русская компьютерная и квантитативная лингвистика Способы различения простого и сложного предложения при автоматическом анализе текстов

Вид материалаДокументы
Подобный материал:
1   2   3   4   5   6   7   8   9




Из данных, приведенных в этой таблице, следует, что применение сложностного подхода к задаче определения авторства вполне оправдано, причем результаты при применении архиватора rar даже лучше, чем при применении цепей Маркова (хотя такую небольшую разность и можно отнести на счет статистической погрешности). Автор придерживается той точки зрения, что такие хорошие результаты определения истинного автора связаны с тем, что словарь автора, в принципе, является его устойчивой характеристикой, а предложенный в настоящей заметке сложностной подход позволяет эффективно измерять близость словаря анонимного произведения к словарю автора.

Литература

1. Хмелёв Д. В. Распознавание автора текста с использованием цепей А. А. Маркова // Вестник Моск ун-та. Сер. 9. Филология. 2000. № 2. С. 115–126.

2. Колмогоров А. Н. Три подхода к определению понятия «ко­личество информации» // Проблемы передачи информации. Т. 1. 1965. № 1. С. 3–11.

Проблемы русского лексико-синтаксического синтеза
при сущностном подходе к языку


З. М. Шаляпина, Е. Г. Борисова, М. И. Канович, А. С. Панина, Е. С. Тарасова, О. А. Штернова

Институт востоковедения РАН, Институт русского языка им. А. С. Пушкина, Российский государственный гуманитарный университет, Московский государственный лингвистический университет

компьютерные модели, морфология и синтаксис русского языка, сущностный подход

Summary. The paper is concerned with the problems of Russian lexico-syntactical (LS-) generation within an entity-based (EBL ) linguistic framework. The problems touched upon include: mechanisms of paradigmatic and syntagmatic inheritance underlying the EBL-description of Russian and its functioning in generation procedures; representation of the LS-context of input LS-entities as their relational features; compensation mechanisms involved in processing under- and over-specified input representations; distant and multifactor influence of LS-context on the choice of alternative morphologo-syntactical realizations of Russian LS-entities, etc. The work is supported by the Research Support Scheme of the Open Society Support Foundation, grant No. 458 / 2000.

Задача лексико-синтаксического синтеза русских словосочетаний и пред­ло­же­ний ин­­те­ресует специалистов по компьютерной лингвистике уже несколько десятиле­тий — преж­­де всего в связи с созданием систем машинного перевода на русский с дру­гих язы­ков, а также компьютерных по­со­бий для обучения русскому языку. Однако до сих пор она решалась в основном в рамках реляционных подходов к лингвис­ти­­че­с­ко­му опи­­­са­нию, кото-

___________________________________

 Работа выполняется при поддержке RSS, грант № 458 / 2000.

рые ставят в центр описания правила и отношения, а за участвующими в них язы­ко­вы­ми сущнос­тя­ми оставляют пассив­ную роль приз­на­ков, используе­мых при про­­вер­ке релевант­но­с­ти тех или иных правил и отношений для обрабатывае­мо­го кон­тек­ста. К числу подобных моделей приходится относить не только стандартные порож­да­ю­щие грамматики [Chomsky], но — в его грамматических компонентах — даже клас­си­че­с­кий вариант модели «Смысл  Текст» [Мельчук].

В данной работе эта задача ставится в рамках противоположного, сущ­ност­­ного под­­хода к языку [Шаляпина 1999], при котором базовыми единицами описа­ния явля­ют­ся имен­но лингвистические сущности: от конкретных (сводящихся к элемен­тар­­­ным или иди­­о­ма­тич­ным лексемам и аффиксам) до обобщенно-грамматических (опре­деля­ю­­щих клас­­­сы частеречного типа), а все виды правил и отношений задаются как свой­ст­ва тех или иных из этих сущностей. В том числе все синтаксические отношения, вклю­чая со­чи­­­нение, отождествление и кореферентность, определяются как реализации ва­лент­но­с­тей одной или обеих связываемых ими лингвистических сущностей. Описа­ние языка пред­­стает при этом как ин­вен­тарь (точнее, система инвентарей) сущностей раз­личных ти­пов, каждой из кото­рых со­по­ставлено определение всех релевантных для нее свойств — своего рода словарная ста­тья, а средством объединения этих статей в связ­ную си­стему лингвистических знаний, способную функционировать при обработке тек­стов как единое целое, служат меха­низ­мы наследования — парадигматического (ус­танавли­ва­ю­­ще­го связь между сущностя­ми различ­ной степени обобщенности) и син­тагматичес­ко­го (увя­зы­ва­ю­­ще­го свойст­ва сложных лингвистических единиц с соста­вом и структурой их ком­по­нен­тов). Хотя под­ходы сущностного типа — в различных ва­ри­антах и под раз­­личными назва­ни­я­ми — представлены в целом ряде теоретических и эксперимен­таль­ных мо­де­­лей языка (см. хотя бы [Шаляпина 1974], [Hudson], [Sta­rosta], [Sleator] и др.), они до сих не применялись сколько-нибудь после­до­вательным об­ра­­зом ни к за­да­­че синтеза, ни к материалу русского языка, что опреде­ля­ет актуаль­ность данного ис­сле­дования и не­тривиальность проблем, встающих при его выпол­не­нии.

Задача ЛС-синтеза, в нашем ее понимании, состоит в преобразовании цепочки ЛС-запросов, каждый из которых задает некоторую потенциальную словоформу рус­ско­­го языка или функционально аналогичное ей словосочетание как элементарную лек­си­­ческую сущность, сопровождаемую ее контекстными свойствами — морфологи­че­с­ки­ми и синтаксическими, — в цепочку лексико-морфоло­ги­ческих запросов, однозначно опре­­деляющих последовательность соответствующих синтетических русских слово­форм. Процедуры этого преобразования при сущностном подходе дол­ж­ны целиком ба­зи­­ро­ваться на свойствах исходных лексических сущностей — свойствах, которые либо непо­­средственно при­сут­ствуют в их словарных статьях, либо наследуются ими от дру­гих лингвистических сущностей в языковой парадигматике или синтагматике. При реализации этой за­да­чи требуется решить прежде всего следующие проблемы:

— установить основные типы лингвистических сущностей и их свойств, релевантные для задач лек­си­ко-синтаксического синтеза, и задать виды отношений, возможных меж­ду самими сущ­но­с­тями и между их свойствами в языковой системе и в тексте;

— определить механизмы парадигматического и синтагматического наследования, опи­ра­ю­щиеся на эти отношения, как процедурную основу системы ЛС-синтеза;

— задать способ представления и учета структурного и линейного контекста лексиче­с­ких сущ­но­с­тей в каче­ст­ве их ЛС-признаков и определить оптимальные размеры та­ких приз­на­­ков;

— построить формальный аппарат, позволяющий, сре­ди прочего, учитывать возмож­ность раз­нонаправ­лен­но­го и многофакторного влияния ЛС-контекста на выбор оформ­ле­­ния той или иной сущности в процессе синтеза;

— ввести средства, которые позволяли бы компенсировать несовпадение систем лек­си­че­­ских, морфологических и синтаксических категорий в различных языках (приво­дя­щее, в частности, к неполным или противоречивым определениям синтезируемых сущ­но­с­тей в их вход­ном представлении), а также учитывать и преодолевать возмож­ность дефектности мор­фологических парадигм русских лексем.

Перечисленные проблемы решаются в экспериментальном варианте в разрабатываемой ав­­то­рами действующей системе русского синтеза RUSSLAN. Система реализуется на язы­­­ке программирования Turbo Pascal (MS DOS / Windows) и использует базы данных тек­­­стового типа. В ней предусматриваются не только средства выбора того или иного из альтернативных способов оформления русских ЛС-сущностей в зависимост от их кон­­­­текста, но и механизм коррекции определений входных ЛС-сущностей при их не­со­от­ветствии требованиям русского языка, а также аппарат локальных транс­фор­ма­ций, позво­ляющий вводить, устра­­нять или заменять те или иные сущности с использо­ва­ни­ем аппарата лексических функций [Мель­чук] и их аналогов.

Литература

Мельчук И. А. Опыт теории лингвистических моделей «Смысл « Текст». М.: Наука, 1974.

Шаляпина З. М. Оппозиция «часть — целое» и сущностный под­ход к моделированию языковой компетенции // Роман Якобсон: тексты, документы, исследования. М.: РГГУ, 1999. С. 541–551.

Шаляпина З. М. Семантико-синтаксический анализ в системе англо-русского авто­ма­ти­че­с­кого перевода (АРАП) // ПГЭПЛ. Вып. 47. М.: ИРЯ АН СССР, 1974.

Chomsky N. Aspects of the Theory of Syntax. Cambridge (Mass.), 1965.

Hudson R. Word Grammar. Oxford: Basil Blackwell, 1984.

Starosta S. The Case for Lexicase. London; New York: Pinter Publishers, 1988.

Sleator D. Parsing English with a Link Grammar. Third Inter­national Workshop on Parsing Technologies. 1993.

(u.edu/~sleator).