Русская компьютерная и квантитативная лингвистика Способы различения простого и сложного предложения при автоматическом анализе текстов

Вид материала

Подобный материал:

1 2 3 4 5 6 7 8 9

Из данных, приведенных в этой таблице, следует, что применение сложностного подхода к задаче определения авторства вполне оправдано, причем результаты при применении архиватора rar даже лучше, чем при применении цепей Маркова (хотя такую небольшую разность и можно отнести на счет статистической погрешности). Автор придерживается той точки зрения, что такие хорошие результаты определения истинного автора связаны с тем, что словарь автора, в принципе, является его устойчивой характеристикой, а предложенный в настоящей заметке сложностной подход позволяет эффективно измерять близость словаря анонимного произведения к словарю автора.

Литература

1. Хмелёв Д. В. Распознавание автора текста с использованием цепей А. А. Маркова // Вестник Моск ун-та. Сер. 9. Филология. 2000. № 2. С. 115–126.

2. Колмогоров А. Н. Три подхода к определению понятия «количество информации» // Проблемы передачи информации. Т. 1. 1965. № 1. С. 3–11.

Проблемы русского лексико-синтаксического синтеза
при сущностном подходе к языку

З. М. Шаляпина, Е. Г. Борисова, М. И. Канович, А. С. Панина, Е. С. Тарасова, О. А. Штернова

Институт востоковедения РАН, Институт русского языка им. А. С. Пушкина, Российский государственный гуманитарный университет, Московский государственный лингвистический университет

компьютерные модели, морфология и синтаксис русского языка, сущностный подход

Summary. The paper is concerned with the problems of Russian lexico-syntactical (LS-) generation within an entity-based (EBL ) linguistic framework. The problems touched upon include: mechanisms of paradigmatic and syntagmatic inheritance underlying the EBL-description of Russian and its functioning in generation procedures; representation of the LS-context of input LS-entities as their relational features; compensation mechanisms involved in processing under- and over-specified input representations; distant and multifactor influence of LS-context on the choice of alternative morphologo-syntactical realizations of Russian LS-entities, etc. The work is supported by the Research Support Scheme of the Open Society Support Foundation, grant No. 458 / 2000.

Задача лексико-синтаксического синтеза русских словосочетаний и предложений интересует специалистов по компьютерной лингвистике уже несколько десятилетий — прежде всего в связи с созданием систем машинного перевода на русский с других языков, а также компьютерных пособий для обучения русскому языку. Однако до сих пор она решалась в основном в рамках реляционных подходов к лингвистическому описанию, кото-

___________________________________

Работа выполняется при поддержке RSS, грант № 458 / 2000.

рые ставят в центр описания правила и отношения, а за участвующими в них языковыми сущностями оставляют пассивную роль признаков, используемых при проверке релевантности тех или иных правил и отношений для обрабатываемого контекста. К числу подобных моделей приходится относить не только стандартные порождающие грамматики [Chomsky], но — в его грамматических компонентах — даже классический вариант модели «Смысл  Текст» [Мельчук].

В данной работе эта задача ставится в рамках противоположного, сущностного подхода к языку [Шаляпина 1999], при котором базовыми единицами описания являются именно лингвистические сущности: от конкретных (сводящихся к элементарным или идиоматичным лексемам и аффиксам) до обобщенно-грамматических (определяющих классы частеречного типа), а все виды правил и отношений задаются как свойства тех или иных из этих сущностей. В том числе все синтаксические отношения, включая сочинение, отождествление и кореферентность, определяются как реализации валентностей одной или обеих связываемых ими лингвистических сущностей. Описание языка предстает при этом как инвентарь (точнее, система инвентарей) сущностей различных типов, каждой из которых сопоставлено определение всех релевантных для нее свойств — своего рода словарная статья, а средством объединения этих статей в связную систему лингвистических знаний, способную функционировать при обработке текстов как единое целое, служат механизмы наследования — парадигматического (устанавливающего связь между сущностями различной степени обобщенности) и синтагматического (увязывающего свойства сложных лингвистических единиц с составом и структурой их компонентов). Хотя подходы сущностного типа — в различных вариантах и под различными названиями — представлены в целом ряде теоретических и экспериментальных моделей языка (см. хотя бы [Шаляпина 1974], [Hudson], [Starosta], [Sleator] и др.), они до сих не применялись сколько-нибудь последовательным образом ни к задаче синтеза, ни к материалу русского языка, что определяет актуальность данного исследования и нетривиальность проблем, встающих при его выполнении.

Задача ЛС-синтеза, в нашем ее понимании, состоит в преобразовании цепочки ЛС-запросов, каждый из которых задает некоторую потенциальную словоформу русского языка или функционально аналогичное ей словосочетание как элементарную лексическую сущность, сопровождаемую ее контекстными свойствами — морфологическими и синтаксическими, — в цепочку лексико-морфологических запросов, однозначно определяющих последовательность соответствующих синтетических русских словоформ. Процедуры этого преобразования при сущностном подходе должны целиком базироваться на свойствах исходных лексических сущностей — свойствах, которые либо непосредственно присутствуют в их словарных статьях, либо наследуются ими от других лингвистических сущностей в языковой парадигматике или синтагматике. При реализации этой задачи требуется решить прежде всего следующие проблемы:

— установить основные типы лингвистических сущностей и их свойств, релевантные для задач лексико-синтаксического синтеза, и задать виды отношений, возможных между самими сущностями и между их свойствами в языковой системе и в тексте;

— определить механизмы парадигматического и синтагматического наследования, опирающиеся на эти отношения, как процедурную основу системы ЛС-синтеза;

— задать способ представления и учета структурного и линейного контекста лексических сущностей в качестве их ЛС-признаков и определить оптимальные размеры таких признаков;

— построить формальный аппарат, позволяющий, среди прочего, учитывать возможность разнонаправленного и многофакторного влияния ЛС-контекста на выбор оформления той или иной сущности в процессе синтеза;

— ввести средства, которые позволяли бы компенсировать несовпадение систем лексических, морфологических и синтаксических категорий в различных языках (приводящее, в частности, к неполным или противоречивым определениям синтезируемых сущностей в их входном представлении), а также учитывать и преодолевать возможность дефектности морфологических парадигм русских лексем.

Перечисленные проблемы решаются в экспериментальном варианте в разрабатываемой авторами действующей системе русского синтеза RUSSLAN. Система реализуется на языке программирования Turbo Pascal (MS DOS / Windows) и использует базы данных текстового типа. В ней предусматриваются не только средства выбора того или иного из альтернативных способов оформления русских ЛС-сущностей в зависимост от их контекста, но и механизм коррекции определений входных ЛС-сущностей при их несоответствии требованиям русского языка, а также аппарат локальных трансформаций, позволяющий вводить, устранять или заменять те или иные сущности с использованием аппарата лексических функций [Мельчук] и их аналогов.

Литература

Мельчук И. А. Опыт теории лингвистических моделей «Смысл « Текст». М.: Наука, 1974.

Шаляпина З. М. Оппозиция «часть — целое» и сущностный подход к моделированию языковой компетенции // Роман Якобсон: тексты, документы, исследования. М.: РГГУ, 1999. С. 541–551.

Шаляпина З. М. Семантико-синтаксический анализ в системе англо-русского автоматического перевода (АРАП) // ПГЭПЛ. Вып. 47. М.: ИРЯ АН СССР, 1974.

Chomsky N. Aspects of the Theory of Syntax. Cambridge (Mass.), 1965.

Hudson R. Word Grammar. Oxford: Basil Blackwell, 1984.

Starosta S. The Case for Lexicase. London; New York: Pinter Publishers, 1988.

Sleator D. Parsing English with a Link Grammar. Third International Workshop on Parsing Technologies. 1993.

(u.edu/~sleator).