Разработка алгоритма работы синтаксического анализатора текста, а также базы данных синтаксических правил русского языка

Курсовой проект - Иностранные языки

Другие курсовые по предмету Иностранные языки

онимичном им. падеже.

Строится:

. группа (прилагательное\причастие)л + (прил_сущ. или одиночное существительное)i с вершиной - прилагательным\ причастием)к.

. группа (прилагательное\причастие)i + (прил_сущ или одиночное сущ.)n с существительным - вершиной.

Примеры:… видящему всех псу, строящим высокие дома англичанам

Правило 10 для построения ПГ с именными группами, построенными по правилам 7-9.

Что: цепочка предлог+НСО

Условие: предлог может управлять одним из падежей вершины НСО.

Строится: группа предлог + НСО, где предлог - вершина.

Примеры: на лежащем под ним ковре, к ожидающему неприятностей мальчику, для известного всем старшего дворника

 

2.3.4Взаимодействие с синтаксическим анализом

Синтаксический анализ проводится на каждом фрагменте отдельно. На фрагментах, полученных объединением по правилу о простых случаях однородности, могут построиться синтаксические группы однородных членов. Основные механизмы взаимодействия между фрагментами и их синтаксическими вариантами:

1.При объединении фрагментов объединяются их синтаксические варианты (каждый с каждым, чтобы получить декартово произведение омонимов для нового фрагмента).

2.При вложении фрагмента в лево- или правостоящий фрагмент, происходит перемножение типов вкладываемого фрагмента на синтаксические варианты главного фрагмента. Каждый омоним типа вкладываемого фрагмента представляется как юнит (см. синтаксис) и добавляется в начало или конец синтаксического варианта.

.При построении фрагмента необособленного согласованного определения внутри существующего предложения, фрагмент необособленного согласованного определения внутри синтаксических вариантов представляется как юнит.

Существует механизм для объединения дистантных и рядом стоящих фрагментов, который объединяет лучшие синтаксические варианты и строит по всем существующим синтаксическим правилам группы для нового варианта, а затем ищет группы построенные на границе объединения или подлежащее и сказуемое по разные стороны границы объединения. Если поиск успешен, то объединение двух фрагментов возможно.

 

2.4Морфологический анализ

синтаксический морфологический текст графематический

Данный блок позволяет получить морфологическую информацию о словах в тексте.

 

2.4.1Структура морфологического словаря

Морфологический словарь, или лексикон, содержит все словоформы одного языка, в нашем случае русского.

 

2.4.2Русский морфологический словарь

Русский морфологический словарь базируется на грамматическом словаре А.А. Зализняка[50]. Включает на данный момент 161 тыс. лемм.

При лемматизации для каждого слова входного текста выдается множество морфологических интерпретаций следующего вида:

морфологическая часть речи;

набор общих граммем (которые относятся ко всем словоформам парадигмы слова).

множество наборов граммем.

Ниже мы приводим полный перечень русских частей речи:

 

Часть речи в системеПримерРасшифровкаCмамасуществительноеПкрасныйприлагательноеМСонместоимение-существительноеГидетглагол в личной формеПРИЧАСТИЕидущийпричастиеДЕЕПРИЧАСТИЕидядеепричастиеИНФИНИТИВидтиинфинитивМС-ПРЕДКнечегоместоимение-предикативМС-Пвсякийместоименное прилагательноеЧИСЛвосемьчислительное (количественное)ЧИСЛ-Пвосьмойпорядковое числительноеНкрутонаречиеПРЕДКинтереснопредикативПРЕДЛподпредлогСОЮЗисоюзМЕЖДоймеждометиеЧАСТже, бычастицаВВОДНконечновводное слово

Граммема - это элементарный морфологический описатель, относящий словоформу к какому-то морфологическому классу, например, словоформе стол с леммой СТОЛ будут приписаны следующие наборы граммем: мр, ед, им, но, мр, ед, вн, но. Таким образом, морфологический анализ выдает два варианта анализа словоформы стол с леммой СТОЛ внутри одной морфологической интерпретации: с винительным (вн) и именительным падежами (им).

Ниже перечислены все используемые граммемы:

мр, жр, ср - мужской, женский, средний род;

од, но - одушевленность, неодушевленность;

ед, мн - единственное, множественное число;

им, рд, дт, вн, тв, пр - падежи: именительный, родительный, дательный, винительный, творительный, предложный;

св, нс - совершенный, несовершенный вид;

пе, нп - переходный, непереходный глагол;

дст, стр. - действительный, страдательный залог;

нст, прш, буд - настоящее, прошедшее, будущее время;

пвл - повелительная форма глагола;

л, 2 л, 3 л - первое, второе, третье лицо;

- неизменяемое.

кр - краткость (для прилагательных и причастий).

сравн - сравнительная форма (для прилагательных).

имя, фам - имя, фамилия.

лок, орг - локативность, организация.

кач - качественное прилагательное.

вопр, относ - вопросительность и относительность (для наречий).

дфст - слово обычно не имеет множественного числа.

опч - частая опечатка или ошибка.

жарг - жаргонизм.

Как уже было сказано, одной словоформе может соответствовать много морфологических интерпретаций. Например, у словоформы стали две интерпретации:

{СТАЛЬ, C, но, (жр, ед, рд, жр, ед, дт, жр, мн, им, жр, мн, вн)};

{СТАТЬ, Г, нп, св, (мн, дст, прш)}.

 

3. Разработка базы данных синтаксических правил

 

База синтаксических правил состоит из двух сущностей:

Правила

Элементы

Структура таблицы Пр