Разработка алгоритма работы синтаксического анализатора текста, а также базы данных синтаксических правил русского языка
Курсовой проект - Иностранные языки
Другие курсовые по предмету Иностранные языки
онимичном им. падеже.
Строится:
. группа (прилагательное\причастие)л + (прил_сущ. или одиночное существительное)i с вершиной - прилагательным\ причастием)к.
. группа (прилагательное\причастие)i + (прил_сущ или одиночное сущ.)n с существительным - вершиной.
Примеры:… видящему всех псу, строящим высокие дома англичанам
Правило 10 для построения ПГ с именными группами, построенными по правилам 7-9.
Что: цепочка предлог+НСО
Условие: предлог может управлять одним из падежей вершины НСО.
Строится: группа предлог + НСО, где предлог - вершина.
Примеры: на лежащем под ним ковре, к ожидающему неприятностей мальчику, для известного всем старшего дворника
2.3.4Взаимодействие с синтаксическим анализом
Синтаксический анализ проводится на каждом фрагменте отдельно. На фрагментах, полученных объединением по правилу о простых случаях однородности, могут построиться синтаксические группы однородных членов. Основные механизмы взаимодействия между фрагментами и их синтаксическими вариантами:
1.При объединении фрагментов объединяются их синтаксические варианты (каждый с каждым, чтобы получить декартово произведение омонимов для нового фрагмента).
2.При вложении фрагмента в лево- или правостоящий фрагмент, происходит перемножение типов вкладываемого фрагмента на синтаксические варианты главного фрагмента. Каждый омоним типа вкладываемого фрагмента представляется как юнит (см. синтаксис) и добавляется в начало или конец синтаксического варианта.
.При построении фрагмента необособленного согласованного определения внутри существующего предложения, фрагмент необособленного согласованного определения внутри синтаксических вариантов представляется как юнит.
Существует механизм для объединения дистантных и рядом стоящих фрагментов, который объединяет лучшие синтаксические варианты и строит по всем существующим синтаксическим правилам группы для нового варианта, а затем ищет группы построенные на границе объединения или подлежащее и сказуемое по разные стороны границы объединения. Если поиск успешен, то объединение двух фрагментов возможно.
2.4Морфологический анализ
синтаксический морфологический текст графематический
Данный блок позволяет получить морфологическую информацию о словах в тексте.
2.4.1Структура морфологического словаря
Морфологический словарь, или лексикон, содержит все словоформы одного языка, в нашем случае русского.
2.4.2Русский морфологический словарь
Русский морфологический словарь базируется на грамматическом словаре А.А. Зализняка[50]. Включает на данный момент 161 тыс. лемм.
При лемматизации для каждого слова входного текста выдается множество морфологических интерпретаций следующего вида:
морфологическая часть речи;
набор общих граммем (которые относятся ко всем словоформам парадигмы слова).
множество наборов граммем.
Ниже мы приводим полный перечень русских частей речи:
Часть речи в системеПримерРасшифровкаCмамасуществительноеПкрасныйприлагательноеМСонместоимение-существительноеГидетглагол в личной формеПРИЧАСТИЕидущийпричастиеДЕЕПРИЧАСТИЕидядеепричастиеИНФИНИТИВидтиинфинитивМС-ПРЕДКнечегоместоимение-предикативМС-Пвсякийместоименное прилагательноеЧИСЛвосемьчислительное (количественное)ЧИСЛ-Пвосьмойпорядковое числительноеНкрутонаречиеПРЕДКинтереснопредикативПРЕДЛподпредлогСОЮЗисоюзМЕЖДоймеждометиеЧАСТже, бычастицаВВОДНконечновводное слово
Граммема - это элементарный морфологический описатель, относящий словоформу к какому-то морфологическому классу, например, словоформе стол с леммой СТОЛ будут приписаны следующие наборы граммем: мр, ед, им, но, мр, ед, вн, но. Таким образом, морфологический анализ выдает два варианта анализа словоформы стол с леммой СТОЛ внутри одной морфологической интерпретации: с винительным (вн) и именительным падежами (им).
Ниже перечислены все используемые граммемы:
мр, жр, ср - мужской, женский, средний род;
од, но - одушевленность, неодушевленность;
ед, мн - единственное, множественное число;
им, рд, дт, вн, тв, пр - падежи: именительный, родительный, дательный, винительный, творительный, предложный;
св, нс - совершенный, несовершенный вид;
пе, нп - переходный, непереходный глагол;
дст, стр. - действительный, страдательный залог;
нст, прш, буд - настоящее, прошедшее, будущее время;
пвл - повелительная форма глагола;
л, 2 л, 3 л - первое, второе, третье лицо;
- неизменяемое.
кр - краткость (для прилагательных и причастий).
сравн - сравнительная форма (для прилагательных).
имя, фам - имя, фамилия.
лок, орг - локативность, организация.
кач - качественное прилагательное.
вопр, относ - вопросительность и относительность (для наречий).
дфст - слово обычно не имеет множественного числа.
опч - частая опечатка или ошибка.
жарг - жаргонизм.
Как уже было сказано, одной словоформе может соответствовать много морфологических интерпретаций. Например, у словоформы стали две интерпретации:
{СТАЛЬ, C, но, (жр, ед, рд, жр, ед, дт, жр, мн, им, жр, мн, вн)};
{СТАТЬ, Г, нп, св, (мн, дст, прш)}.
3. Разработка базы данных синтаксических правил
База синтаксических правил состоит из двух сущностей:
Правила
Элементы
Структура таблицы Пр