Система семантического разбора для естественно-языковых текстов

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



анят дополнительнцю информацию для выше перечисленных постоянных грамматических характеристик.

Переменные грамматические характеристики для существительного описаны в таблице 5.6.

Таблица 5.6

Характеристики для существительного

VidОписание0Все формы одинаковы1Ед.ч. И.П. (единственное число, иментиельный падеж)2Ед.ч. Р.П.3Ед.ч. Д.П.4Ед.ч. В.П.5Ед.ч. Т.П.6Ед.ч. П.П.7Мн.ч. И.П. (множественное число, именительный падеж)8Мн.ч. Р.П.9Мн.ч. Д.П.10Мн.ч. В.П.11Мн.ч. Т.П.12Мн.ч. П.П.13только мн. ч. (все формы одинаковы)

Переменные грамматические характеристики для существительного описаны в таблице 5.7.

Таблица 5.7

Характеристики для прилагательных и схожих частей

VidОписание1И.П. М.р ед.ч.од/неод (Иментельный падеж, мужск. род, ед.число, одушевленное и неодушевленное)2И.П. С.р ед.ч.од/неод3Р.П. М/С.р ед.ч.од/неод4Д.П. М/С.р ед.ч.од/неод5В.П. М.р ед.ч.неод.6В.П. М.р ед.ч.одуш.7В.П. С.р ед.ч.од/неод8Т.П. М/С.р ед.ч.од/неод9П.П. М/С ед.ч.од/неод10И. Ж.р ед.ч.од/неод11Р,Д,П и Ж ед.ч.од/неод12В. Ж.р ед.ч.од/неод13Т. Ж.р ед.ч.од/неод14И. Мн.ч. од/неод15Р.Мн.ч. од/неод16Д. Мн.ч. од/неод17В. Мн.ч. неод.18В. Мн.ч. од.19Т. Мн.ч. од/неод20Т. Ж.р еч.од/неод21Кратк.форма М.р22Кратк.форма Ж.р23Кратк.форма С.р24Кратк.форма Мн. всех родов25Сравнительная степень26Сравнительная степень (параллельный вариант ее/ей)

Переменные грамматические характеристики для числительных описаны в таблице 5.8.

Таблица 5.8

Характеристики для числительных

VidОписание0все формы одинаковы1И.П.2Р.П.3Д.П.4В.П.5В.П. одушевленное6Т.П.7П.П.8Т.П. (параллельн)9М/С род И.П.10М/С род Р.П.11М/С род Д.П.12М/С род В.П.13М/С род В.П. одушевл14М/С род Т.П.15М/С род П.П.16Ж род И.П.17Ж род Р.П.18Ж род Д.П.19Ж род В.П.20Ж род В.П. одушевл21Ж род Т.П.22Ж род П.П.

Таблица 5.9

Переменные грамматические характеристики для глаголов

VidОписание1ИнФинитив2Н.вр Ед.ч 1 лицо3Н.вр Ед.ч 2 лицо.4Н.вр Ед.ч 3 лицо5Н.вр Мн.ч 1 лицо6Н.вр Мн.ч 2 лицо7Н.вр Мн.ч 3 лицо8Пр.вр Ед.всех лиц М род9Пр.вр Ед.всех лиц Ж род10Пр.вр Ед.всех лиц С род11Пр.вр Мн.всех лиц родов12Повел. 2 лицо Ед.13Повел. 2 лицо Мн.14Повел. 1 лицо Мн.(к одному)15Повел. 1 лицо Мн.(ко многим)16Буд.вр Ед.ч 1 лицо17Буд.вр Ед.ч 2 лицо18Буд.вр Ед.ч 3 лицо19Буд.вр Мн.ч 1 лицо20Буд.вр Мн.ч 2 лицо21Буд.вр Мн.ч 3 лицо25Н/Буд. вр Ед.ч 1 лицо26Н/Буд. вр Ед.ч 2 лицо27Н/Буд. вр Ед.ч 3 лицо28Н/Буд. вр Мн.ч 1 лицо29Н/Буд. вр Мн.ч 2 лицо30Н/Буд. вр Мн.ч 3 лицо

Деепричастие лингвисты как правило не различают времени у прилагательного, но раз такая информация была введена в словаре Зализнякак, то 2 характеристики имеют место, они описаны в таблице 5.10.

Таблица 5.10

характеристики для деепричастия

VidОписание1Настоящего времени2Прошедшего времен

Прочее характеристики, не входящие выше перечисленных устанавливаются значением NULL.

семантический язык программирование интерфейс

6. АЛГОРИТМЫ АНАЛИЗА СИСТЕМЫ

.1 Алгоритм графематического разбора

Графематический разбор является начальной стадией работы системы, и достаточно сложной. На рисунки 6.1 изложен сжатый алгоритм данного анализа.

Рисунок 6.1 - Алгоритм графематического разбора

Более подробно данный алгоритм приведен в листинге программы дипломного проекта.

Исходя из рисунка, выходными данными алгоритма будет запись в очередь буквенные, цифровые лексемы, знаки препинания и комплексные лексемы.

.2 Алгоритм морфологического анализа

Морфологический анализ, входные данные которого является очередь из лексем и знаков препинания, анализирует только русские лексемы. Алгоритм описан на рисунке 6.2.

Рисунок 6.2 - Алгоритм морфологического анализа

Всё что качается морфологического анализа библиотеки mcr.dll было описано ранее. Были изложенные различные методы хранения словаря, и так же текущий метод Н-граммы, который позволяет хранить сразу целые цепочки корней и аффиксов длиной N, что дает некоторые преимущества и некоторые особенности при использовании орфокоррекции или в генетических алгоритмах генерации псевдослов.

А так же библиотека mcr.dll позволяет подключать, создавать и сохранять словари в формате mcr, выполнять поиск слов в этих словарях, морфоанализ, лемматизацию, орфокоррекцию, стемминг и еще некоторые другие функции.

.3 Алгоритм синтаксическо-семантического анализа

Конечный, самый важный и сложный анализ системы семантического разбора естественно-языковых текстов является синтаксическо-семантического анализа. Упрощенное содержание алгоритма изложено на рисунке 6.3.

Рисунок 6.3 - Алгоритм синтаксическо-семантического аланиза

7. ПРОЕКТИРОВАНИЕ ИНТЕРФЕЙСА

Интерфейс имеет важное значение для любой программной системы и является неотъемлемой ее составляющей, ориентированной, прежде всего, на конечного пользователя. Именно через интерфейс пользователь судит о прикладной программе в целом.

Интерфейс - в широком смысле слова, это способ (стандарт) взаимодействия между объектами. Интерфейс в техническом смысле слова задаёт параметры, процедуры и характеристики взаимодействия объектов.

Интерфейсы различают:

интерфейс пользователя - набор методов взаимодействия компьютерной программы и пользователя этой программы;

- программный интерфейс - набор методов для взаимодействия между программами.

7.1 Требования к разработке интерфейса

Основным требованию к интерфейсу служит условия своеобразной пирамиды, изображенной на рисунке 7.1.

Прежде чем подняться на следующий