Система семантического разбора для естественно-языковых текстов

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



для предложений преведены на рисунке 3.2.

Но в системе ДИАЛИНГ используют граф iентром в глаголе. То есть, глаголы соединяются с группой существительного с использованием падежных отношений. Для данной задачи граф должен быть iентром в существительном, как изображено на рисунке 3.2.

Дом Пашкова стоял на пригорке.Он купил картошку, лук.Ему не хватило духа сказать об этом.Он считал этого человека великим ученым.Рисунок 3.2 - Примеры семантической структуры

4. СТРУКТУРА СИСТЕМЫ ПОСТРОЕНИЯ СЕМАНТИЧЕСКОГО РАЗБОРА ДЛЯ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ

Планируемая система будет иметь схожий на систему ДИАЛИНГ структуру. Следовательно, в обязательном порядке, присутствуют такой компонент как графематический анализ. Который производит разбор на слова, цифровые комплексы, электронный адресов, названия файлов, аббревиатуры и деления на абзацы, предложения.

Далее следует морфологический разбор, предназначенный для построения морфологической информации слов входного текста, и после следует синтаксический анализ. Помимо этого будет добавлен статистический анализатор, в данном компоненте будет реализовываться подсчет повторно встречаемых слов, какой части речи они относятся, форма слов и т.п. Данный анализатор более упростит и повысит качество семантического анализа, даст больше данных для построения семантической сети. Структуру системы построения семантического разбора для естественно-языковых текстов можно увидеть на рисунке 4.1.

Рисунок 4.1 - Структура системы семантического разбора для естественно-языковых текстов

.1 Графематический анализ

Графематический анализ - достаточно простая программа, выполняющая первые предварительные действия над текстом. На вход графематике подается текст в кодировке Windows, на выходе строится графематическая таблица, в которой на каждой строке стоит слово или разделитель из входного текста. Кроме деления текста на слова, графематика разбивает текст на предложения (макросинтаксический анализ). Данный анализ немного отличатся от ранее описанного графематического анализа из системы ДИАЛИНГ.

Практическая задача анализа построить графематическую таблицу. В первом столбце стоит некоторый кусок входного текста, во втором столбце стоят графематические дескрипторы, характеризующие этот кусок текста. Примером такой таблице является таблица 4.1.

Таблица 4.1

Графематическая таблица

Кусок входного текстаГрафематические дескрипторыИванЛЕ Бб НПРД_РЗДспалЛЕ бб.ЗПР КПРД

Перечисление графематических дескрипторов описаны в таблице 4.2.

Таблица 4.2

Графематические дескрипторы

Кир.Назв.ОбъяснениеПримерЛЕрусская лексема, присваивается последовательностям, состоящим из кириллицыИванИЛЕиностранная лексема, присваивается последовательностям из латиницыJohnРЗДразделитель, но не знак препинания."*", "=", "+", "-", "_" и т.п.ЗПРзнак препинания, присваивается последовательностям, состоящим из одинаковых знаков препинания" . ", "[","]", "(", ")", " : ", " ; " и т.п.ЦКцифровой комплекс, присваивается последовательностям, состоящим из цифр1234ЦБКцифро-буквенный комплекс, присваивается последовательностям, состоящим из цифр и букв34h

Разновидности дескриптора ЛЕ и ИЛЕ описаны в таблице 4.3.

Таблица 4.3

Разновидности дескриптора ЛЕ и ИЛЕ

ббпризнак того, что все символы лексемы - малыемамаБбпризнак того, что первый символ лексемы - большой;МамаББпризнак того, что все символы лексемы - большиеМАМА

Теперь опишем дескрипторы, которые появляются вычисляють начало и конец предложения. Они описаны в таблице 4.4.

Таблица 4.4

Контекстные дескрипторы

НПРДначало предложенияКПРДконец предложения

Деление предложений будет производиться по определенным правилам.

1.Начало текста совпадает с началом предложения.

2.Предложения начинается с заглавной буквы, а если предложения в середине текста, перед ним должен быть знак препинания ".", "?" или "!".

.Предложение не может состоять из знаков препинания, цифр или символа.

.Конец предложения заканчивается знаком препинания ".", "?" или "!", а следующая лемма начинатся с заглавной буквы, если это не конец текста

.Конец текста всегда будет концом последнего предложения.

Для полного понимания на рисунке 4.2 изображены блоки графемотического анализа.

Рисунок 4.2 - Блоки графемотического анализа

Анализ состоит всего и двух модулей.

В первом определяются дискрипторы, которые были описаны в таблице 4.2 и 4.3.

Во втором определяются начало и конец предложения, и соответственно добавляются дискрипторы контекста из таблицы 4.4.

.2 Морфологический анализ

Морфологический компонент осуществляет морфоанализ и лемматизацию русских словоформ (лемматизация - приведение текстовых форм слова к словарным; морфоанализ - приписывание словоформам морфологической информации).

Блоки изображены на рисунке 4.3.

При лемматизации для каждого слова входного текста морфологический процессор выдает множество морфологических интерпретаций следующего вида:

-лемма (всегда пишется большими буквами);

-морфологическая часть речи;

-множество наборов граммем.

-

Рисунок 4.3 - Блоки морфологического анализа

Так как программная разработка морфологичекого анализа является слож