Система семантического разбора для естественно-языковых текстов
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
p>
Часть речи в системе ДиалингПримерРасшифровкаCмамасуществительноеПкрасныйприлагательноеМСонместоимение-существительноеГидетглагол в личной формеПРИЧАСТИЕидущийпричастиеДЕЕПРИЧАСТИЕидядеепричастиеИНФИНИТИВидтиинфинитивМС-ПРЕДКнечегоместоимение-предикативМС-Пвсякийместоименное прилагательноеЧИСЛвосемьчислительное (количественное)ЧИСЛ-Пвосьмойпорядковое числительноеНкрутонаречиеПРЕДКинтереснопредикативПРЕДЛподпредлогСОЮЗисоюзМЕЖДоймеждометиеЧАСТже, бычастицаВВОДНконечновводное словоКР_ПРИЛкрасивакраткое прилагательноеКР_ПРИЧАСТИЕпостроенакраткое причастие
Граммема - это элементарный морфологический описатель, относящий словоформу к какому-то морфологическому классу, например, словоформе "стол" с леммой "СТОЛ" будут приписаны следующие наборы граммем: "мр, ед, им, но", "мр, ед, вн, но". Таким образом, морфологический анализ выдает два варианта анализа словоформы "стол" с леммой "СТОЛ" внутри одной морфологической интерпретации: с винительным (вн) и именительным падежами (им).
Ниже перечислены все используемые граммемы:
-мр, жр, ср - мужской, женский, средний род;
-од, но - одушевленность, неодушевленность;
-ед, мн - единственное, множественное число;
-им, рд, дт, вн, тв, пр, зв - падежи: именительный, родительный, дательный, винительный, творительный, предложный, звательный;
-2 - обозначает второй родительный или второй предложный падежи;
-св, нс - совершенный, несовершенный вид;
-пе, нп - переходный, непереходный глагол;
-дст, стр - действительный, страдательный залог;
-нст, прш, буд - настоящее, прошедшее, будущее время;
-пвл - повелительная форма глагола;
-1л, 2л, 3л - первое, второе, третье лицо;
-0 - неизменяемое;
-кр - краткость (для прилагательных и причастий);
-сравн - сравнительная форма (для прилагательных);
-имя, фам, отч - имя, фамилия, отчество;
-лок, орг - локативность, организация;
-кач - качественное прилагательное;
-вопр,относ - вопросительность и относительность (для наречий);
-дфст - слово обычно не имеет множественного числа;
-опч - частая опечатка или ошибка;
-жарг, арх, жаргонизм, архаизм, профессионализм;
-аббр - аббревиатура;
-безл - безличный глагол.
Как уже было сказано, одной словоформе может соответствовать много морфологических интерпретаций. Например, у словоформы стали две интерпретации:
-{СТАЛЬ, C, "но", ("жр,ед,рд", "жр,ед,дт", "жр,мн,им", "жр,мн,вн") };
-{СТАТЬ, Г, "нп,св", ("мн,дст,прш")}.
В данном случае разрабатывать данный компонент не обязательно, так как это является очень трудоемкой и длительной работой. Тем более в открытом доступе присутствуют многочисленное количество готовых библиотек. Одна из многих присутствует на сайте www.aot.ru - это COM-интерфейс морфологического анализатора системы Диалинг. Для Unix-разработчиков, к сожалению нет специального документа, но в целом Unix-версия повторяет структуру всех представленных интерфейсов, достаточно только переименовать основные типы (BSTR в string, BOOL в bool и т.д.).
Пакет содержит COM-объект морфологии, бинарники русского словаря и пример использования COM-объекта на С++. Все готово для проведения морфологического анализа. Так же присутствует описания всех интерфейсов.
.3 Синтаксический анализ
Цель синтаксического анализа - построение групп на предложении. Синтаксическая группа - это отрезок (первое слово группы - последнее слово группы) в предложении, для которого указан подотрезок - его главная группа. В частном случае группа - одно слово. Как видно из определения, синтаксические группы неразрывны, а из того, что две группы пересекаются, следует, что одна лежит в другой (т.е. является ее подотрезком).
Синтаксическую структуру предложения можно представить в виде дерева: корень (нулевой уровень) - само предложение; узлы -синтаксические группы (далее просто группы); листья - элементарные группы (слова); ребра - отношение "лежать непосредственно в" (А->В значит, что В лежит в А и при этом нет такой группы С, что В лежит в С и С лежит в А).
До начала работы анализатора каждое слово - группа первого уровня (группы первого уровня не входят ни в какие группы кроме предложения) и кроме корня других групп нет. Результатом работы является "дерево" предложения, описывающее лингвистические отношения подчинения. По сути это и есть математическая модель предложения на естественном языке.
.4 Семантический анализ
Последним этапом является построения семантической сети в виде ориентированного графа. В результате, вершины графа соответствуют объектам текстовой семантики, а дуги задают отношения между ними. Часто, вершинами графа называют семантическими узлами, а дуги - семантическими отношениями.
На входе семантического анализа подается синтаксическое представление текста и все семантические словари, тезаурусы, привлеченные к реализации в системе.
На выходе построенная семантическая сеть. Пример такой семантической сети можно увидеть на рисунке 3.1 по информации заключенной в следующем тексте: "Петух Петя является птицей и он умеет кукарекать. Попугай Кеша живет у моего одноклассника Васи. Попугай - птица. Птицы являются животными. Медведь - это животное, имеющее темный цвет".
Рисунок 3.1 - Пример семантической сети
Традиционный школьный синтаксис, который строится на понятии согласования, управления и примыкания, позволяет очертить круг синтак