Система семантического разбора для естественно-языковых текстов
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
?ических отношений. Все алгоритмы, которые ищут эти отношения и их композиции, можно назвать синтаксисом. Семантикой мы называем те алгоритмы, которые, используя смысл слов и выражений, устанавливают отношения, которые не вычисляются напрямую из синтаксических отношений. Конечно, нельзя преувеличивать значение семантического анализа для систем автоматической обработки текста. Если попытаться просчитать актуальность семантического анализа как довеска к традиционному синтаксическому хотя бы на примере системы ДИАЛИНГ, то его помощь составляет не более десяти-двадцати процентов.
Теперь мы кратко опишем теоретическую базу, на основе которой был разработан первично семантический процессор - т.е., семантическая система доктора технических наук Н.Н. Леонтьевой.
В центре этой теории находится Русский общесемантический словар (РОСС), который включает семантическое описание по следующему шаблону описанному ниже.
1.Семантический класс лексемы (набор семантических характеристик).
2.Грамматический класс лексемы.
.Валентная структура лексемы (в терминах семантических тношений).
.Семантические и грамматические ограничения на выражение каждого актанта из валентной структуры.
Ниже приведен пример словарной статьи глагола "винить":
ЗГЛ = винить 1
КАТ = 1 ЭТК.СИТ
ГХ = 1 ГЛ:ГГ
СХ = 1 ИНТЕЛ
КОММУНИК
ВАЛ = АГЕНТ , А1 , С
ОБ , А2 , С
СОДЕРЖ , А3 , С
ГХ1 = 1 подл : И
СХ1 = 1 ОДУШ
ГХ2 = 1 п_доп : В
СХ2 = 1 ОДУШ
АБСТР
ГХ3 = 1 к_доп : в+П
к_доп : за+В
АНГ = blame 1
ИЛЛ = Я сам себя винил во всех неудачах.
Винить за это некого.
Опишем кратко понятие семантической характеристики и отношения. Семантическое отношение - это некая универсальная связь, усматриваемая носителем языка в тексте.
Формат записи семантического отношения следующий: R(А,B), где R - название семантического отношения, А - зависимый член отношения, B - управляющий член отношения.
Для конкретных А,B и отношения R направление выбирается таким образом, чтобы формула R(А,B) была эквивалентна утверждению, что "А является R для B". Например, для фразы роман Толстого будет построена формула АВТОР(Толстой, роман), а не наоборот, потому что верно утверждение " Толстой является АВТОРом романа".
Соответственно, эта проверка и является базисной оценкой правильности проведения одного отношения от узла А к узлу B. Если все базисные проверки пройдены, то и весь граф признается правильным, т.е. отражающим смысл входного текста.
Семантическое отношение R (A, B) "А является R для B". Перечень отношений описаны в таблице 3.10.
Таблица 3.10
Семантическое отношение R (A, B)
Название(R)ПримерыАВТОРРоман ТолстогоАГЕНТМы сократили отставаниеАДРЯ отдал стул отцу.ВРЕМЯЭто произошло вчера.ИДЕНТДом N 20ИМЯДворник СтепановИНСТРрезать ножомИСХ-Тяблоки из МолдавииКОЛИЧдва яблокаКОН-Туехать в МосквуЛОКжить в глушиОБуничтожить мостОЦЕНКАхорошо относитьсяПАЦИЕНарест преступникаПРИЗНкрасивый шарПРИНАДЛдом отцаПРИЧдеревья повалены ураганомРЕЗЛТиспечь пирогСОДЕРЖрассказать о веснеСПОСОБидти босикомСРЕДСТВОкрасить белиламиСУБлюбовь отцаЦЕЛЬзабастовка в целях повышения зарплатыЧАСТЬножка стула
Семантические характеристики (СХ) в словаре РОСС играют важнейшую роль.
В словаре РОСС семантических характеристик около 40. Из этих меток строятся формулы (с логическими связками и, или). Каждому слову приписана некоторая формула, составленная из СХ.
СХ используются для сборки валентной структуры. Для каждого i-го актанта в поле СХi записывается формула, которой он должен удовлетворять.
Хотя изначально СХ вводились как простые селективные ограничения, отбраковывающие некоторые связи, проведенные синтаксическим анализом, теперь за каждой из них закреплено определенное значение. Вообще говоря, считается, что если СХ(А) = СХ (B) "А и В имеют общее семантическое свойство".
Семантическая характеристика СХ (A) = СХ(B) "А имеет смысловое сходство с B".
Пример:
) (говорить) = СХ(орать) = КОММУНИК;
) (повар) = СХ(генерал) = ДОЛЖ.
Перечень семантических характеристик описаны в таблице 3.11.
Таблица 3.11
Перечень семантических характеристик
НазваниеПримерыАБСТРмодель, план,АРТхлеб,памятникВЕЩВОбензин,ядохимикатВМЕСТЛмешок, амбарВОСПРслушать, видетьДВИЖидти, ронятьДОЛЖповар,партработникД-УСТРкарбюратор,валикИЗМнаращивать,реформировать,ИНТЕЛнадеяться,изучать,ИНФзнание,команда,КОММУНИКвыражать,выступатьНОСИНФкнига,газета,Н-ТРЕБзакон,инструкцияОДЕЯТфизика,балетОДУШпапа,президентОРГколхоз,школаПРЕДМмарка, бинокльПРОТЯЖдорога,границаСОБИРбиблиотека,молодежьУСТРкомпьютер,лифтЭМОЦмизерный,могучийЯВЛЕНсмерч,терроризм
Мы описали основные досемантические компоненты системы ДИАЛИНГ и аппарат семантического анализа, который был взят нами за основу. Теперь перейдем к описанию первично семантического процессора.
На вход семантического процессора подается синтаксическое дерево, а в большинстве случаев множество несвязных синтаксических деревьев, т.е. лес. Задача состоит в том, чтобы по возможности разрешить морфологическую, лексическую и древесную неоднозначность, описание в таблице 3.12.
Таблица 3.12
Описание семантического процессора
Вход: синтаксическое деревоВыход: семантический графR(a, b)=>R(A, B)генит,иг(дом, отца)=>ПРИНАДЛ(дом, отца)генит_иг(чашка, чая)=>КОЛИЧ(чашка, чай)
Примеры семантической структуры