Исследование основных подходов к автоматическому отображению онтологий
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
?тиям, которые определяются с использованием синсетов (множеств синонимов) из MeSH (Medicine Subject headings) и WordNet. Параметры таксономической меры близости рассчитываются с учетом введенных мостов: ближайшим общим родителем (LCS) для сравниваемых понятий из разных онтологий O1 и O2 является ближайший общий родитель первого элемента сравниваемой пары и вершины-моста.
Для вычисления кросс-онтологической меры близости таксономии двух онтологий связываются через вводимую top-вершину обеих иерархий. Близость понятий в двух онтологиях вычисляется с учетом лексической близости терминов, соответствующих сравниваемым вершинам, семантической близости соседних (в заданном радиусе окрестности вершины в иерархии) вершин, а также близости различимых свойств понятий, соответствующих сравниваемым вершинам.
Мера близости между термами разных онтологий разбивается на элементарные критерии: лексическая близость, близость свойств, близость доменов и диапазонов отношений, близость родительских/дочерних понятий и т. д. Расчет близости между понятиями в разных онтологиях является итерационным процессом, поскольку многие из рассмотренных критериев близости двух понятий основываются на близости других сущностей. На первой итерации используются критерии близости, которые не основываются на других критериях, например лексическая близость.
Рассматриваются методы измерения близости между онтологиями на двух уровнях - вербальном и концептуальном.
На вербальном уровне происходит сравнение лексиконов двух онтологий, на концептуальном - сравнение таксономий понятий и других отношений двух онтологий.
Ранжирование ответов на запросы к Web-порталу сводится к сравнению пар баз знаний (онтологий) - каждого результата запроса (QKBi), который интерпретируется как база знаний, и портала (KB). Базы знаний результата и портала имеют один лексикон и одни понятия, поэтому сравниваются только отношения. Ранжирование производится по значению близости результата к порталу, причем понятие близости между двумя базами знаний сводится к близости отношений:
(QKBi, KB) = , (4.13)
где PQ - множество отношений базы знаний результата запроса QKBi, P - множество отношений базы знаний портала, S(pj, pi) - близость двух n-арных отношений pj и pi .
Меры семантической близости используются в широком спектре задач. Эффективность применения той или иной меры зависит как от задачи, так и от пользователя. Этот вопрос не рассматривается в известной авторам данного обзора литературе и ожидает своего исследования.
Интерактивный интерфейс при задании запроса поможет пользователю определить свои предпочтения при выборе меры семантической близости.
.3 Семантическое расстояние
Измерение семантических расстояний, или количественная оценка семантических связей в системе языка - это исследовательская задача, для решения которой существует необходимый и достаточный теоретический аппарат, однако ее практические решения далеки от совершенства.
Измерение семантических расстояний на уровне лексикона и речевых произведений возможно лишь в том случае, если выполняются следующие условия:
- существует семантическое описание тех единиц, теснота связи между которыми подлежит измерению;
- существует подробное описание разнообразных семантических отношений, связывающих языковые единицы и их комплексы;
- используемый математический аппарат (теория множеств, топология, математическая статистика и пр.) адаптирован с учетом качественной природы измеряемых отношений.
В существующих исследованиях по измерению семантических расстояний задействованы два подхода: парадигматический и синтагматический.
1) Парадигматический подход предполагает измерение семантических расстояний в лексиконе. Исходный тезис таков: семантическую близость следует определять, опираясь на данные о значении, хранящиеся внутри языкового знака, а не за его пределами.
Определив лексикон языка как сложным образом упорядоченное множество классов слов, связанных парадигматическими отношениями (семантических полей или группировок иного толка, например, лексико-семантических групп, синонимических рядов), и описав значения единиц данных классов с помощью набора неких семантических признаков, можно применить к описанию языкового материала несложный математический аппарат. Класс лексических единиц при этом интерпретируется как n-мерное метрическое пространство, в котором каждое из значений лексем можно задать как точку или вектор. Для пары лексем расстояние определяется через число совпадающих или различающихся семантических признаков в их значениях. С данной целью могут быть использованы мера Хэмминга, мера Евклида, разнообразные коэффициенты ассоциации и пр. Каждому из семантических признаков, описывающих значения лексических единиц класса, может быть приписан вес, отражающий важность той или иной семы в иерархии. Не менее эффективно представление класса лексем в виде матрицы (в строках такой матрицы содержатся признаковые описания значений слов, в столбцах - возможные реализации семантических признаков), в виде таблицы расстояний или сети (в узлах сети располагаются лексемы, связывающие их дуги могут иметь метку типа семантического расстояния, т.е. содержать указание на какое-либо из парадигматических отношений: синонимия, антонимия, конверсия, гипонимия, меронимия и т.д., а также количественного значения семантического расстояния). При всем изяществе и простоте