Исследование основных подходов к автоматическому отображению онтологий

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



кой иерархии [3] - чем меньше длина пути между вершинами, тем они ближе:

, (4.4)

где N - глубина дерева, d(c1, c2) - длина кратчайшего пути между вершинами.

Предложена мера близости, учитывающая только глубины вершин понятий:

, (4.5)

где N(LCS) - глубина наименьшей общей родовой вершины - ближайшего общего родителя (least common subsumer - LCS), N(c1) и N(c2) - глубины вершин.

Предложена мера близости, учитывающая два параметра: длину кратчайшего пути между вершинами и глубину LCS-вершины - с учетом их весов a и b. Наибольшая корреляция с экспертными оценками получена при применении формулы:

, (4.6)

где d и N - длина кратчайшего пути между вершинами и глубина LCS-вершины.

При оценке семантической близости понятий предлагается ограничивать конфигурацию пути: длину пути и количество перегибов. Предполагается, что два понятия семантически близки, если соединены достаточно коротким путем, который имеет малое количество перегибов. Рассматриваются пути либо, состоящие из совокупности иерархических отношений, направленных в одну сторону (например, последовательность отношений от потомка к предку), либо включающие ровно один перегиб.

Для измерения близости используется семантическое расстояние SemDist, инверсное семантической близости: чем больше семантическое расстояние, тем меньше семантическая близость. Вводится понятие общей специфичности двух вершин CSpec:

, (4.7)

где N - глубина таксономического дерева. Чем меньше специфичность двух вершин, тем больше информации они разделяют и близость их больше.

Семантическое расстояние является функцией двух параметров - длины кратчайшего пути между вершинами и общей специфичности двух вершин:

, (4.8)

где ? > 0, ? > 0; k ? 1 - константа (обеспечивает нелинейность и положительность SemDist), d(с1, с2) - длина кратчайшего пути между двумя вершинами.

Вводится информационное содержание понятия IC (information content), которое вычисляется как частота встречаемости понятия и его подпонятий в стандартном корпусе текстов и трактуется как величина вероятности P(с). Если с2 - родитель для с1, то P(с1) ? P(с2). Чем абстрактнее понятие, тем меньше величина его IC. В [10] близость между двумя понятиями оценивается по IC ближайшего родителя сравниваемых понятий. Вместо глубины вершин используется их IC - взвешенная глубина. Таксономическая мера близости понятий определяется через так называемую верхнюю котопию (UC - upwards cotopy), содержащую все суперпонятия заданной вершины:

(4.9)

Предлагается асимметричная мера семантической близости. В зависимости от направления прохождения ребрам придается разный вес, так как потомок более подобен родителю, чем родитель потомку.

Недостатком большинства мер, основанных на онтологических структурах, является симметричность (экспертные оценки показывают, что мера близости не всегда симметрична). Кроме того, эти меры независимы от контекста и чувствительны к структуре иерархии.

Предлагаются меры близости, основанные на неиерархических (горизонтальных) отношениях и атрибутах. Оценка близости понятий, использующая горизонтальные отношения, опирается на предположение, что если два понятия имеют одно и то же отношение с третьим, то они ближе, чем два понятия, которые имеют это же отношение с различными понятиями, т. е. близость двух понятий зависит от близости понятий, с которыми они имеют отношения. Таким образом, мера близости вычисляется рекурсивно. Атрибутивная мера близости основана на близости значений общих атрибутов понятий. Атрибуты можно рассматривать как отношения, диапазоны которых литералы, числа, строки и другие типы данных. В качестве меры близости для строковых данных можно использовать пронормированное редакторское расстояние [15], для чисел - инверсию разности, пронормированную максимальным значением атрибута.

Гибридные меры являются свертками перечисленных мер близости понятий. Чем полнее будут учитываться характеристики двух сущностей с разных точек зрения, тем более качественную меру близости можно получить. В связи с этим наиболее перспективными представляются именно гибридные меры, сочетающие несколько подходов.

Чаще всего в гибридных мерах используется аддитивная свертка:

, (4.10)

где - мера близости по определенному критерию, вес wi определяет относительную важность критерия, сумма весов равна 1, n - число критериев.

Распространенная модификация аддитивной свертки основана на использовании сигмоидальной функции, которая позволяет повысить веса мер, имеющих большие значения, и практически пренебречь мерами с малыми значениями (sig(x)=1/(1+e-ax), a > 0):

(4.11)

Веса могут определяться интерактивно экспертами и/или пользователями, а также автоматически с помощью обучаемой нейронной сети [16] или генетического алгоритма [17].

Трудности сравнения разных онтологий ПО (различных концептуализаций одной и той же ПО) заключаются в различии используемых лексиконов и в различных путях концептуализации и ее представления. Отображение онтологии О1 на онтологию О2 означает попытку найти для каждого из концептов онтологии О1 подобный ему концепт в онтологии О2.

Гибридная мера, предложенная в [13], содержит оценку близости экземпляров, состоящую из трех частей - таксономической, реляционной и атрибутивной:

(4.12)

Таксономии двух онтологий связываются через мосты (якоря) - вершины, соответствующие эквивалентным пон?/p>