Исследование основных подходов к автоматическому отображению онтологий

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

pretation - сопоставление названий понятий, присвоение выбранному классу синтезированное имя от двух других.

)Iteration - итерация, проходит в несколько этапов и останавливается, когда не может найти новых отображений.

Для сравнения двух сущностей из разных онтологий, рассматриваются их характеристики. Это используется, чтоб определить одинаковые они или нет. Изначально, предполагается, что сущности с одинаковыми характеристиками эквивалентно. Вес и характеристику сущностей определяет эксперт предметной области. Под характеристиками понимают:

-идентификаторы - уникальные значения сущностей онтологий URI или имена RDF;

-простейшие элементы RDF(S): такие как свойства или отношения подклассов;

-производные характеристики, которые продлевают или ограничивают простейшие элементы RDF(S), т.е. не общие, а более специфические подклассы.

(4.4)

- String Similarity - подобие строк - основывается на измерении расстояния Левенштейна, числовое значение находится на интервале [0,1]

(4.5)

- Dice Coefficient - вероятностный коэффициент - сравнивает два набора сущностей.

(4.6)

- SimSet - установление подобия - служит для определения, на сколько две сущности похожи между собой. Каждая сущность описывается, как вектор, представляющий сходство с другими сущностями. Чем меньше расстояние между векторами, тем больше они походи между собой. К векторам применяется многомерное шкалирование, значение вектора - мера схожести, полученная на предыдущем этапе. Результатом будет вычисление значения косинуса между векторами.

(4.7)

- Подобие множеств пар схожих концептов вычисляется по формуле:

(4.8)

где, Wk - вес для каждой меры сходства;- функция преобразования исходных значений подобия в интервал [0,1]

Для оценки результатов работы алгоритма, были выбраны стандартные метрики:

-точность (р), вычисляется, как отношение количества правильных отображений к общему количеству отображений;

-память (r) (перезапись, recall), вычисляется, как отношение количества правильных отображений к существующему количеству отображений;

-f-мера - проверка точности и правильности работы алгоритма. Формула сочетает в себе два предыдущих значения.

(4.9)

где, в - фактор, который количественно определяет значение точности и памяти относительно друг друга, по умолчанию, данный фактор принят равным 1.

Результаты, полученные при тестировании алгоритма QOM. На вход подавались две онтологии описывающие предметную область: транспортные средства. На рисунке 4.3 желтым цветам выделены классы онтологий, зеленым - свойства классов, розовым - экземпляры, пунктирной линией связи отображения концептов.

.5 Отображение сложных онтологий с помощью алгоритма повышенной точности

Алгоритм AUTOMS состоит из синтеза 5 методов, которые используются при отображении онтологий. При последовательном выполнении представленных методов алгоритм показал наибольшую точность выполнения. Методы интегрированы с AUTOMS выполняются в определенной последовательности: отображения проектируются по методу эксплуатации последующих методов, таким образом, строятся новые отображения. AUTOMS изначально базируется на методе лексического согласования, который первый применяется в последовательности методов.

Рисунок 4.3 - Отображение связей между концептами

Результат, который выводит программа, показан на рисунке 4.4.

Рисунок 4.4 - Результат работы алгоритма

Алгоритм использует лексическую информацию относительно имен, меток и комментариев к онтологическим концептам и свойствам, для того чтоб вычислить их сходства. Хотя имена считаются наиболее высшими, комментарии тоже рассмотрены. Алгоритм кластеризации делит данные на кластеры, а затем в пространстве кластеров ищет, куда отнести концепт (при мощи жадного алгоритма). Каждый кластер представляет собой модель, которая определенна в виде дерева Хаффмана. Оно постепенно строится, используя динамический алгоритм, который генерирует текущую строку и обновляет кластер. Алгоритм Хаффмана - адаптивный жадный алгоритм оптимального префиксного кодирования алфавита с минимальной избыточностью. В его основе лежит метод кодирования состоящий из двух основных этапов: построение оптимального кодового дерева и построение отображения код-символ на основе построенного дерева.

Чтобы решить будет ли строка добавлена в кластер, алгоритм использует оценочную функцию, меру компактности и однородности кластера. Оценочная функция - CCDiff - определяется, как разница длины выбранной строки, которая является членом кластера и длинной кластера, учитывая рассматриваемую строку (новую). Функция объединяет строки, имеющие тот же набор символов, что и строки в кластере (например: Pentium III и P III). OWL строка принадлежит к определенному кластеру, когда ее CCDiff имеет определенный порог, который меньше порога CCDiff всех существующих строк в кластере. Основываясь на экспериментах с использованием лексического метода, порог подобия ([0;1]) был установлен 0,986. Новый кластер создается, если не один из кандидатов (строк) не отнесен к существующим кластерам. Этот алгоритм можно использовать, даже при отсутствии начальных кластеров.

,<http://ru.wikipedia.org/wiki/>%2