Исследование основных подходов к автоматическому отображению онтологий
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
pretation - сопоставление названий понятий, присвоение выбранному классу синтезированное имя от двух других.
)Iteration - итерация, проходит в несколько этапов и останавливается, когда не может найти новых отображений.
Для сравнения двух сущностей из разных онтологий, рассматриваются их характеристики. Это используется, чтоб определить одинаковые они или нет. Изначально, предполагается, что сущности с одинаковыми характеристиками эквивалентно. Вес и характеристику сущностей определяет эксперт предметной области. Под характеристиками понимают:
-идентификаторы - уникальные значения сущностей онтологий URI или имена RDF;
-простейшие элементы RDF(S): такие как свойства или отношения подклассов;
-производные характеристики, которые продлевают или ограничивают простейшие элементы RDF(S), т.е. не общие, а более специфические подклассы.
(4.4)
- String Similarity - подобие строк - основывается на измерении расстояния Левенштейна, числовое значение находится на интервале [0,1]
(4.5)
- Dice Coefficient - вероятностный коэффициент - сравнивает два набора сущностей.
(4.6)
- SimSet - установление подобия - служит для определения, на сколько две сущности похожи между собой. Каждая сущность описывается, как вектор, представляющий сходство с другими сущностями. Чем меньше расстояние между векторами, тем больше они походи между собой. К векторам применяется многомерное шкалирование, значение вектора - мера схожести, полученная на предыдущем этапе. Результатом будет вычисление значения косинуса между векторами.
(4.7)
- Подобие множеств пар схожих концептов вычисляется по формуле:
(4.8)
где, Wk - вес для каждой меры сходства;- функция преобразования исходных значений подобия в интервал [0,1]
Для оценки результатов работы алгоритма, были выбраны стандартные метрики:
-точность (р), вычисляется, как отношение количества правильных отображений к общему количеству отображений;
-память (r) (перезапись, recall), вычисляется, как отношение количества правильных отображений к существующему количеству отображений;
-f-мера - проверка точности и правильности работы алгоритма. Формула сочетает в себе два предыдущих значения.
(4.9)
где, в - фактор, который количественно определяет значение точности и памяти относительно друг друга, по умолчанию, данный фактор принят равным 1.
Результаты, полученные при тестировании алгоритма QOM. На вход подавались две онтологии описывающие предметную область: транспортные средства. На рисунке 4.3 желтым цветам выделены классы онтологий, зеленым - свойства классов, розовым - экземпляры, пунктирной линией связи отображения концептов.
.5 Отображение сложных онтологий с помощью алгоритма повышенной точности
Алгоритм AUTOMS состоит из синтеза 5 методов, которые используются при отображении онтологий. При последовательном выполнении представленных методов алгоритм показал наибольшую точность выполнения. Методы интегрированы с AUTOMS выполняются в определенной последовательности: отображения проектируются по методу эксплуатации последующих методов, таким образом, строятся новые отображения. AUTOMS изначально базируется на методе лексического согласования, который первый применяется в последовательности методов.
Рисунок 4.3 - Отображение связей между концептами
Результат, который выводит программа, показан на рисунке 4.4.
Рисунок 4.4 - Результат работы алгоритма
Алгоритм использует лексическую информацию относительно имен, меток и комментариев к онтологическим концептам и свойствам, для того чтоб вычислить их сходства. Хотя имена считаются наиболее высшими, комментарии тоже рассмотрены. Алгоритм кластеризации делит данные на кластеры, а затем в пространстве кластеров ищет, куда отнести концепт (при мощи жадного алгоритма). Каждый кластер представляет собой модель, которая определенна в виде дерева Хаффмана. Оно постепенно строится, используя динамический алгоритм, который генерирует текущую строку и обновляет кластер. Алгоритм Хаффмана - адаптивный жадный алгоритм оптимального префиксного кодирования алфавита с минимальной избыточностью. В его основе лежит метод кодирования состоящий из двух основных этапов: построение оптимального кодового дерева и построение отображения код-символ на основе построенного дерева.
Чтобы решить будет ли строка добавлена в кластер, алгоритм использует оценочную функцию, меру компактности и однородности кластера. Оценочная функция - CCDiff - определяется, как разница длины выбранной строки, которая является членом кластера и длинной кластера, учитывая рассматриваемую строку (новую). Функция объединяет строки, имеющие тот же набор символов, что и строки в кластере (например: Pentium III и P III). OWL строка принадлежит к определенному кластеру, когда ее CCDiff имеет определенный порог, который меньше порога CCDiff всех существующих строк в кластере. Основываясь на экспериментах с использованием лексического метода, порог подобия ([0;1]) был установлен 0,986. Новый кластер создается, если не один из кандидатов (строк) не отнесен к существующим кластерам. Этот алгоритм можно использовать, даже при отсутствии начальных кластеров.
,<http://ru.wikipedia.org/wiki/>%2