Исследование основных подходов к автоматическому отображению онтологий

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



Вµ экземпляры, то эти концепты подобны.

Критерий L11 является обратным по отношению к критерию L10 и записывается в виде: если экземпляры принадлежат подобным концептам, то эти экземпляры подобны.

Критерий L12 близок к критерию подобия L10 и формулируется следующим образом: если концепты имеют схожую малую/большую часть экземпляров, эти понятия подобны. В отличие от критерия L10,подобие в данном критерии определяется подобием структуры дочерних элементов, а не уровнем подобия самих элементов.

Критерий L13 имеет следующую формулировку: если два экземпляра связаны с некоторым другим экземпляром подобными отношениями, то эти экземпляры подобны. Критерий L14 является обратным по отношению к критерию L13 и формулируется следующим образом: если некоторое отношение связывает экземпляры с одним и тем же экземпляром, то сравниваемые отношения могут быть подобны.

) Критерии на основе ограничений.

Критерий L15 основан на использовании отношений вида SameClassAs и SameIndividualAs: если две сущности связаны между собой отношением sameClassAs или отношением sameIndividualAs, то эти сущности подобны.

Критерий L16 основан на использовании отношений вида EquivalentClass, EquivalentProperty, SameAs: если две сущности связаны между собой отношениями EquivalentClass, EquivalentProperty, SameAs, то эти сущности подобны.

) Критерии на основе правил.

Подобными называются правила, которые имеют подобные условия, а также подобные следствия выполнения правила.

Критерий L17 имеет вид: если две сущности связаны между собой подобными правилами, то эти сущности подобны.

) Критерии, учитывающие специфику словаря приложения.

Рассмотренные выше критерии подобия онтологий используют свойства общего определения онтологий. Кроме этого, возможны онтологии, которые используют особый словарь. Если этот словарь строго определен и общедоступен, то он также может быть использован для формирования критериев подобия онтологий.

В качестве примера рассмотрим SWAP-системы, в которых каждому файлу присваивается уникальный хэш-код. Для таких систем имеют место критерии L18 , L19:

-если хэш-коды двух элементов одинаковы, то и элементы подобны;

-файлы одинакового MIME-type подобны, как минимум, по формату.

Чаще всего в качестве мультикритерия подобия используется аддитивная свертка критериев L1 - L19 - т.е. их взвешенная сумма

, (4.1)

где b1,2O1, b2,1O2 - сущности онтологий О1 О2, соответственно;

- весовой коэффициент критерия .

4.2 Меры семантической близости концептов онтологий

Онтология - это спецификация концептуализации предметной области (ПО). Онтология состоит из организованных в иерархию понятий, отношений между понятиями и атрибутов понятий, а также аксиом и правил вывода. Понятия представляют множества экземпляров. Понятия, экземпляры, отношения и атрибуты будем называть онтологическими термами.

Меры близости онтологических термов используют различные семантические характеристики сравниваемых термов - их свойства (атрибуты и отношения с другими термами), взаимное положение в онтологических иерархиях. В работе рассматриваются меры семантической близости, предполагающие однозначную интерпретацию термов для одной онтологии.

Онтологический подход обеспечивает новый уровень в решении задач поиска и интеграции информации. Запрос пользователя, как правило, не полностью отражает его интерес, так как пользователь, с одной стороны, не знает всех терминов и структур данных, заложенных в систему, с другой - не всегда точно выражает, что он ищет. Использование семантической близости дает возможность расширять запросы и ранжировать результаты запросов. Другими словами, терм c может быть представлен как размытое (нечеткое) множество, включающее (кроме этого терма) семантически близкие термы со значением семантической близости выше заданного порога, причем семантическая близость определяет принадлежность к нечеткому множеству: с+ = {1/с, S(с,с1)/с1, S(c,c2)/c2, тАж, S(c,cn)/cn}. При интеграции информации, например при операциях над онтологиями, использование мер близости позволяет автоматически находить семантически близкие понятия, принадлежащие к разным системам концептуализации.

Ключевым моментом в решении задачах поиска и интеграции является разработка количественных оценок семантической близости. В работе представлен обзор методов, которые используют знания, заложенные в онтологии, для оценок семантической близости термов.

В основу многих онтологических мер близости положен теоретико-множественный подход Тверски [1], определяющий меру близости двух объектов, основанную на сопоставлении свойств (feature matching). Мера близости S(a,b) между объектами a и b является функцией трех аргументов A?B, A-B, B-A, где A и B - множества свойств этих объектов, должна удовлетворять аксиомам монотонности, независимости, разрешимости и инвариантности и определяется формулой (contrast model):

(4.2)

В развитие модели Тверски была построена ratio model:

(4.3)

В большинстве методов вычисления мер близости используется ratio model, а в качестве функции f - мощность множества-аргумента.

Близость двух понятий онтологии может быть оценена по положению вершин, соответствующих этим понятиям в таксономической иерархии (IS-A). Простейшая мера близости такого рода основана на длине кратчайшего пути, измеряемого числом вершин (или ребер) в пути между двумя соответствующими вершинами таксономии [2], с учетом глубины таксономичес