Практические методы отображения и интеграции онтологий

Вид материалаДокументы

Содержание


Методика отображения онтологий
А. Лингвистический/Лексический/Текстовый анализ
Б. Структурный анализ
Анализ внешней структуры
Анализ сходства по перекрестным связям
В. Экстенсиональный (статистический) анализ
Г. Логический анализ
Методика интеграции онтологий
Подобный материал:

Практические методы отображения и интеграции онтологий



Кудрявцев Д.В.1


Аннотация

Отображение и интеграция онтологий – неизбежные задачи при разработке промышленных систем, основанных на знаниях. В статье предлагаются практические методы для отображения и интеграции онтологий. Представленные методы разработаны для работы с организационными онтологиями, но также могут быть применены для других предметных онтологий.


Введение

Онтология – формальная спецификация разделяемой концептуальной модели [Studer,1998]. Онтология состоит из классов сущностей предметной области, свойств этих классов связей между этими классами и утверждений, построенных из этих классов, их свойств и связей между ними. На рис. 1 представлены области применения, роли, типы, языки представления и владельцы онтологий.



Рис. 1. Систематизация знаний в области онтологий

Предложенное на рисунке описание детализирует систематизацию знаний об онтологиях предложенную в [Гаврилова, 2005] в части областей применения онтологий, их роли и типа.

Создание промышленных систем, основанных на онтологиях, в условиях непрерывных организационных и технических изменений требует методов и инструментов не только для создания онтологии, но и для целого комплекса смежных задач – управления изменениями, оценки, персонализации, разделения, отображения, интеграции. Предметом данной статьи является методика для практического решения последних двух задач:

Отображение онтологий (ontology mapping) – деятельность по установлению соответствия между несколькими онтологиями [Neon, 2007].

Интеграция онтологий (ontology merging) – деятельность по созданию новой онтологии или фрагмента онтологии из 2-х и более исходных онтологий [Neon, 2007].

Целесообразность одновременного рассмотрения двух этапов работы с онтологиями объясняется их «технологической» связью - отображение онтологий является необходимым исходным этапом интеграции онтологий.

Примером практической потребности в интеграции онтологий является создание организационной онтологии путем интеграции канонической организационной онтологии и организационной онтологии конкретной организации. Создаваемая онтология используется при моделировании организаций в задачах организационного проектирования [Кудрявцев, Григорьев, 2007; Кудрявцев, 2007].


Методика отображения онтологий

Проблема отображения онтологий заключается в том, что:

1. Сущности (классы, свойства, связи, объекты) имеющие одинаковые имена могут иметь разный смысл

2. Сущности (классы, свойства, связи, объекты) имеющие одинаковый смысл могут иметь разные имена

Предлагаемая методика интегрирует отдельные методы отображения онтологий представленные в [Euzenat, 2004; Harmelen, 2005].

Отображение онтологий разделяется на 2 подзадачи:

1. Локальное отображение сущностей, подразумевающее независимую установку соответствий между двумя сущностями, рассматриваемых онтологий

2. Глобальное отображение сущностей. Хотя глобальное отображение сущностей объемное понятие [Euzenat, 2004], в рамках предлагаемой методики под ним подразумевается пересмотр (пересчет) локальных отображений с учетом отображений всех остальных элементов. Например, локальное отображение некоторых сущностей А1 и А2 может быть установлено на основе соответствия между их родовыми сущностями А01 и А02, которое изначально может быть вероятностным/ недоопределенным. В процессе формирования глобального отображения сущностей соответствие между А1 и А2 пересматривается с учетом дополнительной информации по соответствию А01 и А02.

Рассмотрим более подробно процесс установки локального отображения сущностей.

Современные методы установления отображения онтологий носят междисциплинарный характер. Среди них можно выделить 4 группы: лингвистические (терминологические, лексические), статистические (экстенсиональные), структурные и логические (формальные, семантические) методы [Harmelen, 2005; Euzenat, 2004]. Предлагается для обеспечения максимальной точности отображения сущностей использовать все 4 метода:

А. Лингвистический/Лексический/Текстовый анализ

На данном этапе определяется сходство между сущностями на основе сравнения имен сущностей (оценка количества совпадающих символов, общие части слов, например, «Цели» и «Целевые установки») или путем анализа синонимичных терминов. Для выявления синонимичных терминов могут использоваться существующие словари общей и профессиональной лексики, тезаурусы. Данный вид анализа можно считать исходным для установления соответствия между сущностями.

Б. Структурный анализ

Анализ внутренней структуры

В данном случае оценка сходства производится на основе анализа доменов и областей допустимых значений для атрибутов и связей. Методы анализа внутренней структуры иногда называются методами на основе ограничений [Rahm and Bernstein, 2001b]. Сущностей со схожей внутренней структурой, а также свойств с похожими доменом и областью значений может быть достаточно много, поэтому данные методы используются только для формирования кластеров сходных понятий и требуют сочетания с другими методами.

Анализ внешней структуры

Анализ сходства по иерархическим связям

Оценка схожести двух сущностей двух онтологий может быть основана на позициях данных сущностей в иерархии классов. Если две сущности двух онтологий схожи, то их «соседи» также как-то схожи. Такое утверждение может использоваться по-разному и порождает ряд возможных критериев (признаков) для сходства двух сущностей:

1. Их прямые супер-сущности (или все супер-сущности) уже являются схожими [Dieng and Hug, 1998a].

2. Их сущности-братья (или все их сущности-братья) уже являются схожими

3. Их прямые сущности-потомки (или все их сущности-потомки) уже являются схожими [Dieng and Hug, 1998].

4. Все их сущности-листья (сущности, не имеющие потомков, находящиеся в дереве, корнем которой является рассматриваемая сущность) уже являются схожими [Madhavan et al., 2001].

5. Все (или большинство) сущности на пути от корня к рассматриваемой сущности уже являются схожими [Bach et al., 2004].

Конечно, использование данных критериев должно сопровождаться другими критериями.

Анализ сходства по перекрестным связям

Определение сходства между сущностями может быть основано также на анализе связей сущностей. Если класс А1 связан с классом В1 связью типа R1 в одной онтологии, а класс A2 связан с В2 связью типа R2 в другой онтологии, и если известно, что В1 и В2 – схожи, R1 и R2 – схожи, можно предположить схожесть А1 и А2. Подобным образом можно говорить и сходстве типов связей – R1 и R2 если известно, что А1 и А2 – схожи, В1 и В2 – схожи. Таким образом оценивается схожесть элементов онтологии в работе [Madche and Staab, 2002].

Например, классы «Компания» и «Университет» будут оценены как схожие, поскольку они имеют схожую связь типа «имеет подчиненного» с классом «Сотрудник» и классом «Профессор», которые были признаны схожими.

В. Экстенсиональный (статистический) анализ

Для оценки экстенсионального соответствия классов используются существующие экземпляры классов. Для установки соответствия между сущностями используются следующие диагностические правила:

С1 эквивалентен С2 - невозможно найти объект О1:С1, такой что не О1:С2 и наоборот.

С1 подкласс С2 - невозможно найти объект О1:С1, такой что О1:С2 и С1 не эквивалентен С2.

Анализ экстенсионала позволяет также идентифицировать классы-роли, когда возникает два разных класса для описания одного экстенсионала.

Г. Логический анализ

Логический анализ основан на выявлении родовых классов сопоставляемых классов и анализе наложенных на них ограничений.

Например, в одной онтологии может существовать класс «Микро-компания», который является видовым классом для класса «Компания» с наложенным ограничением на «Число сотрудников» <5.

В другой онтологии может существовать класс «Малое предприятие», который является видовым классом для класса «Фирма» с наложенным ограничением на «Число работников» <10. При анализе соответствия между классами «Микро-компания» и «Малое предприятие» выявляются родовые классы «Компания» и «Фирма». При наличие информации о соответствие данных классов производится сравнение ограничений наложенных на данные родовые классы. Для этого сравниваются свойства классов «Число сотрудников» и «Число работников», если данные свойства схожи, то проводится сравнение наложенных ограничений <5 (сотрудников) и <10 (работников). В результате делается заключение, что «Микро-фирма»«Малое предприятие».

Ограничением данного метода является потребность в «якорях» - сущностях которые либо заведомо эквивалентны в двух сопоставляемых онтологиях, либо являются разделяемыми сущностями в некоторой сторонней онтологии.

После получения локальных соответствий между сущностями определяется глобальное соответствие между сущностями.

Практические рекомендации по расстановке приоритетов между результатами различных способов локального анализа:

При наличие баз знаний, включающих в себя экземпляры отображаемых онтологий, приоритетное значение имеют результаты экстенсионального анализа.

При наличие «якорей» в отображаемых онтологиях приоритетное значение имеют результаты логического анализа.

Однако результаты любого анализа следует согласовывать с результатами, полученными с использованием других видов анализа. Особенно важно такое согласование при установке соответствия между классами ролями, исполнители которых (экстенсионал) могут выполнять одновременно несколько ролей.

Поскольку предлагаемая методика ориентирована на «ручную» интеграцию онтологий путем поиска компромисса и согласования мнений, традиционные метрики сходства сущностей отображаемых онтологий не рассчитываются.


Методика интеграции онтологий

Интеграция онтологий проивзодится путем выполнения следующих операций [Noy, 2000]:

Интеграция эквивалентных классов

Копирование свойств обоих исходных классов

Копирование связей обоих исходных классов

Привязка суперклассов обоих исходных классов (если они присутствуют в создаваемой онтологии)

Привязка подклассов обоих исходных классов (если они присутствуют в создаваемой онтологии)

Интеграция эквивалентных свойств классов

Интеграция эквивалентных связей между классами

Копирование классов в создаваемую онтологию

Копирование свойств в создаваемую онтологию

Копирование связей в создаваемую онтологию

В процессе слияния организационных онтологий каноническая организационная онтология выступает в качестве доминирующей, то есть используемые в ней наименования классов используются при выборе названий классов создаваемой рабочей организационной онтологии.

Кроме представленных выше методов предлагается использовать следующую смешанную технику, перекликающуюся с идеями методологии ONIONs [Gangemi, Steve & Giacomelli 1996; Steve & Gangemi, 1996; Gangemi и др. 1998], в которой анализ сходства между классами проводится через анализ оснований деления родовых классов.

Шаг 1: Выявление родовых классов для сопоставляемых классов

Шаг 2: Описание аксиом, задающих видовые классы

Шаг 3: Выявление оснований деления, использованных для формулирования аксиом в сопоставляемых онтологиях. В идеале с описанием соответствующей основанию деления теорией. Например, «управленческий цикл» или «объект управления» для организационной онтологии. В канонической организационной онтологии основания деления представлены в описании принципиальных основ организационного проектирования. Для выявления оснований деления в исходной организационной онтологии полезно выявить классы-братья, полученные по тому же основанию деления.

Шаг 4: Выбор, уточнение, согласование и стандартизация (=стандарт организации) теорий, определяющих основания деления понятий. При отсутствии теорий – выбор, уточнение, согласование и стандартизация непосредственно оснований деления и классов, получаемых по выбранному основанию деления (см. . Например, в качестве стандарта Цикла организационного управления (Цикл управления - типовая последовательность обобщенных действий по управлению некоторым объектом) в некоторой организации может состоять из следующих действий: Формализация задач, Подготовка решений, Принятие решений, Запуск реализации решения, Контроль, Анализ, Регулирование. Набор теорий, определяющих основания деления понятий, является частью канонической организационной онтологии.

Шаг 5: Установление соответствия между классами, полученными с помощью одного основания деления, например, между «Регулированием» в представленном выше цикле управления и «Управленческим воздействием» - этапом в некоторой альтернативной декомпозиции цикла управления исходной организационной онтологии.

Шаг 6: Формирование видовых классов на основе стандартизованной/-го теории/оснований деления.

Такой анализ оснований деления позволяет также идентифицировать классы, которые могут казаться схожими, но являться различными. Например, классы «финансовый показатель» и «показатель финансовой области» кажутся схожими с лингвистических позиций. Однако «финансовый показатель» может быть получен с помощью основания деления «Направления улучшений деятельности» (финансы, качество, время, риски), а «показатель финансовой области» получен - с помощью основания деления «измеряемая область деятельности» (финансовое управление, управление персоналом, маркетинг, производство…).


Заключение

В статье представлены методика практического отображения и интеграции онтологий. Хотя изначально представленные методики были разработаны для отображения и интеграции организационных онтологий, они также могут быть применены к другим предметным онтологиям.


Литература
  1. Гаврилова T.А. Oнтологический инжиниринг // Cб. докладов Восьмой научно-практической конференции «Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями» (РБП-СУЗ-2005). М.. , 2005. – с.79-82.
  2. Кудрявцев Д., Григорьев Л. Организационное моделирование на основе онтологий: от бизнеса к государству, Труды Х Российской научно-практической конференции «Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями», 17-18 апреля 2007 г., Москва, Россия, с. 151-156.
  3. Кудрявцев Д. Онтологии и организационное моделирование: согласование терминологии, Труды Х Российской научно-практической конференции «Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями», 17-18 апреля 2007 г., Москва, Россия, С. 156-160.
  4. Bach T. L., Dieng-Kuntz R., Gandon F. On ontology matching problems (for building a corporate semantic web in a multi-communities organization). In Proc.of ICEIS 2004, Porto (PT), 2004.
  5. Euzenat J. State of the art on ontology alignment //KnowledgeWeb Report D2.2.3, 2004.
  6. Dieng R., Hug S. Comparison of "personal ontologies" represented through conceptual graphs. In Proc. 13th ECAI, Brighton (UK), pages 341–345, 1998.
  7. Gangemi, A., Pisanelli, D. M. & Steve, G., Ontology Integration: Experiences with Medical Terminologies, in N. Guarino, ed., ‘Formal Ontology in Information Systems’, IOS Press, 1998. -pp. 163–178.
  8. Gangemi, A., Steve, G. & Giacomelli, F., ONIONS: an ontological methodology for taxonomic knowledge integration, in ‘ECAI96’s workshop on Ontological Engineering’, 1996.
  9. Madhavan J., Bernstein P., Rahm E. Generic schema matching using Cupid. In Proc. 27th VLDB, Roma (IT), pages 48–58, 2001. microsoft.com/ philbe/CupidVLDB01.pdf.
  10. Madche A., Staab S. Measuring similarity between ontologies. In Proc. Of the 13th Int. Conference on Knowledge Engineering and Management (EKAW-2002), Siguenza, Spain, October 2002. Springer-Verlag.
  11. NeOn Glossary of Activities //Neon Project - ссылка скрыта, 2007.

ссылка скрыта
  1. Noy, N.F. and Musen, M.A. PROMPT: Algorithm and Tool for Automated Ontology Merging and Alignment. In: Seventeenth National Conference on Artificial Intelligence (AAAI-2000). Austin, TX, 2000.
  2. Steve, G. & Gangemi, A., ONIONS Methodology and the Ontological Commitment of Medical Ontology ON8.5, in ‘Kowledge AcquisitionWorkshop’, 1996.







1 СПбГПУ, dmitry.ku@gmail.com