Книги, научные публикации

ПРИМЕНЕНИЕ ОНТОЛОГИЧЕСКИХ МОДЕЛЕЙ ДЛЯ РЕШЕНИЯ ЗАДАЧ ИДЕНТИФИКАЦИИ И МОНИТОРИНГА ПРЕДМЕТНЫХ ОБЛАСТЕЙ С.В.Мальцева, д.т.н., профессорГосударственного университета - Высшей школы экономики smaltseva

Рассматриваются принципы создания онтологических моделей предметных областей с учётом динамики их изменения. Предложен шаблон хранилища данных для хранения и модернизации динамической онтологии, чьё основное свойство - изменение во времени состава и структуры кластеров понятий. Приведены сведения об использовании таких онтологий в практических задачах.

Введение описывает её как совокупность понятий (концеп онятие предметной области - одно из фун тов, терминов) и отношений между ними, которым даментальных понятий в современных ме соответствуют сущности из реального мира [1].

Птодологиях анализа и проектирования. Этому соответствует классическое представление Предметная область определяется как часть ре онтологической модели, в котором онтология за ального мира, рассматриваемая в пределах опреде даётся тремя конечными подмножествами концеп лённого контекста, который может задавать тов, связей и функций интерпретации. При моде область знания, отрасль экономической деятельно лировании предметной области как сферы деятель сти - в широком смысле, а в более узком - область ности отношения между понятиями также являют исследования, область деятельности предприятия, ся понятиями, описывающими отношения. Поня конкретного специалиста и т.д. Сам термин пред тия, отнесённые к классу отношений, используют полагает описание совокупности объектов, явля ся для описания процессов и явлений реального ющихся предметом некоторой деятельности. мира. Поэтому более правильной представляется В образовательной сфере и сфере трудовых отно концепция моделирования предметной области на шений используется термин лобласть профессио основе объединения понятийной и содержательной нальной деятельности. Им обозначают области нау МПО, приведённая в работе [1]. Понятийная МПО ки и техники, объединяющие совокупность объектов, определяется как совокупность понятий (концеп средств, приёмов, способов и методов человеческой тов, терминов) и отношений между ними, которым деятельности. В образовательных стандартах область соответствуют сущности из реального мира, реали профессиональной деятельности идентифицируется зованная в виде ориентированного помеченного через описание объектов, видов и задач профессио графа. Содержательная МПО для понятийной мо нальной деятельности выпускников. дели задаётся ориентированным помеченным гра Идентификация предметной области связана фом, вершины которого интерпретируются как ин с построением её адекватной модели, имитирую формационные элементы, соответствующие реаль щей её структуру или функционирование. ным объектам предметной области. Соответствен Один из существующих сегодня подходов но, выделяются два типа отношений в объединении к идентификации предметной области, основанных моделей: содержательные, определяющие отноше на идее концептуального моделирования, - онтоло ния одного информационного элемента к другому, гическое моделирование. Концептуальная, или и понятийные, определяющие отношения элемента понятийная модель предметной области (МПО) к концепту из понятийной МПО.

18 БИЗНЕС ИНФОРМАТИКА №3(05)Ц2008 г.

Рассматривается задача практического исполь информационных элементов важно учесть возмож зования онтологического моделирования для иден ность введения мультиязычности и множественно тификации предметных областей. сти толкований понятий.

Приведённое выше определение МПО косвенно Создавая шаблон хранилища данных, использу указывает на два важных аспекта использования он ем реляционную модель. Опишем её системой мно тологий для моделирования предметных областей. жеств и векторов.

Первый аспект касается рассмотрения сегодняш Обозначим основные множества онтологии:

них проблем практического применения онтологий, которые связаны с использованием онтологий, в боль шинстве случаев, как словарей или тезаурусов;

при этом связи между понятиями не используются (исклю множество понятий, обозначающих объекты, про чение составляют лингвистические онтологии [2]). цессы или явления;

Интерпретация связей как объектов онтологии, по зволяющих описывать процессы и явления, тесно коррелируется с проблемами объединения систем управления контентом предприятия (Enterprise множество связей между понятиями.

Content Management, ECM.) и системами моделиро вания и управления бизнес процессами (Business Чтобы использовать преимущества интерпрета Process Management, BPM). Такой подход позволяет ции отношений между понятиями как некоторого сделать онтологии пригодными для моделирования класса понятий и множественность отношений динамики изменения предметных областей. между понятиями, что очень удобно при описании Второй аспект связан с выделением в МПО по процессов, целесообразно рассматривать множество нятийной и содержательной моделей. Для интен R как подмножество множества С. Это же справед сивно развивающихся предметных областей МПО - ливо и для всех множеств понятий, вводимых ниже.

это постоянно изменяющаяся и развивающаяся во Элементам множества С ставится в соответствие времени структура. Можно говорить о том, что со набор векторов, чьи значения компонент определя держательная модель - это средство накопления ют их атрибуты. Минимальный набор атрибутов изменений, которые с течением времени приводят включает:

к изменению понятийной модели. Использование динамических онтологий, являющихся функциями от времени (или, как альтернатива, включающих вектор идентификаторов понятий, где 1i - иденти множество временных периодов, связанное с мно фикатор i го понятия;

жествами концептов и связей), позволит обеспе чить актуальность и адекватность онтологических моделей и сделает их практически применимыми на широком спектре задач. вектор названий понятий, где 2i - название i го Рассмотрим возможность создания некоторого понятия;

типового шаблона реализации онтологии предмет ной области в виде концептуальной модели храни лища данных с учётом отображения динамики её изменений во времени, разделения понятийной вектор описания смысла понятий, где 3i - описа и содержательной составляющих, интерпретации ние i го понятия.

множества связей как подмножества понятий. Учёт этих требований позволит использовать предложен Элементам множества R можно поставить в со ный шаблон не только для прикладных задач, но ответствие набор векторов, значения компонент и для задач мониторинга предметной области и мо которых определяют их атрибуты. Минимальный дернизации онтологии. При его создании необходи набор атрибутов включает:

мо учитывать общепринятый набор требований, предъявляемых к онтологическим моделям. Наибо лее общие из них для большинства работ в этом направлении: ясность при передаче смысла терми вектор идентификаторов связей между двумя свя нов, обозначающих понятия;

согласованность;

зываемыми понятиями из множества C, где 1j - возможность модернизации. При формировании идентификатор j ой связи;

БИЗНЕС ИНФОРМАТИКА №3(05)Ц2008 г. множество типов связей между понятиями онтоло векторы, компоненты которых 2 и 3, соответственно, гии. Элементам множества А ставится в соответ задают идентификаторы первого и второго связы ствие набор векторов, значения компонент кото ваемых понятий ci и cl рых определяют их атрибуты:

вектор идентификаторов типов связей между вектор наименований связей между понятиями ci и cl понятиями онтологии, где 1q - идентификатор q го типа связи, aq;

где 4j - наименование j ой связи;

вектор наименований типов связей между понятия ми, где 2q - наименование q ого типа связи, aq;

вектор описаний связей между понятиями ci и cl вектор описаний типов связей между понятиями, где 3q - описание q ого типа связи, aq.

где 5j - описание j ой связи.

С учётом введённых обозначений элементам Этот набор параметров для элементов множе множества R можно поставить в соответствие до ства C часто дополняется весовыми коэффициента полнительный набор векторов:

ми понятий. Вводится еще один вектор, вектор, компоненты которого задают направлен вектор весов понятий, где 4i - вес i го понятия oi, ную (6j = 1) или ненаправленную (6j = 0) связь в интервале (0,1). Веса понятий характеризуют их между понятиями ci и cl важность для определения предметной области.

Они определяются на основе экспертных оценок, на основе частотных характеристик появления в информационных ресурсах, а также контекста при этом связь направлена от понятия ci к понятию cl;

употребления.

Для связей вводятся весовые коэффициенты, указание направления связи и типизация связей в соответствии с классификацией, принятой в ме вектор идентификаторов типов связей между поня тодологии объектно ориентированного анализа. тиями ci и cl, где 8j - идентификатор типа j ой свя Однако это справедливо, если мы выстраиваем он зи, значение 8j выбирается из множества значений, тологию предметной области, подразумевая, что за заданных компонентами вектора 1.

понятиями стоят объекты, процессы и явления.

Для лингвистической онтологии требуется другая При создании онтологии введение весовых коэф типизация связей. Между двумя понятиями могут фициентов для понятий и связей, а также типизация существовать интегрированные множественные понятий и связей требует, как правило, привлечения связи, объединяющие связи нескольких типов. экспертов, даже при использовании автоматизиро В различных задачах можно учитывать разные ком ванных методов, позволяющих извлекать термины поненты таких интегрированных связей. из наборов документов и текстов, определять их веса Введём типы связей, объединяющих понятия и некоторые связи. Процедуры организации работы онтологии: экспертов представляются достаточно трудоёмкими.

Однако, результаты такой работы имеют большую 20 БИЗНЕС ИНФОРМАТИКА №3(05)Ц2008 г.

ценность при решении практических задач, так как определений и несколько различных толкований позволяют активно использовать веса и связи в наи (при этом слова, представляющие собой омонимы более важных задачах выделения кластеров понятий, или омоформы, обозначаются разными идентифи сравнения и объединения онтологий. Точность ре каторами). Восприятие определений одного поня шения таких задач резко возрастает. тия на разных языках, учитывая различие в структу Приведённый шаблон описания онтологии ре языков, различны. Поэтому целесообразно при в значительной степени превышает возможности хранении множества определений в мультиязыч тезауруса и может использоваться для достаточно ных онтологиях хранить их как ещё одну версию широкого спектра прикладных задач, связанных определения. Такой подход не противоречит актив с использованием локальных онтологий. Однако но разрабатываемой идее создания некоторого уни он описывает статичную во времени систему и нуж версального языка для представления онтологий.

дается в дальнейшем расширении. Таким образом, можно выделить наименования по Первое направление такого расширения - до нятий и их определения, определить как отдельные бавление к предметной онтологии возможностей множества наименований понятий (множество Z ) лингвистической онтологии. Это делает необходи и определений понятий (множество V ).

мым введение лингвистических атрибутов в описа Для решения конкретных задач, особенно ние объектов и в описание связей. в целях обеспечения интероперабельности, необхо Обозначим димо однозначное понимание терминов, обознача ющих понятия. В определённые периоды времени в каждом языке существуют наиболее употребимые названия понятий и их определения. Целесообраз множество языков, на которых определена онтоло но выделять такие термины в онтологии.

гия. Каждому языку Lk может быть поставлена в со Введение временных параметров обусловлено ответствие лингвистическая онтология Ok, задаю возможными изменениями онтологии, так как щая алфавит, словарь и правила языка. с течением времени не только появляются новые, но претерпевают изменение существующие поня тия, их толкование, веса, характеризующие их важ ность для предметной области, структура и веса вектор идентификаторов языков. связей между ними. Это приводит к новой структу ре кластеров понятий и категорий, описывающих Идентификатор языка Lk выступает как допол предметную область.

нительная координата для ряда атрибутов объектов Важные параметры для многих предметных и связей. областей - указание источников определений и толкований понятий.

Рассмотрим атрибуты, задающие множество по нятий, как информационных элементов.

вектор названий понятий, где 2i - название i го Элементам множества понятия ci;

можно поставить в соответствие следующий набор вектор описания смысла понятий, где 3i - описа векторов:

ние i го понятия ci.

Чтобы обеспечить удобное хранение и исполь зование при решении различных задач атрибутов, вектор идентификаторов названий понятий из привязанных к конкретному языку, примем допу множества С;

щение, что идентификатор понятия однозначно определяет его вне зависимости от наименования на том или ином языке и текста, описывающего смысл понятия. Здесь нужно учитывать, что для од вектор кодов понятий из множества С, где 2i при z ного понятия, обозначающего объект, процесс или нимает значения из множества значений, которые явление, может быть (в общем случае) несколько принимают компоненты вектора 1;

БИЗНЕС ИНФОРМАТИКА №3(05)Ц2008 г. и определений. Это важно для интенсивно развиваю щихся областей знания, где возникает большое коли вектор кодов языков из множества L, где 3i прини чество новых понятий и их интерпретаций, а также z мает значения из множества значений, которые областей, для которых принципиальны корректные принимают компоненты вектора 1;

определения, например, в частных онтологиях, под держивающих исполнение внутренних регламентов, при ведении электронных переговоров и т.д.

Для этих задач онтологию целесообразно допол вектор названий понятий из множества С, где 4i - нить разделами источников информации, введя z название понятия с идентификатором 2i на языке предварительно некоторую их классификацию.

z с кодом 3i ;

Обозначим:

z вектор весов названий понятий из множества С, где множество типов источников информации о поня 5i - вес названия понятия с идентификатором 2i тиях онтологии;

z z на языке с кодом 3i.

z Весовой коэффициент определяется на основе экспертных оценок и частоты употребления терми множество источников информации о понятиях на. Термин, имеющий самый высокий вес, можно онтологии.

использовать как основной термин для обозначе ния понятия, остальные названия - как синонимы. Опустим описание набора атрибутов указанных Элементам множества множеств, так как в зависимости от предметной обла сти и решаемых в ней задач он может быть очень ла коничным или развернутым. Описание источников в зависимости от задач онтологии складывается из:

можно поставить в соответствие следующий набор описаний литературных источников, приня векторов: тых в библиографических базах данных;

описаний электронных источников информа ции, включая базы данных, электронные архивы, Интернет источники;

вектор кодов определений понятий из множе данных экспертов, знания и высказывания ства С;

которых использовались при формировании онтологии.

вектор идентификаторов названий понятий из Для каждой из этих категорий источников суще множества С, где 1i принимает значения из мно ствуют стандарты или регламенты, задающие фор жества значений, которые принимают компоненты му и атрибуты библиографического описания.

вектора 1;

Первоисточник названия и его интерпретации не всегда можно точно указать. В этом случае в онтоло гии целесообразно указывать наиболее часто упоми наемый источник, хотя это и может приводить к не вектор определений понятий из множества С, где которым искажениям с точки зрения временных 1i - текст определения понятия, название которо параметров существования понятий. Исключение со го задано j ой компонентой вектора 4, на языке, ставляют понятия, которые вводятся в рамках зако код которого задан j ой компонентой вектора 3, нов, стандартов и различных регламентов. Многие из такими, для которых j е значение компоненты век таких понятий возникают в практике задолго до по тора 1, 1j = 2i. явления соответствующих документов, их опреде ляющих, например, такие понятия, как линформа Продолжая рассмотрение лингвистических ция, линформационный поиск и многие другие.

аспектов онтологии можно добавить к указанным Для большинства задач, где используются онтологи атрибутам параметры источников названий понятий ческие модели, достаточно использования понятий 22 БИЗНЕС ИНФОРМАТИКА №3(05)Ц2008 г.

в интерпретации, задаваемой в соответствующих до Введение множества периодов позволяет объеди кументах, однако хранение полного набора версий нить идентификатор периода с идентификаторами наименований и интерпретаций понятий повышает элементов всех перечисленных выше множеств, по семантическую адекватность онтологической модели. лучив модель развития онтологии во времени. Эта Временные изменения онтологии могут касать модель позволяет получать временные срезы онто ся любой из её частей, однако, наиболее частые логии, проследить траектории изменения трактовки следующие: понятий, изменение структуры классов понятий.

добавление новых понятий;

Решение задачи кластеризации понятий с учётом изменение весов понятий;

прогнозируемых изменений весов понятий позволя изменение толкования понятий;

ет прогнозировать появление новых областей про изменение структуры и весов связей. фессиональной деятельности на основе глобальных онтологий. Для локальных онтологий, как онтоло Самый существенный результат этих изменений - гии корпоративных информационных систем, сете изменение структуры категорий, выделяемых в он вых сообществ, можно решать задачи прогнозирова тологии, и, как частный случай, выделение новых ния появления новых направлений деятельности.

предметных областей. Описанный шаблон позволяет вводить новые Введение временных параметров при формиро множества понятий онтологии, связывая их с уже вании хранилища данных (ХД) может производить существующими, а также с множеством языков и ся на основе введения идентификаторов временных временных периодов. Так, во многих задачах, где периодов в описание соответствующих разделов ХД. используются локальные онтологии, в состав моде Можно выделять временные периоды на основе ли вводятся разделы, связанные с идентификацией заданного интервала (например, год или полгода), не пользователей онтологии.

которой последовательности разных по величине ин Разработанный шаблон ХД использован при раз тервалов или по событийному принципу (отмечать работке концепции сервисной компоненты для фор точную дату изменения какого либо атрибута объек мирования предметной области (домена) сетевого тов онтологии). Выбор варианта определяется интен сообщества практики, реализующей функции серве сивностью развития понятийного аппарата предмет ра отношений [3]. Использование для реализации ной области, но первые два варианта представляются сервера онтологии позволяет формировать группы предпочтительными, так как для изменения многих участников с учётом тематики их деятельности и воз параметров необходимо использовать статистические никающих задач, что повышает качество и интенсив данные за некоторый период и привлекать экспертов. ность взаимодействия. Это обеспечивает системати Вариант с разными выделенными интервалами воз зацию интегрального знания сети, идентификацию её можно употребить при использовании понятий, по домена, сохранение и планируемое изменение границ явившимися в отдалённых временных периодах. При домена сети;

направленное формирование её ресур появлении новых понятий или их толкований, кото сов, взаимодействие с внешними объектами.

рые определены, например, новым стандартом или При проектировании сервера определены законом, начинающих действовать с определённой необходимые сервисы сети по поддержке и разви даты, необходимо определять точные временные па тию сетевого домена на основе динамической онто раметры. Учесть эти соображения можно за счёт вве логии:

дения дополнительных временных атрибутов в опи сервисы формирования онтологий: создание сание указанных выше множеств. и развитие онтологии домена сети, создание Обозначим онтологий объектов, определение онтологий внешних объектов;

определение сходства онтологий: для вну тренних объектов;

для внешних и внутренних множество временных периодов, рассматриваемых объектов, при создании онтологии. кластеризация объектов сети на основе изме рения сходства онтологий.

Для элементов множества Т вводится стандарт ный набор атрибутов, описывающих координату Динамика изменений доменов сетевых сооб времени в хранилищах данных и позволяющих вве ществ характеризуется высокой интенсивностью.

сти идентификатор временного периода, опреде Поэтому разработана методика мониторинга и мо лить его начало и окончание, задать его описание. дернизации домена сетевых сообществ.

БИЗНЕС ИНФОРМАТИКА №3(05)Ц2008 г. Методика базируется на принципе объединения качество онтологического моделирования предмет лингвистической и предметной онтологий и осно ных областей за счёт создания более адекватных мо вывается на методах автоматического лингвистиче делей. Для практической реализации этого подхода ского анализа работ участников сети для выделения необходимо объединение концепций построения новых понятий и поиска возможных связей с поня онтологий с концепциями хранилищ данных тиями домена и автоматизированном учёте измене и методами OLAP (On line Analytical Processing).

ния частотных и весовых характеристик суще Разработанный шаблон концептуальной модели ствующих в домене и новых понятий. хранилища данных может быть применён для ши рокого спектра задач создания онтологических Заключение моделей предметных областей.

Введение системы координат, по которым про исходит изменение онтологии (время, языковая Работа выполнялась при поддержке Научного группа) позволяет создавать онтологические модели фонда Государственного университета - Высшей предметных областей, которые не просто фиксиру школы экономики (индивидуальный исследователь ют появление новых понятий и их связь с уже суще ский проект №07 01 189 Применение онтологиче ствующими понятиями, но позволяют проследить ских моделей для решения задач идентификации и мо изменение состава предметных областей и их гра ниторинга развития областей профессиональной дея ниц по этим координатам. Это позволяет повысить тельности.

Литература 1. Интегрированные информационно телекоммуникационные системы и сети, телекоммуникационные и информационные ресурсы, информационные процессы в управляющих системах и сетях. Отчёт о НИР/ (2004Ц2006 г.г.). Программа 3.2. Раздел 3.2.2. Разра ботка фундаментальных основ создания распределённых информационно вычислительных ресурсов ИВТ СО РАН.

2. Б. В. Добров, Н. В. Лукашевич. Лингвистическая онтология по естественным наукам и технологиям как ресурс для приложений ин формационного поиска. Web Journal of Formal, Computational & Cognitive Linguistic // kgu.doc.

3. С.В. Мальцева, Д.С. Проценко. Серверы отношений сетевых сообществ практики на основе онтологических моделей. Автоматиза ция и современные технологии, №3, 2008. - С. 26Ц29.

ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ - ВЫСШАЯ ШКОЛА ЭКОНОМИКИ представляет свои периодические издания Издание освещает теоретические и прикладные проблемы россий ВОПРОСЫ ОБРАЗОВАНИЯ ского образования. Содержит статьи ведущих российских и зару ЕЖЕКВАРТАЛЬНЫЙ НАУЧНО ОБРАЗОВАТЕЛЬНЫЙ бежных ученых и экспертов. В каждом номере дискуссии, рецен зии, обзоры публикаций и законодательства в области образования.

ЖУРНАЛ Каталог Агентства Роспечать - индекс 82950 Объединенный Издается с 2004 г.

каталог Пресса России - индекс Главный редактор - Координаты редакции:

Ярослав Иванович Кузьминов 101990 Москва, ул. Мясницкая, 20, офис E mail: edu.joumal@hse.ru Тел: (495) 628 5102, 621 24 БИЗНЕС ИНФОРМАТИКА №3(05)Ц2008 г.

   Книги, научные публикации