Дисциплина «Инженерия знаний» Реферат Онтологии
Вид материала | Реферат |
- Дисциплина «Инженерия знаний» Реферат "онтологии как основа для разработки пакетов, 160.76kb.
- Дисциплина «Инженерия знаний» Реферат Агенты и мультиагентные системы. Системы поиска, 400.5kb.
- Дисциплина: Инженерия знаний Доклад Генетические алгоритмы, 371.21kb.
- Теоретические аспекты инженерии знаний, 680.47kb.
- Дисциплина: Инженерия знаний Доклад Машинный перевод, 263.57kb.
- Бакалаврские программы №№520400, 520900, 521200, Кафедра Онтологии и теории познания, 147.87kb.
- Аннотация дисциплины «Философия» для подготовки бакалавров по направлению 231000., 2168.15kb.
- Проблема онтологии в истории философии и системомыследеятельностной методологии, 143.45kb.
- Бакалаврская программа №520400 Кафедра Онтологии и теории познания Направление : Философия, 403.47kb.
- Подход к построению гидродинамических моделей на основе онтологии, 97.29kb.
Министерство высшего и профессионального образования РФ
Ульяновский Государственный Технический Университет
Кафедра «ВТ»
Дисциплина «Инженерия знаний»
Реферат
Онтологии.
Выполнил: ст-т гр. ЭВМдм-52
Акимов С.В.
Проверил: профессор
Соснин П.И.
Ульяновск 2001
Содержание
Онтологии и онтологические системы. 3
1. Основные определения 3
1.2. Онтологии в проектировании систем или еще одно определение онтологии 3
1.3. Взаимодействие тезауруса и онтологии 4
1.4. Модели онтологии и онтологической системы 5
1.5. Методологии создания и жизненный цикл онтологий 8
1.6.Некоторые проблемы в онтологических системах и перспективные способы их решения. 9
2.Примеры онтологий 11
2.1. Классификация онтологий 11
2.2. Онтология в электронной коммерции 12
3.Системы и средства предоставления онтологических знаний. Онтологии в Internrt. 12
3.1.Основные подходы 12
3.2. Аннотация знаний в рамках инициативы (КА)2. 13
3.3. Проект SHOE 13
3.4. Использование XML. 14
3.5. Спорные моменты и нерешенные проблемы. 16
Онтологии и онтологические системы.
1. Основные определения
1.1. Общее определение
Существует много определений онтологий, и если рассматривать точку зрения, наиболее близкую к понятию искусственного интеллекта, то онтология – это формально представленные на базе концептуализации знания. Концептуализация предполагает описание множества обьектов и множества понятий, знаний о них и связей между ними.
Часто набор предположений, составляющих онтологию, имеет форму логической теории первого порядка, являются именами унарных и бинарных предикатов, называемых соответственно концептами и отношениями. В простейшем случае онтология описывает только иерархию концептов, связанных отношениями категоризации. В более сложных случаях в нее добавляются и аксиомы для выражения других отношений между концептами и для того, чтобы ограничить их предполагаемую интерпритацию. Учитывая вышесказанное, онтология представляет собой базу знаний, описывающую факты, которые предполагаются всегда истинными в рамках определенного сообщества на основе общепринятого смысла используемого словаря.
Одной из сильных сторон онтологий являются их потенциальные свойства для решения таких важных задач как разделение знаний и их повторное использование. Это заключение основывается на предположении о том, что если общая схема (представления и использования знаний), - то есть онтология, - явно определена для работающих с ней агентов как общий ресурс, то этот ресурс возможно разделять между агентами и многократно использовать [Fridman Noy, Hafner, 1997].
1.2. Онтологии в проектировании систем или еще одно определение онтологии
Люди, организации и программные системы вынуждены общаться друг с другом. Однако, способ выражения знаний даже об одних и тех же вещах и в одном и том же языке может быть столь различным, что это приводит к непониманию друг друга даже при разговоре об одном и том же предмете. Об этом много написано, в том числе в научной литературе [1]. Это приводит к трудностям обмена информацией между людьми, организациями и программами, и, в частности, к трудностям формирования однозначно понимаемых требований и спецификаций для сложных систем. Несмотря на достаточно продвинутый уровень развития систем моделирования сложных систем, возможности взаимодействия созданных с их помощью программных моделей, возможности повторного использования и распространения этих моделей весьма ограничены. Это в свою очередь приводит к повторным усилиям по созданию программных моделей по своей сути в значительной степени мало отличающихся от уже созданных. Такая ситуация напоминает повторное изобретение велосипеда.
Спрашивается, как можно избежать такого рода изобретений? Естественный ответ - это устранить или свести к минимуму концептуальную и терминологическую путаницу и установить однозначное понимание языка, используемого для формирования требований и спецификаций сложных систем. Этот язык должен прежде всего служить средством
- коммуникации между людьми, имеющими различный взгляд на одни и те же вещи,
- взаимодействия между программными системами путем трансляции в него и из него,
- инструментальной поддержки для повторного использования благодаря формальной спецификации, унификации представления различных моделей, автоматизации проверки корректности, переводимости различных методов моделирования в унифицированное представление.
Онтологией как раз называются представленные на некотором языке, обладающем перечисленными выше свойствами, знания о некоторой области интересов (среде, мире). Термин “онтология” в настоящее время широко используется в работах по искусственному интеллекту как аналог понятию модели в какой-либо конкретной области, и охватывает все необходимые формализованные некоторым образом (как правило, в виде некой формальной теории или исчисления) знания и интерпретатор или машину вывода, необходимые для вычислений.
1.3. Взаимодействие тезауруса и онтологии
Тезаурус (в информатике) – полный систематизированный набор данных о какой-либо области знаний, позволяющий человеку или вычислительной машине в ней ориентироваться.
Онтология - это набор определений (на формальном языке) фрагмента декларативных знаний, ориентированный на совместное многократное использование различными пользователями в своих приложениях. В онтологии вводятся термины, типы и соотношения (аксиомы), описывающие фрагмент знания.
Видно, что (3) из определения Тезауруса и приведенное определение Онтологии почти совпадают. Это и не удивительно, поскольку еще недавно сегодняшняя Онтология именовалась Тезаурусом.
Однако теперь в наступившем смешении понятий стало ясно, что этим терминам придется размежеваться: Тезаурус скорее более закреплен за лексикой в проекции на семантику, а Онтология в ее новом, информационном употреблении - это семантика и прагматика, возможно до известной степени в проекции на язык.
В универсальном словаре типа Тезауруса Роже (Roget’s Thezaurus [2]) семантика общих понятий используется в качестве основы организации лексической информации, хотя при этом речь не идет о формализации самой семантики, способной обеспечить возможность ее машинного применения в качестве моста между системами представления знаний и естественно-языковым текстом.
Однако при создании проблемно-ориентированных интеллектуальных систем, оперирующих с ЕЯ -текстами, подобная организация Тезаурусов невозможна по ряду причин:
- Семантика различных областей вряд ли имеет единый мета-каркас, могущий послужить основой организации любого узко ориентированного тезауруса, по крайней мере, сегодня такой мета-каркас мне неизвестен.
- Универсальные тезаурусы строятся на основе иерархической структуры, которая является естественной для текстовых тезаурусов, но никак не адекватна в реальных конкретных предметных областях.
Таким образом, проблема расщепляется на две тесно связанные составляющие: (а) языковую, организующую лингвистическую информацию о соответствующей проекции ЕЯ на данную предметную область, и (б) систему знаний об этой предметной области, в идеале – ее формальную модель (МПО).
Теперь термин тезаурус уместно было бы связать именно с первой составляющей, поскольку основной ее частью является лексика, а на других ее компонентах – морфологии и синтаксисе – специфика области отражается в гораздо меньшей степени. Термин же онтология можно было бы отнести ко второй составляющей, поскольку его использование не только отдает дань моде, но и отражает намерение технологии интеллектуальных систем переходить от конструирования приземленных и ограниченных “разовых” МПО к описаниям знаний о предметных областях, способных становиться частями более общих моделей знаний.
1.4. Модели онтологии и онтологической системы
Понятие онтологии предполагает определение и использование взаимосвязанной и взаимосогласованной совокупности трех компонент: таксономии терминов, определений терминов, и правил их обработки. Учитывая это, моно ввести следующее определение модели онтологии:
Под формальной моделью онтологии О будем понимать упорядоченную тройку вида: O=
где
X – конечное множество концептов (понятий, терминов) предметной области, которую представляет онтология O;
K – конечное множество отношений между концептами (понятиями, терминами) заданной предметной области;
F – конечное множество функций интерпритации (аксиоматизация), заданных на концептах и/или отношениях онтологии O.
Заметим, что единственное ограничение, накладываемое на множество Х, является его конечность и не пустота. Иначе обстоит дело с компонентами Ф и К. Понятно, что они должны быть конечными множествами. Рассмотрим граничные случаи, связанные с их пустотой.
Если К=0 и Ф=0, то онтология О трансформируется в простой словарь.
Такая вырожденная онтология может быть полезна для спецификации, пополнения и поддержки словарей ПО, но онтологии - словари имеют ограниченное использование, поскольку не вводят эксплицитного смысла терминов. Хотя в некоторых случаях, когда некоторые термины принадлежат очень узкому (например, техническому) словарю и их смыслы уже заранее хорошо согласованы в пределах определенного (например, научного) сообщества, такие онтологии применяются на практике. Известными примерами онтологий этого типа являются индексы машин поиска в Internet.
Иная ситуация в случае использования терминов обычного естественного языка или в тех случаях, когда общаются програмные агенты. В этом случае необходимо характеризовать предполагаемый смысл элементов словаря с помощью подходящей автоматизации, цель использования которой – в исключении нежелательных моделей и в том, чтобы интерпритация была общей для всех участников общения.
Если К=0 но Ф<>0. Тогда каждому элементу множества терминов из Х может быть поставлена в соответствие функция интерпритации f из Ф. Такой словарь пассивен, так как все определения терминов берутся из уже существующего и фиксированного множества.
Для предоставления модели онтологии, которая нужна для задач обработки информации в сети Интернет, очевидно, требуется отказаться от предположения К=0.
Итак, предположим, что множество отношений на концептах онтологии не пусто. Введем в рассмотрение специальный подкласс онтологий – простую таксономию следующим образом:
О=Т0=
Под таксономической структурой будем понимать иерархическую систему понятий, связанных между собой отношением is_a («быть элементом класса»). Отношение is_a имеет фиксированную заранее семантику и позволяет организовать структуру понятий онтологии в виде дерева. Такой подход имеет сввои преимущества и недостатки, но в общем случае является адекватным и удобным для представления иерархий понятий.
Классификация моделей онтологий
Компоненты модели | К=0 Ф=0 | К=0 Ф<>0 | К=0 Ф<>0 | К={is_a} Ф=0 |
Пояснения | Словарь ПО | Пассивный словарь | Активный словарь ПО | Таксономия1 понятий ПО |
Далее можно обобщить частные случаи таким образом, чтобы обеспечить возможность:
- Представление множества концептов Х в виде сетевой структуры;
- Использование достаточно богатого множества отношений К, включающего не только таксонометрические отношения, ни отношения, отражающие специфику конкретной предметной области, а так же средства расширения множества К;
- Использования декларативных и процедурных интерпритаций и отношений, включая возможность определения новых интерпретаций;
Тогда возможно ввести в расмотрение модель расширяемой онтологии и исследовать ее свойства. Модель расширяемой онтологии является достаточно мощной для спецификации процессов формирования знаний в среде Интернет. Вместе с тем, и эта модель является не полной в силу своей пассивности даже там, где определены соответствующие процедурные интерпритации и введены специальные функции пополнения онтологий. Ведь единственной точкой управления активностью в такой модели является запрос на интерпретацию определенного концепта. Этот запрос выполняется всегда одинаково и инициирует запуск соответствующей процедуры. А собственно вывод ответа на запрос и/или поиск необходимой для этого информации остается вне модели и должен реализовываться другими средствами.
Учитывая вышесказанное, введем понятие онтологической системы.
Под формальной моделью онтологической системы С0 будем понимать триплет вида
С0=
Ometa – онтология верхнего уровня (метоонтология);
{Od&t} – множество предметных онтологий задач предметной области;
Qinf – модель машины вывода, ассоциированной с онтологической системой C0
Использование системы онтологий и специальной машины вывода позволяет решать в такой модели различные задачи. Расширяя систему моделей, можно учитывать предпочтения пользователя, а изменяя модель машины вывода, вводить специализированные критерии релевантности получаемой в процессе поиска информации и формировать специальные репозитории накопленных данных, а также пополнять при необходимости используемые онтологии.
В модели онтологической системы имеются три онтологические компоненты:
- Метаонтология – оперирует общими концептами и отношениями, которые не зависят от конкретной предметной области; концептами метауровня являются общие понятия, такие как «обьект», «свойство», «значение» и т.д. Онтология метауровня являяется статической.
- Предметная отология – содержит понятия, описывающие конкретную предметную область, отношения, семантически значимые для данной предметной области, и множество интерпритаций этих понятий и отношений ( декларативных и процедурных). Понятия предметной области специфичны в ккаждой прикладной онтологии, но отношения – более универсальны. Поэтому в качестве базиса выделяют такие отношения модели предметной онтологии, как part_of, kind_of, contained_in, member_of, see_also и др. Анализ различных предметныхобластей показывает, что введенный выше набор отношений является достаточным для начального описания соответствующих онтологий. Этот базис является открытым и может пополняться в зависимости от предметной области и целей, стоящих перед прикладной системой, в которой такая онтологичя используется.
- Онтология задач - в качестве понятий содержит типы решаемых задач, а отношения этой онтологии, как правло, специфируют разбиение задач на подзадачи
- Машина вывода онтологической системы в общем случае моет опираться на сетевое представление всех уровней. При этом ее функционирование будет сввязано :
- С активацией понятий и/или отношений, фиксирующих решаемую задачу (описание исходной ситуации);
- Определением целевого состояния (ситуации);
- Выводом на сети, заключающимся в том, что от узлов исходной ситуации распростроняются волны активации, использующие свойства отношений, сними связанных. Критерием остановки процесса является достижение целевой ситуации или превышение длительности исполнения.
1.5. Методологии создания и жизненный цикл онтологий
В настоящее время существует лишь несколько предметно-независимых методологий, ориентированных на построение онтологий. Эти подходы и методологии базируются на следующих принципах проектирования и реализации онтологий, предложеных Грубером:
- Ясность – онтология должна эффективно передавать смысл введенных требований. Определения должны быть обьективными, хотя мотивация введения терминов может определяться ситуациями или требованиями вычислительной эффективности;
- Согласованность – означает, что по крайней мере все определения должны быть логически непротиворечивы, а все утверждения, вводимые в онтологии, не должны противоречить аксиомам;
- Расширяемость – онтология должна быть спроектирована так, чтобы обеспечивать использование разделяемых словарей терминов, допускающих возможность монотонного расширения и/или специализации без необходимости ревизии уже существующих понятий.
- Минимум влияния кодирования – концептуализация, лежащая в основе создаваемой онтологии, должна быть специфицирована на уровне представления, а не символьного кодирования. Этот принцип связан с тем, что агенты, реализующие онтологию, могут быть реализованы в различных системах представления знаний.
- Минимум онтологических обязательств – онтология должна содержать только существенные предположения о моделируемом мире, что бы оставлять свободу расширению и специализации. Отсюда следует, что онтологии базируются на «слабых» теориях, так как цель их создания состоит, прежде всего в том, чтобы говорить о предметной области, в отличие от БЗ, которые могут содержать знания, необходимые для решения задач и/или ответов на вопросы.
В рамках этого подхода выделяются следующие процедуры в «жизненном» цикле создания онтологии: управление проектом, собственно разработка и поддержка разработки.
- Процедуры управления проектом включают планирование, контроль и гарантии качества. Планирование определяет, какие задачи должны быть выполнены, как они организуются, как много времени и какие ресурсы нужны для их управления. Контроль гарантирует, что запланированные задачи выполнены и именно так. Как это предполагалось. Гарантии качества нужны для того, чтобы быть уверенным в том, что компоненты и продукт в целом находятся на заданном уровне.
- Собственно разработка включает спецификацию, концептуализацию, формализацию и реализацию. Спецификация определяет цели создания онтологии, ее предполагаемое использование и потенциальных пользователей. Концептуализация обеспечивает структурирование предметных знаний в виде значимой эксплицитной модели. Формализация трансформирует концептуальную модель в формальную или «вычислительную». Наконец, в процессе реализации вычислительная модель программируется на соответствующем языке представления знаний.
- Процедуры поддержки включают действия, выполняемые одновременно с разработкой, без которых онтология не может быть построена. Они представлены процедурами приобретения знаний, оценки, интеграции, документирования и управления конфигурациями. Приобретение знаний аккумулирует знания в заданной предметной области. Оценка дает технические решения по оценке онтологии, соответствующего програмного обеспечения и документации как в процессе выполнения каждой фазы, так и между фазами. Интеграция требуется, когда строиться новая онтология с использованием уже существующих. Документирование дает детальную, понятную и исчерпывающую информацию о каждой фазе и продукте в целом. Управление конфигурациями необходимо для архивации всех версий документации, програмного обеспечения и кода онтологии, а так же для контроля за изменениями.
-
Некоторые проблемы в онтологических системах и перспективные способы их решения.
- Проблема установления соответствия ( как один из вариантов предлагается основываться на понятии гомоморфных систем, вводимом автором)
- Как ввести понятие эквивалентности между различными системами знаний или различными онтологиями одной предметной области;
- Как ввести понятие эквивалентности между системами знаний или онтологий различных предметных областей
- Как возможно построение новой онтологической системы на уже построенных онтологических системах; или как возможно использование одной онтологией систем (баз) знаний других онтологий
- Проблема расширенного использования знаний
- Как повторно использовать системы знаний и онтологии предметных областей в различных компьютерных разработках (проектах). Проблема может быть решена изучения путей формирования расширенных (не расширенных) логических систем отношений, являющихся гомоморфическим отображением логических систем отношений и свойств таких систем;
- Как использовать общие базы знаний, или как в одной онтологической модели предметной области моно использовать знания, накопленные в другой модели. Решение может лежать в изучении путей построения новой модели онтологии предметной области, опираясь только на существующие модели и их расширения (в виде баз знаний);
- Проблема перевода «человеческого» знания в «машинное» и обратно
- Как эксперт по предметной области моет перевести свои знания в компьютерные термины без посредника в лице инженера (оператора) по информационным технологиям;
- Как сделать содержание компьютерных баз знаний хорошо понятным для многих специалистов по предметным областям. Возможный вариант решения – это представление баз знаний в текстовом виде. Текст должен иметь форму (структуру, стиль) удобную для специалистов предметных областей. Такой текст может быть получен при помощи современных средств создания документов, основывающихся на методах добычи данных из баз данных. Как видно из определения модели онтологии предметной области, база знаний – это реляционная база данных, заключенная в некоторую форму. В дополнение, доступ к базе знаний для специалистов по предметным областям может быть организован через Internet и используя редактор базы знаний, основанной на модели онтологии предметной области.
- Проблема формирования и отладки знаний
- Как сформированное методом индукции компьютерное знание прозрачным и удобочитаемым для специалистов (для процесса отладки);
- как сделать обновление знаний возможным и наиболее прозрачным для специалиста. В качестве одного вариантов решения этой проблемы предполагается участие эксперта в формировании новой модели онтологии на базе уже существующей, привлечение его опыта и, тем самым, исключая возможные некорректные решения.
- Проблемы, ориентированные на использование математического аппарата
- Как добывать и использовать методы для решения задач, используя ее математическую спецификацию.
2.Примеры онтологий
2.1. Классификация онтологий
В настоящее время исследования в области онтологий и онтологических систем являются «горячими точками» не только в ИИ, но и в работах по интеллектуализации информационного поиска, в первую очередь, в среде Интернет; в работах по мультиагентным системам, в проектах по автоматическому извлечению знаний из текстов на естественном языке, в проектах ведущихся в смежных областях.
Суммируя типизации различных авторов, можно выделить следующие классификации онтологий:
- По степени зависимости от конкретной задачи или предметной области;
- Уровню детализации аксиматизации;
- «природе» предметной области и т.д.
Дополнительно к этим изменениям можно ввести и классификации, связанные с разработкой реализацией и сопровождением онтологий, но такая типизация более уместна при обсуждении вопросов реализации онтологических систем.
Пос тепени зависимости от конкретной задачи или предметной области обычно различают:
- онтологии верхнего уровня – описывают очень общие концепты, такие, как пространство, время, обьект, событие, действие, и т.д., которые не зависимы от конкретной предметной области. Примером такой онтологии может быть CYC – ориентирована на создание мультиконтекстной БЗ и машины вывода, основанную на всех общих понятиях (начиная с таких, как время, сущность и т.д.) и включающая семантическую структуру терминов, связей между ними и аксиом. Предполагается, что такая база знаний может быть доступна разнообразным програмным средствам. Работающими со знаниями и будет играть роль базы «начальных знаний».
- онтологии, ориентированные на предметную область, онтологии ориентированные на конкретную задачу – описывают, соответственно, словарь, связанный с предметной областью (медицина, коммерция и т.д.) или с конкретной задачей или деятельностью (диагностика, продажи и т.п.) за счет специализации терминов, введенных в онтологии верхнего уровня. Приром такой онтологии является онтология в системе TOVE (Toronto Virtual Enterprise Project) предметно ориентирована на предоставление модели корпорации. Основная ее цель – отвечать на вопросы пользователей по реинжирингу бизнесс-процессов, извлекая эксплицитно представленные в онтологии знания. При этом система может проводить дедуктивный вывод ответов. В онтологии нет средств для интеграции с другими онтологиями. Формально онтология описывается с помощью фреймов.
- прикладные онтологии – описывают концепты, зависящие от конкретной предметной области, так и от задач, которые в них решаются. Пример такой онтологии – Plinius – предназначенная для полуавтоматического извлечения знания в области химии.
2.2. Онтология в электронной коммерции
«Онтология сегодня играет ключевую роль в системах электронной коммерции категории business-to-business, — отметил менеджер компании Requisite Technology Дармон Спирс. — Специалисты-онтологи гарантируют, что деловые партнеры будут использовать один и тот же язык для общения, формирования заказов и поставок товаров и услуг через Internet. Необходимо структурировать большие объемы информации, тем самым помогая клиентам находить нужные продукты и принимать решение о покупке, а для этого требуется целостное описание информации, хранящейся в электронных каталогах».
К примеру, если компания заключила специальное соглашение о скидках с поставщиком офисного оборудования, а секретарь, ищущий в интерактивном каталоге термин «мусорные корзины», не может отыскать его, поскольку та же самая продукция представлена там как «контейнеры для отходов», проще приобрести требуемую мусорную корзину в самом обычном магазине без всяких скидок. Но если умножить разницу на число офисных помещений, то, как станет ясно, компания потеряет немалые деньги. Если теперь представить себе производителя, который заказывает различных комплектующих на миллион долларов и сталкивается с той же ситуацией, легко понять, почему онтология жизненно важна для систем B2B.
«По мере дальнейшего развития Internet все больше и больше компаний осваивают возможности систем B2B, и результат переговоров по ценам напрямую зависит от эффективности использования сторонами данной модели», — пояснил Спирс.
Онтология становится ключевой функцией многих проектов в области электронного бизнеса: компания Yahoo!, к примеру, держит целый штат онтологов, называемых здесь «серферами» (surfer), — специалистами по организации поиска и обмена информацией. Эти люди принимают участие в разработке программного обеспечения, которое играет существенную роль в организации взаимодействия с пользователями и может применяться при создании текстовых процессоров и автономных агентов.
-
Системы и средства предоставления онтологических знаний. Онтологии в Internrt.
Основные подходы
В настоящее время во всем мире исследования по пространствам знаний в среде Интернет ведутся широким фронтом. И одним из ключевых аспектов в таких исследованиях являются алгоритмические и програмные средства предостовления онтологических знаний и работы с онтологиями. Общей уелью всех таких знаний является разработка новых подходов к построению пространств знаний и средств работы с ними, где бы обеспечивались:
- Использование семантики для управления процессом ответа на запросы.
- Возможность построения ответов с хорошо определенной семантикой и простым синтаксисом, которые могли бы быть поняты и обработаны програмными агентами или другими програмными средствами;
- Возможность гомогенного доступа к информации, которая физически распределена и гетерогенно представлена в интернете.
- Получение информации, которая явно не присутствует среди фактов, полученных из сети, но может быть выведена из других фактов и баз знаний.
3.2. Аннотация знаний в рамках инициативы (КА)2.
В рамках проекта (KA)2 (Knowledge Acquisition Initiative) по организации интеллектуального доступа к документам онтология является основой для аннотации WWW - документов. (KA)2 - это открытая инициатива, в рамках которой участники включаются в процесс создания распределенной онтологии и модели извлечения знаний (онтологии предметной области). Одной из целей (KA)2 является трансформация из представления WWW (как базы знаний) в систему, основанную на знаниях [Benjamins, Fensel D., 1998].
В рамках данного проекта разработана система Ontobroker [Fensel V. D., et. all, 1998] где предлагается организация онтологии с автоматической аннотацией WWW-документов семантической информацией. Основная идея данного проекта - это использование метафоры группы по интересам (newsgroup), чтобы определить группу людей, у которых общий взгляд на понятия и их место в общей онтологии. В Ontobroker имеется администратор онтологий и клиенты могут узнать все термины онтологий.
3.3. Проект SHOE
Авторы работы [Luke et al., 1997] в проекте SHOE предлагают аннотировать информацию, содержащуюся в HTML-документах, также используя онтологии. В SHOE "владельцы" информации могут сами аннотировать свои документы и расширять конкретную онтологию новыми понятиями. В этой системе центральный администратор онтологий не определен. Как следствие, давая запрос, пользователь может не знать все термины, которые используются для аннотации HTML-документов. Поэтому ответ на запрос может не содержать важную для пользователя информацию.
В SHOE используется дескриптивная логика как базисный формализм для вывода, а Ontobroker использует логику, основанную на фреймах и поддерживает довольно сложный механизм вывода ответа на запрос. Созданный в рамках этого проекта специальный поисковый механизм Ontocrawler поддерживает полную коллекцию всех аннотированных с помощью Ontobroker HTML-страниц.
3.4. Использование XML.
Идея создания расширенного HTML нашла воплощение в таком стандарте, как разработанный в W3С (интернациональный всемирный Web консорциум) язык XML (Extensible Markup Language) [URL1]. XML - язык для разметки синтаксической структуры документов, позволяющий благодаря спецификации синтаксиса, использовать такие документы множеству агентов, для которых данный формат является общим. Для того, чтобы аннотировать документы с помощью XML, разработан формат описания ресурсов RDF (Resource Description Framework) [URL2]. Мета-информация, определяемая форматом RDF, размещается как дополнительная страница или блок внутри каждой web-страницы (элементы web страницы не могут быть аннотированы прямо в тексте исходного документа, а должны быть повторены с дополнительной мета-информацией). Такой способ влечет за собой много трудностей из-за дублирования информации.
Пример.
Для представления XML-базированных источников информации необходимо иметь модели, расширяемые для отражения дальнейшего развития моделей данных и технологий. Репозиторий метаинформации, реализующий унифицированную модель, призван собирать в себе спецификации XML-документов, описания предметных областей и хранить связи метаинформации, установленные в процессе проектирования информационных систем на основе спецификаций XML-документов.
Основой описания информационных ресурсов в СИНТЕЗе является язык фреймов. На базе него создана объектная модель. В основе объектной модели лежат понятия типа и класса. Объектная модель также является остовом для спецификации онтологической информации.
Модель СИНТЕЗ предоставляет набор базовых типов. Для описания типов данных любой природы введены абстрактные типы данных. Они включают структурные и поведенческие спецификации данных, выражаемые посредством атрибутов, ассоциаций, инвариантов и операций типа. Операции типов описываются типом функции. Ассоциации могут задаваться с помощью метаклассов ассоциаций, где описывается вид ассоциации любой сложности. Спецификации слабоструктурированных схем, извлечённых из документов, используют возможности абстрактных типов данных для описания структуры информации.
Классы в модели СИНТЕЗ представляют совокупности однородных объектов предметной области. Каждый объект из совокупности является экземпляром данного класса. С классом связан экстенсионал, содержащий множество экземпляров класса. В экстенсионалах классов будет содержаться информация о существовании конкретных XML-документов, отвечающих описаниям в репозитории метаинформации.
Любой вид информации представляется в виде фреймов, не исключая неструктурированные данные. Неструктурированную информацию могут содержать значения слотов фреймов. Слабоструктурированные данные состоят из структурированной и неструктурированной частей. Для описания структурированной части определяются типы. Описание неструктурированной части информации будет представлено слотами, типы значений которых определяются динамически.
Единицей описания ресурса является модуль. Для сайтов в репозитории описываются модули, содержащий типы и классы спецификаций схемы сайта, и модули с онтологическими определениями соответствующей предметной области.
Со спецификациями схем данных должны быть связаны онтологические контексты, содержащие понятия предметных областей, которым принадлежит информация, представленная в документах. Каждый элемент структурной спецификации связывается с каким-либо понятием. И контексты онтологий разрабатываемых информацитонных систем также должны быть представлены в репозитории и связаны со спецификациями схем информационных систем.
Спецификация онтологического понятия задаётся в виде определения абстрактного типа данных. Тип онтологического понятия имеет вербальное определение, список дескрипторов, семантические связи (синонимия, выше/ниже, часть/целое, ассоциативная связь), спецификацию внутренней структуры. Списки дескрипторов в спецификациях понятий онтологии строятся на основе значащих слов из понятия. Для формировании списка дескрипторов к вербальному определению применяются средства лексического и морфологического анализа. Внутренняя структура понятия характеризуется атрибутами, ассоциациями и наложенными на них логическими ограничениями.
С понятиями онтологии связаны онтологические классы, экстенсионалы которых содержат элементы спецификаций схем, если семантически они относятся к этим понятиям.
В репозитории метаинформации, реализация которого осуществляется в рамках проекта, определен интерфейс, предоставляющий доступ к метаобъектам при разработке информационных систем, и средства загрузки спецификаций слабоструктурированных схем и онтологических контекстов. Более подробно эта структура рассмотрена в ссылка скрыта.
Репозиторий метаинформации реализован на независимо от платформы. Он выполнен в среде объектно-реляционной СУБД Oracle 8i в виде базы данных с доступом к метаобъектам при помощи Java-интерфейса. Интерфейс репозитория использует JDBC для обращения к Oracle. Метаобъекты, их свойства и связи хранятся в репозитории в виде бинарных отношений. Для описания метаобъектов, которые могут быть достаточно сложными, задействуются только непустые свойства. Состав метаобъектов репозитория определён унифицированной моделью спецификации ресурсов и методами, применяемыми при проектировании информационных систем. Структура интерфейса репозитория определяется иерархией типов метаобъектов с методами доступа к их свойствам. Она включает средства, поддерживающие работу с модулями различных видов, фреймовую и объектную модели, модель представления понятийной информации (в том числе и онтологической), построенные соответственно одна на основе другой. Кроме этого, в репозитории реализованы типы метаобъектов, необходимые для связывания онтологий с элементами спецификаций объектной модели для выявления онтологически релевантных элементов, хранения композиций типов и классов, описывающих структуру различных документов, статистической метаинформации о текстовых данных ресурсов. Средства загрузки в репозиторий спецификаций, представленных в различных форматах, разрабатываются.
3.5. Спорные моменты и нерешенные проблемы.
Идея приписывания каждому HTML-документу либо заголовка с описанием ключевых слов и семантическими связями между ними [Luke et. all, 1996], либо другой классифицирующей информации проста и понятна, но пока практически не реализуема. Нельзя ожидать, что онтологии будут использоваться каждым пользователем, но даже если это станет возможным, то крайне затруднительным окажется процесс коммуникации пользователей с целью договориться об используемых терминах. Безусловно, возможна автоматическая модификация документов, но, по крайней мере, необходимы единые стандарты формата мета-тагов и четко определенные протоколы взаимодействия разных составителей онтологий.
Использование идеи групп по интересам также проблематично, так как другие пользователи, имея другую модель мира, не смогут "распознать" нужные им документы. Наконец, разработка онтологий занимает много времени.
Большие онтологии, такие как CYC, создаются на основе абстрактного и очень общего описания понятий предметной области и связей между ними. Реально для каждого пользователя возможен свой контекст для представления терминов в зависимости от ситуации и модели мира пользователя. Поэтому часто пользователю не нужна огромная онтология, содержащая описание "всего мира".
Использование нескольких онтологий для учета контекстного взгляда конкретного пользователя представлена в [Takeda H., Iino K., Nishida T, 1995]. Каждое понятие описывается (часто on-line) с нескольких точек зрения, каждая из которых представляет способ концептуализации. Но при данном решении возможна ситуация "сегментации знаний" в сети.
Направление развития данной парадигмы определяется решением указанных выше проблем, то есть какими быть онтологиям в Интернет: универсальными или ограниченными предметной областью(областями); уникальными в системе или состоящими из распределенного подмножества; доступными для редактирования всем пользователям или только администратору. Возможно интересные результаты даст поиск новых структурных решений внутренней организации онтологии, способов доступа к хранящейся в ней информации, новых методов вывода и представления ее для пользователя. Необходимо развивать методы взамодействия пользователя с онтологией (онтологиями).
Вовлечение систем, основанных на знаниях на Web, компонентом которых являются онтологии, позволяет рассматривать всемирную паутину как организованное и структурированное пространство знаний, что, возможно, приведет к использованию информации в сети на новом уровне.
Литература
1. Горелова, Хорошевский «Базы знаний»
2. Управление корпоративными знаниями (Даниэл Е. О’Лири),
ссылка скрыта
3. Онтология становится ключевой функцией проекта в области электронного
бизнеса (Ив Эпштейн),
ссылка скрыта
4. Построение распределенных интеллектуальных систем на основе
распределенной фреймовой иерархии (Сошников Д.В),
do.sssu.ru/ito2001/mater/mai.htm
5. Определение модели метаинформации и средств поддержки репозитория для накопления слабоструктурированных схем Web сайтов и соответствующих онтологий с целью поиска релевантных сайтов при проектировании информационных систем, ссылка скрыта
6. Онтология и гносеология ПО для встроенных систем (Сергей Кузнецов), night.ulstu.ru/files/33914/files.33914/079.htm
7. Кентавр по имени ТЕОН: Тезаурус + Онтология (А.С.Нариньяни), www.artint.ru/art/narin/teon.htm
8. От информационного пространства к пространству знаний.
Онтологии в Интернет (Наталия В. Майкевич),
dll.botik.ru/nut/CAI98.php
9. Онтологии в проектировании систем (В. В. Девятков).
1 Таксономия – теория классификации и систематизации сложноорганизованных областей деятельности, обычно имеющих иерархическое строение.