"Онтологии в Интернет"
Подобный материал:
- Доклад на тему: "Онтологии в Интернет", 113.7kb.
- Проблема онтологии в истории философии и системомыследеятельностной методологии, 143.45kb.
- Подход к построению гидродинамических моделей на основе онтологии, 97.29kb.
- Интернет как проблема социальной онтологии, 360.8kb.
- 10 Онтологический подход и его использование Понятие онтологии, 258.51kb.
- М. В. Ломоносова философский факультет кафедра онтологии и теории познания планы семинар, 102.81kb.
- Т. М. Шатунова Социальный смысл онтологии эстетического, 2684.24kb.
- Основы онтологии. СпбГУ. 1997, 4257.34kb.
- Яние проекта по созданию лингвистической онтологии специального информационно-поискового, 446.19kb.
- Влияние феноменологии э. Гуссерля на философские взгляды м. Хайдеггера степанов, 44.37kb.
Министерство образования Российской Федерации
Ульяновский Государственный Технический Университет
Факультет Информационных Систем и Технологий
Кафедра «Вычислительная техника»
Дисциплина «Инженерия знаний»
Реферат
на тему: ”Онтологии в Интернет”
Выполнил:
Проверил: | студент группы МЭВд-52 Шаров О.Г. Соснин П.И. |
Ульяновск, 2002
Содержание
Введение 3
Три способа превращения данных в знания в Интернет 3
Онтологии и Web 6
Онтологическая поисковая система Jewel для реализации интеллектуального поиска в Интернет- и интранет-сетях. 7
Язык публикации знаний в Internet (KML) 19
Заключение 27
Литература 29
Введение
Всемирная паутина Интернет стремительно "расползается" и "вплетается" буквально во все сферы жизни. Web становится все более мощным и важным источником информации. Средствам обработки данных в сети все труднее и труднее справляться с лавиной информации, уже существующей и добавляемой в сеть ежедневно. Кроме того, данные в Интернет организованы крайне стихийно и не систематично. Кроме серверов, поддерживаемых компаниями, фирмами, университетами и другими официальными организациями, на которых, в основном, представлена тематическая информация, более или менее структурированная, Web "населяют" домашние страницы, соединяющие в себе все что угодно. Так, на одном и том же сайте можно узнать о результатах наблюдений за спутниками Юпитера и о рецепте пиццы. Такая дезорганизованность крайне затрудняет и запутывает процесс поиска нужной информации.. Информационное пространство Web "скроено" и "сшито" именно так, поэтому ничего не остается, как научиться "носить" его как можно эффектней. Для выхода на новый уровень в использовании Интернет, в первую очередь, необходим переход к семантически значимому представлению информации в сети. Работы, представленные на международных конференциях за последние два года, показывают, что мировое сообщество не только уже осознало необходимость, но и активно включилось в процесс реконструирования Web-пространства в пространство знаний. Анализ как реально действующих в Интернет систем, так и исследовательских прототипов, ориентированных на представление информации в виде знаний, позволяет утверждать, что лидирующим направлением для реализации приложений в этой области являются агентные технологии и мультиагентные системы.
Три способа превращения данных в знания в Интернет
Машины поиска и извлечения информации, такие как "Yahoo!", "Lycos", "Infoseek", используют механизм поиска по ключевым словам и не учитывают контекст, в котором существует информация. Вот почему результатом работы таких систем могут быть сотни тысяч ссылок. Современные версии поисковых систем ("Metacrawler", "WebSeek" и.т.п.) адресуют запрос пользователя сразу к множеству машин поиска, и составляют индексные мета-каталоги и базы данных. Но так как они остаются в рамках поиска, основанного на ключевых словах, то полученные индексы связывают информацию с терминами, учитывая только актуальный для данного запроса лексический или синтаксический контекст [Luke, et. all, 1996]. Аналогичные претензии можно адресовать и к тематическим каталогам, составленным вручную. Кроме того, что для их создания и сопровождения необходимо слишком много времени, существует диссонанс между критериями классификации понятий автора и пользователей [Luke.,et. all, 1996].
Другой подход к решению проблемы интеллектуализации Интернет заключается в дополнении специальными семантическими тагами стандартного HTML для того, чтобы "внести знания" прямо в страницы. Такие модифицированные HTML-документы несут информацию о взаимосвязях понятий и их семантических атрибутах в HTML-подобном формате, то есть не требуют внутреннего языка представления знаний.
Идея создания расширенного HTML нашла воплощение в таком стандарте, как разработанный в W3С (интернациональный всемирный Web консорциум) язык XML (Extensible Markup Language) [URL1]. XML - язык для разметки синтаксической структуры документов, позволяющий благодаря спецификации синтаксиса, использовать такие документы множеству агентов, для которых данный формат является общим. Для того, чтобы аннотировать документы с помощью XML, разработан формат описания ресурсов RDF (Resource Description Framework) [URL2]. Мета-информация, определяемая форматом RDF, размещается как дополнительная страница или блок внутри каждой web-страницы (элементы web страницы не могут быть аннотированы прямо в тексте исходного документа, а должны быть повторены с дополнительной мета-информацией). Такой способ влечет за собой много трудностей из-за дублирования информации.
В работах [Dobson S.A., Burrill V.A., 1995] и [Loke S.W, Davison A., Sterling L., 1996] также предлагается расширить HTML с целью получения семантических индексов к информации, организованной в виде так называемых Lightweight Deductive Databases, где связи между отдельными страницами определяются гипертекстовыми ссылками с атрибутами. Дедуктивные базы данных являются расширением реляционных за счет применения правил логического программирования для более сложного представления данных [K. Ramamohanarao, J. Harland, 1994].
Sandewall [Sandwall, 1996] предлагает создать Всемирную базу данных (WorldWide Data Base), состоящую из файлов, которые содержат полученные из Интернет небольшие фрагменты документов с описанием содержащихся в них понятий в виде объектов. Объекты представляются на специальном языке и могут включать ссылки на другие объекты, HTML-документы в Интернет или файлы из самой базы данных.
В последнее время серьезное развитие получила другая парадигма, с точки зрения которой Web рассматривается как потенциальная база знаний. Для работы со знаниями в сети нужны специальные методы представления и обработки знаний, интерпретации запросов и т.д. Задача здесь прежде всего в том, чтобы адаптировать методы и средства, разработанные в ИИ для систем, основанных на знаниях, в новую проблемную область. В рамках такого подхода сейчас внимание различных исследователей привлекают онтологии [Guarino, Poli, 1995] как средство построения распределенных и неоднородных систем баз знаний в Интернет. Адекватным средством реализации таких систем являются агентные технологии и мультиагентные системы. По определению [Gruber T. R, 1991] онтология - это спецификация концептуализации, которая состоит из словаря и теории. Онтологии включают абстрактное описание как очень общих, так и специфичных для конкретной предметной области терминов. Вопрос о корректном способе анализа знаний с целью определения терминов остается пока открытым и его обсуждению посвящено множество работ [Chandrasekaran B.,. Josephson J. R,. Benjamins V. R, 1998]. Одной из сильных сторон онтологий являются их потенциальные свойства для решения таких важных задач как разделение знаний и их повторное использование. Это заключение основывается на предположении о том, что если общая схема (представления и использования знаний), - то есть онтология, -явно определена для работающих с ней агентов как общий ресурс, то этот ресурс возможно разделять между агентами и многократно использовать [Fridman Noy, Hafner, 1997].
Онтологии и Web
Сегодня перечень проектов, которые в той или иной степени связаны с онтологиями на Web, уходит за горизонт, поэтому здесь остановимся только на самых интересных из них. Проект CYC® создания мульти-контекстной базы знаний и машины вывода, разрабатываемой Cycorp. Основная цель этого гигантского проекта раз и навсегда построить базу знаний всех общих понятий, включающую семантическую структуру терминов, связей между ними, правил, которая будет доступна разнообразным программным средствам [Lenat, 1995].
В рамках проекта (KA)2 (Knowledge Acquisition Initiative) по организации интеллектуального доступа к документам онтология является основой для аннотации WWW - документов. (KA)2 - это открытая инициатива, в рамках которой участники включаются в процесс создания распределенной онтологии и модели извлечения знаний (онтологии предметной области). Одной из целей (KA)2 является трансформация из представления WWW (как базы знаний) в систему, основанную на знаниях [Benjamins, Fensel D., 1998].
Авторы работы [Luke et al., 1997] в проекте SHOE предлагают аннотировать информацию, содержащуюся в HTML-документах, также используя онтологии. В SHOE "владельцы" информации могут сами аннотировать свои документы и расширять конкретную онтологию новыми понятиями. В этой системе центральный администратор онтологий не определен. Как следствие, давая запрос, пользователь может не знать все термины, которые используются для аннотации HTML-документов. Поэтому ответ на запрос может не содержать важную для пользователя информацию.
В проекте Ontobroker [Fensel V. D., et. all, 1998] предлагается организация онтологии с автоматической аннотацией WWW-документов семантической информацией. Основная идея данного проекта - это использование метафоры группы по интересам (newsgroup), чтобы определить группу людей, у которых общий взгляд на понятия и их место в общей онтологии. В отличие от SHOE, в Ontobroker имеется администратор онтологий и клиенты могут узнать все термины онтологий. В SHOE используется дескриптивная логика как базисный формализм для вывода, а Ontobroker использует логику, основанную на фреймах и поддерживает довольно сложный механизм вывода ответа на запрос. Созданный в рамках этого проекта специальный поисковый механизм Ontocrawler поддерживает полную коллекцию всех аннотированных с помощью Ontobroker HTML-страниц.
Как отмечалось выше, в последние несколько лет резко усилился интерес к разработке интеллектуальных поисковых механизмов. Альянс свойств онтологий и систем, основанных на знаниях, в сочетании с текущей задачей интеллектуализации информационного поиска определили привлекательность идеи их использования в этом направлении. Таким образом, в настоящее время методы искусственного интеллекта определяющим образом влияют на развитие средств автоматического извлечения и анализа информации в сети Интернет и рассматриваются как катализатор для возникновения следующего этапа развития поисковых средств.
Онтологическая поисковая система Jewel для реализации интеллектуального поиска в Интернет- и интранет-сетях.
Общим для всех систем онтологического аннотирования является то, что в качестве аннотации веб-ресурса выступает специальным образом организованная предметная онтология, которая содержит структурированные знания об аннотированном ресурсе относительно некоторой метаонтологии предметной области. Можно предложить различные способы размещения онтологической информации о ресурсе: включить онтологическое описание в HTML код через введение новых HTML тегов, либо хранить онтологическое описание ресурса в отдельном файле в каком-либо специальном представлении.
Основная задача онтологического подхода состоит в том, чтобы облегчить пользователю поиск информации в большом наборе ресурсов за счет систематизации знаний, создания единой иерархии понятий, унификации терминов и правил интерпретации. Для описания онтологий можно использовать различные языки представления знаний, применяемые, например, в экспертных системах. В данной работе предлагается использовать для составления онтологических описаний фреймово-продукционный способ представления знаний.
Как известно,
фреймы — средство описания статических знаний, удобное для описания иерархии абстрактных и конкретных понятий, близкое к объектно-ориентированному подходу . Продукции, определенные над множеством фреймов и их слотов, позволяют описывать динамические знания.
В тоже время, применение фреймово-продукционных языков представления знаний в "чистом" виде недостаточно для организации эффективного онтологического поиска. Это видно, например, из следующего соображения.
Пусть всякое онтологическое описание внедрено только в описываемый этой онтологией ресурс. Мы будем считать ресурс известным, если мы в любой момент имеем доступ к его содержимому и, как следствие, к онтологическому описанию. Предположим, что нам уже известно некоторое множество онтологий, и мы хотим указать поисковой системе, какие еще онтологии мы хотели бы сделать известными. Для этого необходимо указать некоторое правило - поисковый запрос, который отделит искомые онтологии от всех остальных, имеющихся в системе. Однако, в общем случае, отсутствует возможность узнать, какие знания содержатся в онтологии до того, как она стала известной.
Таким образом, для поискового запроса не существует никаких явных связей между онтологиями в фреймово-продукционном представлении, кроме отношения наследования между их фреймами
1. Очевидно, остается только возможность сделать запрос следующего типа: "найти все онтологии, фреймы которых унаследованы от данного известного фрейма и значения слотов которых удовлетворяет некоторому условию".
Как видно, запрос состоит из условий, накладываемых на отношение наследования и на значения слотов наследников. Но в тоже время существует опасность, что слот наследника изменил свой первоначальный смысл, так как в общем случае это уже другой фрейм, который может иметь произвольную структуру.
В данной работе предлагается модифицировать фреймовое представление знаний, явно разделив фреймы-образцы и фреймы-экземпляры, введя требование запретить изменять структуру или применять наследование к фреймам-экземплярам. В дальнейшем мы будем называть
категорией фрейм-образец, а под
концептом будем понимать фрейм-экземпляр. Категория во всем эквивалентна обычному фрейму, кроме того, что значения ее слотов воспринимаются концептами как значения по умолчанию, а концепт соответственно является точной копией своей категории с точностью до значений слотов и безусловных правил, явно присваивающих слоту его значение.
Внедрение подобного подхода позволяет существенно обогатить множество возможных поисковых запросов. Действительно, пусть существует некоторая предметная область и некоторое множество текстовых ресурсов, ее описывающих. Если сосредоточить фактические описания явлений и закономерностей - то есть категорий предметной области в нескольких онтологиях страниц, то появляется возможность искать нужную информацию во множестве страниц посредством поиска онтологий, концепты которых соответствуют требуемым условиям. Теперь условия запроса могут касаться как отношений наследования между категориями или отношений представления между категориями и их концептами, так и условий, накладываемых на значения слотов для концептов известных категорий. В сравнении с предыдущим примером имеется гарантия, что наследники не претерпели никаких метаморфоз, так как концепт нельзя дополнить новыми слотами или продукциями.
Таким образом, открывается возможность разделить поиск информации на два этапа: вначале изучается описание существующих явлений, а затем ведется поиск частных случаев изученных явлений. Это обстоятельство, при условии уникальности используемых имен, дает дополнительное преимущество, состоящее в том, что вводится принудительная унификация понятий в рамках одной предметной области, что исключает возможность двусмысленности поискового запроса.
Язык составления онтологических описаний
Для составления онтологических описаний в рамках создания онтогической поисковой системы Jewel была проведена разработка общего языка описания онтологий. В основе предлагаемого языка лежит фреймово-продукционный язык JFMDL из состава инструментария JULIA (Java Universal Library for Intelligent Applications), расширенный согласно вышеописанным положениям.
Язык позволяет производить онтологические описания HTML страниц, используя понятия: категория, условное правило, безусловное правило и концепт. Под онтологией HTML страницы (онтологией части предметной области, описываемой в странице) понимается описание некоторого ресурса, проводимое в терминах общего языка описания онтологий.
В целях повышения эффективности поиска онтологий и непротиворечивости их описания принимаются следующие соглашения:
- Каждая онтология HTML страницы предназначена для непосредственного описания той страницы, на которой она находится. Причем в теле страницы может быть определена только одна онтология.
- Каждая онтология обладает набором предопределенных свойств:
- именем, которое совпадает с физическим местоположением HTML страницы, в теле которой содержится описание онтологии;
- списком используемых онтологий (для описания категорий и правил создаваемой онтологии могут применяться категории и правила объявленных используемых онтологий) и их внутренних имен, ассоциированных с ними для удобства;
- кратким словесным описанием.
Для описания онтологии используется надмножество стандарта HTML, в котором расширяется стандартный тег
. . .Теперь любая страница, содержащая информацию о конкретном самолете, может быть дополнена онтологическим описанием, например, следующим образом:
Страница tu-154.php
. . .