Доклад на тему: "Онтологии в Интернет"

Вид материалаДоклад

Содержание


Онтологии и Web
Онтологические системы
Import library
Подобный материал:
Доклад на тему:

“Онтологии в Интернет”


студента группы МЭВд 52, Шарова О.Г.

Введение


Всемирная паутина Интернет стремительно "расползается" и "вплетается" буквально во все сферы жизни. Web становится все более мощным и важным источником информации. Средствам обработки данных в сети все труднее и труднее справляться с лавиной информации, уже существующей и добавляемой в сеть ежедневно. Кроме того, данные в Интернет организованы крайне стихийно и не систематично. Кроме серверов, поддерживаемых компаниями, фирмами, университетами и другими официальными организациями, на которых, в основном, представлена тематическая информация, более или менее структурированная, Web "населяют" домашние страницы, соединяющие в себе все что угодно. Такая дезорганизованность крайне затрудняет и запутывает процесс поиска нужной информации. Для выхода на новый уровень в использовании Интернет, в первую очередь, необходим переход к семантически значимому представлению информации в сети.

Онтологии и Web


Машины поиска и извлечения информации, такие как "Yahoo!", "Lycos", "Infoseek", используют механизм поиска по ключевым словам и не учитывают контекст, в котором существует информация. Аналогичные претензии можно адресовать и к тематическим каталогам, составленным вручную. Кроме того, что для их создания и сопровождения необходимо слишком много времени, существует диссонанс между критериями классификации понятий автора и пользователей.

Существует множество различных подходов к использованию технологий искусственного интеллекта для решения задачи поиска. Одним из возможных путей может стать аннотирование Web страниц дополнительной структурированной информацией об их содержании, которая в дальнейшем может быть использована поисковой машиной для определения релевантности запросу найденного Internet ресурса.

Идея создания расширенного HTML нашла воплощение в таком стандарте, как разработанный в W3С (интернациональный всемирный Web консорциум) язык XML (Extensible Markup Language). XML - язык для разметки синтаксической структуры документов, позволяющий благодаря спецификации синтаксиса, использовать такие документы множеству агентов, для которых данный формат является общим. Для того, чтобы аннотировать документы с помощью XML, разработан формат описания ресурсов RDF (Resource Description Framework). Мета-информация, определяемая форматом RDF, размещается как дополнительная страница или блок внутри каждой web-страницы (элементы web страницы не могут быть аннотированы прямо в тексте исходного документа, а должны быть повторены с дополнительной мета-информацией). Такой способ влечет за собой много трудностей из-за дублирования информации.

В работах [Dobson S.A., Burrill V.A., 1995] и [Loke S.W, Davison A., Sterling L., 1996] также предлагается расширить HTML с целью получения семантических индексов к информации, организованной в виде так называемых Lightweight Deductive Databases, где связи между отдельными страницами определяются гипертекстовыми ссылками с атрибутами. Дедуктивные базы данных являются расширением реляционных за счет применения правил логического программирования для более сложного представления данных.

Sandewall [1996] предлагает создать Всемирную базу данных (WorldWide Data Base), состоящую из файлов, которые содержат полученные из Интернет небольшие фрагменты документов с описанием содержащихся в них понятий в виде объектов. Объекты представляются на специальном языке и могут включать ссылки на другие объекты, HTML-документы в Интернет или файлы из самой базы данных.

Онтологические системы могут применяться для решения различных задач в сфере искусственного интеллекта, но, пожалуй, наиболее характерной сферой их применения является представление знаний в Интернет. Круг связанных с этим вопросов весьма широк и включает в себя мультиагентные системы, автоматическое извлечение знаний из текстов на естественном языке, поиск информации, интеллектуальное аннотирование, автоматическое составление авторефератов и проч.

Примером общей онтологической системы является CYC, разрабатываемой фирмой СYCorp [1995]. Проект включает в себя создание обширной онтологической системы, описывающей более чем 106 концептов и 105 аксиом. Для представления знаний фирма разработала специальный язык CYCL. Для вывода по онтологической базе знаний разработана специальная машина вывода. Основная цель этого проекта — построение обширной базы знаний обо всех общих понятиях практически во всех областях человеческой деятельности (common knowledge).

Другим примером использования онтологической системы является инициатива (KA)2 [1998] (Knowledge Annotation Initiative of the Knowledge Acquisition Community). Это международный проект, целью которого является организация интеллектуального поиска в Интернет и автоматическое накопление новых знаний. В этой инициативе выделяют следующие направления:
  • Аннотация web страниц интеллектуальной информацией.
  • Онтологический инжиниринг.
  • Организация интерфейса запросов и вывода по распределенной онтологии.

Авторы проекта SHOE [1997] предлагают аннотировать информацию, содержащуюся в HTML-документах, также используя онтологии. В SHOE "владельцы" информации могут сами аннотировать свои документы и расширять конкретную онтологию новыми понятиями. В этой системе центральный администратор онтологий не определен. Как следствие, давая запрос, пользователь может не знать все термины, которые используются для аннотации HTML-документов. Поэтому ответ на запрос может не содержать важную для пользователя информацию. (кафедра информатики университета в Мериленд (Department of computer Science of Maryland University ))

В проекте Ontobroker [1998] предлагается организация онтологии с автоматической аннотацией WWW-документов семантической информацией. Основная идея данного проекта - это использование метафоры группы по интересам (newsgroup), чтобы определить группу людей, у которых общий взгляд на понятия и их место в общей онтологии. В отличие от SHOE, в Ontobroker имеется администратор онтологий и клиенты могут узнать все термины онтологий. Созданный в рамках этого проекта специальный поисковый механизм Ontocrawler поддерживает полную коллекцию всех аннотированных с помощью Ontobroker HTML-страниц.

Общим для всех систем онтологического аннотирования является то, что в качестве аннотации веб-ресурса выступает специальным образом организованная предметная онтология, которая содержит структурированные знания об аннотированном ресурсе относительно некоторой метаонтологии предметной области. Можно предложить различные способы размещения онтологической информации о ресурсе: включить онтологическое описание в HTML код через введение новых HTML тегов, либо хранить онтологическое описание ресурса в отдельном файле в каком-либо специальном представлении.

Основная задача онтологического подхода состоит в том, чтобы облегчить пользователю поиск информации в большом наборе ресурсов за счет систематизации знаний, создания единой иерархии понятий, унификации терминов и правил интерпретации. Для описания онтологий можно использовать различные языки представления знаний, применяемые, например, в экспертных системах. В следующей работе предлагается использовать для составления онтологических описаний фреймово-продукционный способ представления знаний.

Как известно, фреймы — средство описания статических знаний, удобное для описания иерархии абстрактных и конкретных понятий, близкое к объектно-ориентированному подходу. Продукции, определенные над множеством фреймов и их слотов, позволяют описывать динамические знания.

В тоже время, применение фреймово-продукционных языков представления знаний в "чистом" виде недостаточно для организации эффективного онтологического поиска.

В данной работе предлагается модифицировать фреймовое представление знаний, явно разделив фреймы-образцы и фреймы-экземпляры, введя требование запретить изменять структуру или применять наследование к фреймам-экземплярам. В дальнейшем мы будем называть категорией фрейм-образец, а под концептом будем понимать фрейм-экземпляр. Категория во всем эквивалентна обычному фрейму, кроме того, что значения ее слотов воспринимаются концептами как значения по умолчанию, а концепт соответственно является точной копией своей категории с точностью до значений слотов и безусловных правил, явно присваивающих слоту его значение.

Внедрение подобного подхода позволяет существенно обогатить множество возможных поисковых запросов. Открывается возможность разделить поиск информации на два этапа: вначале изучается описание существующих явлений, а затем ведется поиск частных случаев изученных явлений. Это обстоятельство, при условии уникальности используемых имен, дает дополнительное преимущество, состоящее в том, что вводится принудительная унификация понятий в рамках одной предметной области, что исключает возможность двусмысленности поискового запроса.


Язык составления онтологических описаний


Для составления онтологических описаний в рамках создания онтогической поисковой системы Jewel была проведена разработка общего языка описания онтологий. В основе предлагаемого языка лежит фреймово-продукционный язык JFMDL из состава инструментария JULIA (Java Universal Library for Intelligent Applications), расширенный согласно вышеописанным положениям.

Язык позволяет производить онтологические описания HTML страниц, используя понятия: категория, условное правило, безусловное правило и концепт. Под онтологией HTML страницы (онтологией части предметной области, описываемой в странице) понимается описание некоторого ресурса, проводимое в терминах общего языка описания онтологий.

В целях повышения эффективности поиска онтологий и непротиворечивости их описания принимаются следующие соглашения:
  • Каждая онтология HTML страницы предназначена для непосредственного описания той страницы, на которой она находится. Причем в теле страницы может быть определена только одна онтология.
  • Каждая онтология обладает набором предопределенных свойств:
  • именем, которое совпадает с физическим местоположением HTML страницы, в теле которой содержится описание онтологии;
  • списком используемых онтологий (для описания категорий и правил создаваемой онтологии могут применяться категории и правила объявленных используемых онтологий) и их внутренних имен, ассоциированных с ними для удобства;
  • кратким словесным описанием.

Для описания онтологии используется надмножество стандарта HTML, в котором расширяется стандартный тег