Реферат: Система управления базами знаний
Система управления базами знаний. Управление информацией, данными, знаниями
Неструктурированные данные и информация в электронном виде сегодня растут
быстрее всего Ч их объем удваивается каждый год, и некоторые компании
буквально тонут в океане данных.
Информация - это отражение внешнего мира с помощью знаков или сигналов.
Информационная ценность сообщения заключается в новых сведениях, которые в нем
содержатся (в уменьшении незнания).
Управление информацией (УИ) стало одной из ключевых задач во всех отраслях,
и компании ищут способы сократить производственные расходы, позволяющие
эффективно управлять электронным содержимым хранилищ данных, среди них:
Управление информацией предприятия
Автоматическое архивирование
Создание многоуровневых хранилищ данных
Резервирование информации
Информация, с которой имеют дело ЭВМ, разделяется на процедурную и
декларативную. Процедурная информация овеществлена в программах,
которые выполняются в процессе решения задач, декларативная информация - в
данных, с которыми эти программы работают. Стандартной формой представления
информации в ЭВМ является машинное слово, состоящее из определенного
для данного типа ЭВМ числа двоичных разрядов - битов. Машинное слово
для представления данных и машинное слово для представления команд, образующих
программу, могут иметь одинаковое или разное число разрядов. В последнее время
для представления данных и команд используются одинаковые по числу разрядов
машинные слова. Однако в ряде случаев машинные слова разбиваются на группы по
восемь двоичных разрядов, которые называются байтами.
Одинаковое число разрядов в машинных словах для команд и данных позволяет
рассматривать их в ЭВМ в качестве одинаковых информационных единиц и выполнять
операции над командами, как над данными. Содержимое памяти образует
информационную базу.
В большинстве существующих ЭВМ возможно извлечение информации из любого
подмножества разрядов машинного слова вплоть до одного бита. Во многих ЭВМ
можно соединять два или более машинного слова в слово с большей длиной.
Однако машинное слово является основной характеристикой информационной базы,
т.к. его длина такова, что каждое машинное слово хранится в одной стандартной
ячейке памяти, снабженной индивидуальным именем - адресом ячейки. По этому
имени происходит извлечение информационных единиц из памяти ЭВМ и записи их в
нее.
Параллельно с развитием структуры ЭВМ происходило развитие информационных
структур для представления данных. Появились способы описания данных в виде
векторов и матриц, возникли списочные структуры, иерархические структуры. В
настоящее время в языках программирования высокого уровня используются
абстрактные типы данных, структура которых задается программистом. Появление
баз данных (БД) знаменовало собой еще один шаг на пути организации
работы с декларативной информацией. В базах данных могут одновременно храниться
большие объемы информации, а специальные средства, образующие систему
управления базами данных (СУБД), позволяют эффективно манипулировать с
данными, при необходимости извлекать их из базы данных и записывать их в нужном
порядке в базу.
База данных Ч это совокупность сведений (о реальных объектах,
процессах, событиях или явлениях), относящихся к определенной теме или задаче,
организованная таким образом, чтобы обеспечить удобное представление этой
совокупности как в целом, так и любой ее части. Реляционная база данных
представляет собой множество взаимосвязанных таблиц, каждая из которых содержит
информацию об объектах определенного типа. Каждая строка таблицы включает
данные об одном объекте (например, клиенте, автомобиле, документе), а столбцы
таблицы содержат различные характеристики этих объектов Ч атрибуты (например,
наименования и адреса клиентов, марки и цены автомобилей). Строки таблицы
называются записями; все записи имеют одинаковую структуру Ч они
состоят из полей, в которых хранятся атрибуты объекта. Каждое поле
записи содержит одну характеристику объекта и имеет строго определенный тип
данных (например, текстовая строка, число, дата). Все записи имеют одни и
те же поля, только в них содержатся разные значения атрибутов.
Система моделирования бизнес-процессов должна обладать искусственным
интеллектом (ИИ). Внедрение такой системы должно оставить за человеком только
творческие задачи, полностью автоматизировав рутинные операции по управлению
современным предприятием.
Такая система должна обладать знаниями и способностями, сопоставимыми с
бизнес-аналитиком среднего уровня. Это означает, что система управления базой
знаний (именно знаний, а не данных) должна обеспечить представление и
обработку модели бизнес-процесса, сопоставимой по своей сложности с моделью
бизнес-процесса, используемой сознанием человека.
В ЭВМ знания так же, как и данные, отображаются в
знаковой форме - в виде формул, текста, файлов, информационных массивов и т.п.
Поэтому можно сказать, что знания - это особым образом организованные данные.
Но это было бы слишком узкое понимание. А между тем, в системах ИИ знания
являются основным объектом формирования, обработки и исследования. База
знаний, наравне с базой данных, - необходимая составляющая программного
комплекса искусственного интеллекта.
База знаний - совокупность систематизированных основополагающих сведений,
относящихся к определённой области знания, хранящихся в памяти ЭВМ, объём
которых необходим и достаточен для решения заданного круга теоретических или
практических задач. В системе управления БЗ используются методы искусственного
интеллекта, специальные языки описания знаний, интеллектуальный интерфейс.
Машины, реализующие алгоритмы искусственного интеллекта, называются
машинами, основанными на знаниях, а подраздел теории искусственного
интеллекта, связанный с построением экспертных систем, - инженерией знаний
.
Знания о предметной области, ее объектах и закономерностях описываются на
некотором формальном языке, называемом языком представления знаний (ЯПЗ). При
этом, ЯПЗ должен обеспечивать не только возможность формальной записи знаний,
но и необходимую обработку элементов этой записи. Совокупность знаний,
хранящаяся во внешней памяти ЭВМ, называется системой знаний; над ней
производятся различные операции: поиск необходимой информации, ее
модификация, интерпретация знаний, вывод новых знаний на основе имеющихся и
т.д. Организация интеллектуальных компьютерных систем работы со знаниями в
той или иной прикладной области зависят не только от специфики самих систем,
но и в существенной мере от используемых ЯПЗ и метода хранения системы знаний
в ЭВМ. В современных ИИ-системах знания хранятся в специальных БД - базах
знаний (БЗ). Существует самая непосредственная аналогия между понятиями
модель данных, используемая в БД-технологии и понятием способ представления
знаний в БЗ-технологии. Грубо говоря, можно сказать, что если БД содержит
собственно данные о некоторой предметной области, то БЗ содержит как сами
данные, так и описание их свойств. Однако между БД и БЗ существуют
принципиальные различия, рассматриваемые ниже
Процесс построения БЗ на основе информации эксперта состоит из трех этапов:
описание предметной области, выбор способа и модели представления знаний и
приобретение знаний. Сам процесс построения БЗ достаточно сложен, как
правило, плохо структурирован и носит итеративный характер, заключающийся в
циклической модификации БЗ на основе результатов ее тестирования. На первом
шаге построения БЗ четко очерчивается предметная область, на решение задач из
которой ориентируется проектируемая ЭС, т.е. инженер знаний определяет
область применения будущей системы и класс решаемых ею задач. В перечень
работ данного шага входят: (1) определение характера решаемых ЭС задач и
основных понятий, объектов предметной области, а также отношений между ними;
(2) установление специфических особенностей предметной области и (3) выбор
модели представления знаний. После решения первых двух вопросов инженер
знаний формально описывает предметную область на языке представления знаний
(ЯПЗ), т.е. создает модель представления знаний. В настоящее время
универсальный способ представления знаний отсутствует, поэтому инженер знаний
должен максимально учитывать специфику исходной предметной области.
Полученная после формализации предметной области БЗ может быть уже конкретно
реализована программными средствами, например на ЯВУ таких, как
Pascal,C,Prolog,Fortran,Forth и др.
Модели представления знаний.
Во многих случаях для принятия решений в той или иной области человеческой
деятельности неизвестен алгоритм решения, т.е. отсутствует четкая
последовательность действий, заведомо приводящих к необходимому результату.
Совокупность знаний нужных для принятия решений, принято называть предметной
областью или знаниями о предметной области.
В любой предметной области есть свои понятия и связи между ними, своя
терминология, свои законы, связывающие между собой объекты данных предметной
области, свои процессы и события. Кроме того, каждая предметная область имеет
свои методы решения задач.
Решая задачи такого вида на ЭВМ используют ИС, ядром которых являются базы
знаний, содержащие основные характеристики предметных областей.
При построении баз знаний традиционные языки, основанные на численном
представлении данных являются неэффективными. Для этого используются
специальные языки представления знаний, основанные на символьном
представлении данных. Они делятся на типы по формальным моделям представления
знаний:
- продукционные модели
- логические модели
- сетевые модели
- фреймовые модели
Продукционные и логические модели:
Знания в таких моделях представляются в следующей форме: лЕсли А, то В.
Вместо А и В могут стоять некоторые утверждения, факты, приказы и т.д.
Например: лЕсли диагонали четырехугольника пересекаются под прямым углом, то
этот четырехугольник ромб.
Из примера видно что правило состоит из двух частей: посылки (условия) и
следствия (заключения). Если А (посылка) имеет место, то В (следствие) также
реализуется или может быть реализовано. Посылка может состоять и из
нескольких частей т.е: лЕсли А1,А2,..,АN то В.
Запись правила означает, что лЕсли все посылки от А1 до АN истинны, то
следствие В также истинно. Посылки А1..АN есть простые посылки они соединяются
с помощью союзов: и, или и могут содержать отрицание не. При
реализации правил такого вида из одной или нескольких посылок (знаний) могут
быть получены новые знания, поэтому они называются продукционными.
В основе сетевых моделей представления знаний лежит идея о том, что любые
знания можно представить в виде совокупности объектов (понятий) и связей
(отношений) между ними. В отличие от продукционных эти модели более наглядны,
поскольку любой пример можно представить в виде ориентированного
(направленного) графа.
В зависимости от типов связей, используемых в модели, различают
классифицирующие сети, функциональные сети и сценарии.
Система управления базами знаний Ц это объектная БД с возможностями
интеллектуального поиска и автоматического переупорядочивания структуры в
зависимости от действий пользователей - по сути обучение, возможно и иное с web
interface-ом и хорошо бы с интегрированным средством планирования/управления.
Характерные черты:
Иерархическая организация знаний
Специализированные средства для обработки конструкторских данных и
знаний
Специализированный инструментарий для работы с деревьями составов
Средства реорганизации и адаптации баз знаний к специфике задач
Расширяемая библиотека функций и команд для разработки приложений
Система управления базой знаний (СУБЗ) объектно-ориентированной обладает
следующими возможностями:
Сохранять текущее состояние графа объектов или нейронной сети в СООБЗ между
сеансами работы с пользователем. В том числе сохраняется текущая топология
сети объектов. При повторном запуске приложения не понадобится создавать сеть
объектов заново.
При большем количестве экземпляров объектов ограничить объем памяти,
используемый графом объектов или нейронной сетью. Наиболее часто используемые
объекты остаются в оперативной памяти, остальные вытесняются в файловое
хранилище и загружаются в оперативную память по мере необходимости. При
загрузке экземпляра в оперативную память он вытесняет другие, редко
используемые объекты.
Ограничение объема памяти позволяет избавиться от использования файла
подкачки операционной системы, что значительно повышает производительность
моделирования сетей с большим количеством экземпляров объектов (при суммарном
размере всех экземпляров большем, чем размер текущей свободной памяти в
системе)
В случае, если объем сети объектов меньше чем размер текущей свободной памяти
в системе, вся сеть находится в оперативной памяти и потерь
производительности, связанных с сериализацией - десериализацией не возникает.
Применение СООБЗ не накладывает никаких ограничений на используемую бизнес
логику или математическую модель нейрона, которую можно реализовать как
методы объектов, находящихся в СООБЗ. Единственное требование - организовать
связи между объектами в сети не с помощью указателей, а с помощью ID
объектов. При этом будет необходимо получать указатель на объект используя
API СООБЗ.
Для работы с данными используются системы управления базами данных
(СУБД). Основные функции СУБД Ч это определение данных (описание
структуры баз данных), обработка данных и управление данными.
Система управления базами данных (СУБД) данных представляет собой
программное обеспечение, которое управляет доступом к базе данных. Это
происходит следующим образом:
1. Пользователь выдает запрос на доступ к БД, применяя определенный
подъязык данных (например, SQL).
2. СУБД перехватывает этот запрос и анализирует его.
3. СУБД просматривает внешнюю схему для этого пользователя,
соответствующее отображение внешний Ц концептуальный, концептуальную схему,
отображение концептуальный Ц внутренний и определение структуры хранения
данных.
4. СУБД выполняет необходимые операции над хранимой базой данных.
Система управления баз данных.
С многоуровневым разграничением доступа. Известно, что в MLS/DBMS не ко всем
данным, содержащимся в базе данных, доступ осуществляется одинаково. Однако
современные СУБД, как правило, не имеют адекватных средств диагностики и
механизма определения того, что пользователь имеет возможность доступа только
к тем данным, которые являются релевантными. Таким образом, MLS/DBMS
отличается от соответствующих DBMS, по крайней мере, следующими двумя
особенностями: каждый элемент данных в базе данных связан с уровнем
доступа; доступ пользователя к данным должен контролироваться релевантностью
для данного пользователя.
Разработка сервиса MLS/DBMS в современных компьютерных системах представляет
много проблем. До настоящего времени внедрение многоуровневого разграничения
доступа в операционную систему представляет собой значительные трудности.
Решение этой проблемы в виде аббревиатуры обозначается ТСВ. Хотя в разрешении
вопросов ТСВ для удаленных пользователей в MLS/DBMS вводятся компромиссы,
остается много проблем, которые требуется разрешать. Наиболее очевидная
проблема состоит в том, что вопросы классификации в СУБД значительно
сложнее, чем в файловых системах и могут быть сложнее реализованы. Другая
проблема состоит в том, что для классификации данных, содержащих
контекстные представления, временные параметры, их композицию, необходимы
унифицированные базы данных.
Любая СУБД позволяет выполнять четыре простейшие операции с данными:
- добавлять в таблицу одну или несколько записей;
-
удалять из таблицы одну или несколько записей;
-
обновлять значения некоторых полей в одной или нескольких записях;
-
находить одну или несколько записей, удовлетворяющих заданному
условию.
Для выполнения этих операций используется механизм
запросов. Результатом
выполнения запросов является либо отобранное по определенным критериям
множество записей, либо изменения в таблицах. Запросы к базе формируются на
специально созданном для этого языке, который так и называется
язык
структурированных запросов (SQL Ч Structured Query Language).
И последняя функция СУБД Ч это управление данными. Под управлением данными
обычно понимают защиту данных от несанкционированного доступа, поддержку
многопользовательского режима работы с данными и обеспечение целостности и
согласованности данных.
Защита от несанкционированного доступа обычно позволяет каждому пользователю
видеть и изменять только те данные, которые ему разрешено видеть или менять.
Средства, обеспечивающие многопользовательскую работу, не позволяют
нескольким пользователям одновременно изменять одни и те же данные. Средства
обеспечения целостности и согласованности данных не дают выполнять такие
изменения, после которых данные могут оказаться несогласованными. Например,
когда две таблицы связаны отношением "один-ко-многим", нельзя внести запись в
таблицу на стороне "многие" (ее обычно называют подчиненной), если в таблице
на стороне "один" (главной) отсутствует соответствующая запись.
Список литературы
1. Бойко В.В., Савинков В.М. Проектирование баз данных информационных
систем. М.: Финансы и статистика, 1989.
2. Диго С.М. Проектирование и использование БД: Учебник для студентов
вузов. М.: Финансы и статистика, 1995.
3. Уотермен Д. Руководство по экспертным системам. М.: Мир, 1989.
4. Поспелов Г.С. Искусственный интеллект Ц основа информационной
технологии. М.: Наука, 1988.
5. Компьютерные технологии обработки информации: Учебное пособие /Под
ред. С.В. Назарова. - М.: Финансы и статистика, 1995.
6. Прикладные нечеткие системы / Под ред. Т. Тэрано - М: Мир, 1993. - 512 с.
7. Румянцева З.П. и др. 17-модульная программа для менеджеров УУправление
развитием организацииФ. - М.: ИНФРА-М, 1999.
8. Стонхаус Дж. Управление организационным знанием // Менеджмент в России
и за рубежом. - 1998. - №4. - С. 14-26