Априорная модель данных в реляционных базах
Вид материала | Документы |
СодержаниеИзмеряемые величины Философское отступление |
- Петербургский Государственный Университет Математико-Механический Факультет Кафедра, 596.99kb.
- Курс, 1 поток, 5-й семестр лекции (34 часа), экзамен, 52.85kb.
- Реферат по информатике студентки 1 курса группы, 370.55kb.
- Понятия о базах данных и системах управления ими. Классификация баз данных. Основные, 222.31kb.
- Работа с базами данных, 3447.07kb.
- «Базы данных» Общая трудоемкость изучения дисциплины составляет, 138.01kb.
- Е. П. Балакина Рекомендовано редакционно-издательским, 466.14kb.
- Ответы на экзаменационные вопросы интернет-курсов интуит (intuit): 365. Основы проектирования, 215.61kb.
- Методические указания к курсовому проектированию по курсу "Базы данных" Составитель:, 602.97kb.
- Реляционная модель данных в системах управления базами данных, 200.05kb.
Априорная модель данных в реляционных базах
Курбатов С.С.
Аннотация
Предлагается организация априорной модели, позволяющей на высоком концептуальном уровне описывать как данные, так и схемы в реляционных базах. Отмечается отличие априорной модели от обычных концептуальных описаний данных. В текущем варианте модель ориентирована на описание физических объектов и включает такие понятия как “время”, “расстояние” и т.п. В прикладных целях первоочередным описываемым понятием выбрана “измеряемая величина”. Разработаны механизмы автоматической детализации модели путем сканирования естественно-языковых текстов.
Введение
В работах [1,2] описаны априорные знания о естественном языке (ЕЯ), закладываемые в систему разработчиком (морфологические и синтаксические классы, основы и т.п.) и механизмы автоматического анализа незнакомых системе словоформ путем выдвижения предположений и их проверки с использованием произвольных ЕЯ-текстов. В работе [2] намечена также организация эталонной базы для описания объектов прикладных областей. Идеология организации базы и стиль взаимодействия с ней в основном базируются на классических работах [4,5,6] . При проверке предположений о схеме базы данных используются механизмы, аналогичные описанным в [3].
В данной работе рассматриваются идеологические детали эталонной базы и развивается аналогичный подход автоматического извлечения из ЕЯ-текстов информации, детализирующей априорные знания. При этом ЕЯ-тексты анализируются с использованием морфологии и синтаксиса, описанных в [1,2]. Поскольку в реляционных БД могут храниться весьма разнообразные объекты, в качестве первоочередных выбирались некоторые, обладающие достаточной общностью и/или практической значимостью, в частности: единицы измерения, валюты, сведения о времени, географические сведения и т.п.). Множество таких объектов не фиксировано и его предполагается в дальнейшем расширять.
Эталонная база реализует априорную модель и разрабатывается как стандартная реляционная СУБД. Отметим, что обычное концептуальное описание данных организуется как надстройка над конкретной СУБД и поэтому обладает ограниченной общностью. В отличие от этого априорная модель ориентирована на максимальную общность описания. В схеме априорной модели можно выделить таблицы, определяющие схему модели мира (заполняются разработчиком) и таблицы, реализующие собственно модель мира (в основном должны заполняться путем сканирования ЕЯ-текстов).
Измеряемые величины
Ориентация на прикладные задачи (автоматизированное построение ЕЯ-интерфейса для баз данных и экспертных систем) диктует выбор объектов-концептов, но не определяет общность их представления. В текущей реализации эталонной базы в эскизном варианте разработаны таблицы для представления материальных объектов, их свойств и отношений и более детально разработаны таблицы для представления единиц измерения. Это представление базируется на понятии “измеряемая величина”, а при представлении последней используются наиболее общие понятия: <время>, <расстояние>, <масса>, <сила>, <температура> и т.д.
Опуская ряд технических деталей приведем упрощенный фрагмент таблицы “ априорные измеряемые величины” :
№ | ЯПЗ-описание | ЕЯ-описание | Базовая единица | Эвристики “измер” | Аксиома-тика |
1 | <время> | время | секунда | | |
2 | <расстояние> | длина | метр | | |
3 | < масса > | масса | грамм | | |
4 | < сила > | сила | ньютон | | |
5 | <температура > | температура | градус | | |
Фгагмент таблицы “эмпирические измеряемые величины”:
№ | Ссылка на Измер.вел. | ЯПЗ-описание ссылки | ЕЯ-описание | Соотношение с базовой ед. | Размытое описание |
25 | 1 | № измеряемой величины = 1 <время> | час | 3600 | Нет |
55 | 1 | № измеряемой величины = 1 <время> | утро | Несколько часов | Часть суток |
Элементы таблицы “измеряемые величины” (априорные) заносятся разработчиком, элементы таблицы “эмпирические измеряемые величины” формируются автоматически путем сканирования ЕЯ-текстов. При формировании используются эвристики, как общие для любых измеряемых величин, так и специфичные для данной (априорной) величины.
Примеры эвристик:
1) Если есть ЕЯ-контекст “
То
2) Если есть ЕЯ-контекст “
и “
То
3) “
Нахождение ЕЯ-контекстов выполняется в 2 этапа – на первом находятся вхождения ключевой основы (например “измер”), на втором используется упрощеннный морфо-синтаксический анализ для сопоставления синтаксической структуры правила со структурой предложения, содержащего вхождения ключевой основы. Результаты успешного применения эвристики фиксируются в таблице “эмпирические измеряемые величины”, а информация об умозаключении (основания, данные за/против, комментарии) в общей таблице гипотез.
Подчеркнем, что такое представление ориентировано, во-первых, на фундаментальные свойства измеряемых величин, а во-вторых, на механизмы автоматической детализации априорных измеряемых величин путем нахождения фрагментов ЕЯ-фраз, позволяющих выдвинуть эмпирические предположения (пусть неполные, а возможно и ошибочные). Именно эти особенности являются центральным моментом развиваемого подхода. Пример пусть и весьма общего, но стандартного подходе: ввод всех единиц измерения системы СИ, дополненного наиболее распространенными нестандартными единицами и наличие формального интерфейса, позволяющего вводить новые единицы.
В отличие от такого стандартного подхода целью вышеописанного представления является не только фундаментальность и автоматическая детализация, но и общность механизмов выдвижения и верификации предположений на основе произвольных ЕЯ-текстов. Работа с эвристиками в виде ЕЯ-подобных структур для “измеряемых величин“ в значительной степени аналогична работе с такими же эвристиками для предположений о морфологических и синтаксических характеристиках словоформ. При этом структура таблицы гипотез ориентирована на максимальную независимость от содержательной интерпретации предположений (гипотез).
Поле “Ссылка на Измер.вел.” фрагмента таблицы “эмпирические измеряемые величины” является стандартным внешним ключом, ссылающимся на первичный ключ таблицы “ априорные измеряемые величины”. Однако помимо этой стандартной ссылки, которая должна быть интерпретирована программными средствами СУБД, в следующем поле содержится семантическое описание, предназначенное для интерпретации механизмами языка представления знаний. Такое представление ориентировано на тесное взаимодействие программных средств баз данных и языков представления знаний, обеспечение “семантичности” базы данных на уровне нестандартного поиска.
В поле “аксиоматика” содержится ссылка на множества правил, задающих наиболее общие свойства измеряемой величины. Эти правила непосредственно не используются при автоматическом формировании “эмпирических измеряемых величин”, предполагается, что они будут использованы в дальнейшем при семантическом анализе ЕЯ-текстов. Поскольку таблица приведена в упрощенном виде, некоторые поля (в частности определяющие физические/абстрактные свойства величины) опущены. Отметим, что допускается большая степень неопределенности при выдвижении предположений, в частности не требуется обязательного отнесения эмпирической измеряемой величины к априорной и обязательного соотношения с базовой единицей.
Философское отступление
Наименование “аксиоматика” следует понимать метафорически, формальность правил обусловлена их программной реализацией, однако эта аксиоматизация задает достаточно грубую модель мира. Априорность такой модели понимается в том смысле, что данные правила не модифицирутся системой в процессе ее работы. Все уточнения модели мира, формируемые системой путем сканирования ЕЯ-текстов, образуют надстройку над базовой (априорной) моделью. Последовательное проведение этого принципа ведет к важным результатам.
Наивная аксиоматика, отражая воприятие мира человеком, не накладывает априорно количественных ограничений на физические процессы. Однако развитие науки выявляет эти ограничения путем исследований и эксперимента. Наиболее яркие примеры дают нам теория относительности, неевклидова геометрия и принцип неопределенности. Абстрактный подход не предполагает органичений на скорость движения материальных тел, однако опыт заставляет ввести постулат о максимально возможной в природе скорости (света). Выводы из такого опровержения существенно уточняют физическую картину мира, заставляя по-новому рассматривать не только массу и размеры объектов, но и такую фундаментальную категорию как время.
Безуспешные (на протяжении многих столетий!) попытки доказать 5-ый постулат Евклида привели в конечном итоге к невозможности доказать его чисто логическими средствами. Оказалось, что геометрия, в которой 5-ый постулат формулируется в противоречии с нашей интуицией (через точку вне данной прямой можно провести более одной прямой, параллельной данной), совершенно равноправна с обычной, евклидовой геометрией. Ответ же на вопрос, какая геометрия справедлива в нашем мире, пока остается открытым, но искать его возможно только опытном путем.
Также как и в случае отсутствия логических ограничений на скорость материальных объектов, при абстрактном подходе допустимо определять скорость и координаты материального объекта с произвольной точностью. Однако опытным путем было установлено и зафиксировано в принципе неопределенности, что произведение точности координат и точности скорости материального объекта превосходит некоторую величину (постоянную Планка). Таким образом при очень большой точности определения скорости, точность определения скорости (импульса) оказывается физически ограниченной.
Таким образом наивная модель мира, отражая непосредственное восприятие действительности человеком, существенно уточняется “надстроечной” моделью в виде физических теорий. Проектируемая в системе модель предполагает такое же соотношение априорной модели и модели, формируемой из “внешнего мира” – мира ЕЯ-текстов.
С чисто прикладной точки важно зрения важно, чтобы объекты, свойства и отношения имели описание их представления в базе данных, т.е. таблиц, полей и значений. Однако помимо такого, важного, но в целом утилитарного описания, важно иметь описание объектов на высоком понятийном уровне. Будем пока говорить в основном о физических объектах. Дискретизация на объекты в физическом мире в первом приближении существенно опирается на различие в физических свойствах и способности изменять положение в пространстве. Условность такой дискретизации обусловлена нашим восприятием мира с помощью органов чувств, если бы мы видели мир на молекулярном уровне, то наша дискретизация на объекты существенно бы изменилась.
Восприятие объекта обусловлено его целостностью, а последняя (с фундаментально-физической точки зрения ) связана с рассмотрением материального объекта – как совокупности притягивающихся и отталкивающихся точек. Силы притяжения и отталкивания изменяются с расстоянием, их равновесие и определяет целостность материального объекта! Фундаментально понятие силы, именно через него определяются притяжение и отталкивание. Поэтому целостность относительна, находящийся внутри человека осколок снаряда не определяет целостность организма, но о штырях, скрепляющих кости при переломах, такое же утверждение спорно.
Относительна например наша дискретизация на твердые, жидкие и газообразные объекты, она неявно предполагает нормальные физические условия, а это вего лишь наша абстракция, с точки зрения природы диапазоны температуры, давления и т.д. равноправны. При некоторой температуре (абсолютный нуль) практически все тела – твердые, а при очень высоких – газообразные.
Свойства объектов привносятся человеком, ибо в конечном счете они важны для его выживания (твердый/мягкий, быстрый/медленный, сильный/слабый и т.). Аналогичное можно сказать и об отношениях (больше/меньше, скреплены, рядом/далеко, справа/слева и т.д.). Аксиоматика этих отношений (транзитивность, симметричность и т.п.) в конечном счете обусловлена физическими причинами, именно они (а не абстракции!) определяют фундаментальные свойства мира.
Иерархии
Фундаментальное описание иерархий в качестве основы рассматривает иерахию “часть-целое”, естественно выделяемую в физическом мире. Аксиоматика этой иерархии должна прежде всего описывать такое свойство как “часть не больше целого”, причем в физическом смысле это означает “размеры части не больше размеров целого” и “масса части не больше массы целого”. Более тонкие свойства могут описывать вхождение веществ в целое и части (или невхождение), перемещение целого и части и т.п. При всей тривиальности этих утверждений (с точки зрения человека), они играют большую роль при выдвижении и проверки предположений об объектах, хранимых в базах данных. Значения полей таблиц задают статистику, позволяющую позволяющую получить значительно больше информации о хранимых в базе объектах, чем это может показаться на первый взгляд.
Описание объектов, свойств и иерархий в качестве обязательной компоненты содержит ссылку на представление объекта в РБД. Т.е. описание иерархии в модели и ее представление в базе. Для больших иерархий целесообразно иметь схемное описание с примерами на нижнем уровне и ссылкой на источник элементов нижнего уровня (таблица БД, тексты информационного характера – словари, справочники, учебники и т.п.).
Средства описания иерархий в эталонной базе включает как системное описание
иерархий, так и описание представления иерархий в рабочей СУБД (соответствие, если оно есть, также может быть описано). Системные иерархии формируются автоматически путем выдвижения гипотез и их проверки на произвольных ЕЯ-текстах (в основном на энциклопедии).
Системное описание включает две таблицы: первая задает наименование иерархии, ее уникальный номер и ссылку на таблицу гипотез (сформировавших данную иерархию), вторая определяет собственно иерархию (ссылка на первую таблицу, ссылку “вверх” на “предка”, и т.д.). Описание представления в СУБД включает операторы SELECT для выбора уникального “листа”, для выбора класса по заданному “листу”, для выбора надкласса по заданному классу и возможно SELECT операторы для выбора ЕЯ-наименований “листьев” и классов. Описание системных таблиц также могут быть включены в такое представление.
Наличие вышеприведенных описаний позволяет в первом приближении ввести понятие “материальный объект” с характеристиками типа “физическая локализация”, “временная локализация”, “вхождение в иерархию часть-целое …”, “физические свойства”. Для выделения материального объекта и его характеристик путем сканирования текстов предполагается использовать те же механизмы выдвижения и верификации гипотез, что и для работы с измеряемыми величинами (и для выявления морфо-синтаксических характеристик). В настоящее время ведутся программные эксперименты, позволяющие автоматически выявлять характеристики материального объекта.
Вопрос об автоматическом формировании глобальной иереархии “большое-малое” для материальных объектов типа “метагалактика - галактика – солнечная система – планета Земля – материк – страна – город – улица – дом – квартира – человек – мышь – муравей – инфузория – клетка – ДНК – молекула – атом – электрон - кварк ” с автоматическим же определением диапазона расстояний или такой спектр следует занести заранее также является предметом экспериментов.
ЛИТЕРАТУРА
1. С.С. Курбатов. Автоматизированное построение естественно-языкового интерфейса
для реляционных баз данных, Новости искусственного интеллекта № 2, М., Анахарсис, 2002, С. 17-21.
2. С.С. Курбатов. Формирование концептуальной модели для реляционных баз данных
на основе анализа естественно-языковых текстов, Международный конгресс
“Искусственный интеллект в XXI веке”, ICAI’ 2002, М., Физматлит, 2002, С.
3. С.С. Курбатов, Э.В. Попов, Автоматическое формирование SQL-программы по
структурированному описанию запроса к базе данных на естественном языке, ICAI’2001, т.1, стр. 133-139.
4. Э.В. Попов, Общение с ЭВМ на естественном языке, М., Наука, 1982
5. Мельчук И.А. Опыт теории лингвистических моделей "Смысл-Текст". М.: Наука,1974..
6. Ю. Н. Караулов Лингвистическое конструирование и тезаурус литературного языка, АН СССР.Ин-т языкознания.-М.: Наука, 1981.-364с.