А. В. Брешенков Проектирование баз данных на основе информации табличного вида Допущено в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлению подготовки диплом

Вид материалаДиплом

Содержание


1. Анализ проблемы проектирования реляционных баз данных на основе использования информации табличного вида
Подобный материал:
1   2   3   4   5   6   7   8   9   ...   28

ПРЕДИСЛОВИЕ



Сегодня трудно переоценить значение информации и информационных систем. Особое место в составе информационных систем принадлежит базам данных (БД). В настоящее время осталось мало таких областей человеческой деятельности, где бы не использовались БД. При этом потребность в БД и в системах управления базами данных (СУБД) постоянно растет.

К числу наиболее распространенных моделей построения БД относятся реляционные модели. Достоинства реляционной модели побудили к проведению большого числа теоретических и практических разработок в области теории проектирования реляционных БД, в области инструментальных средств, ориентированных на создание реляционных БД.

Однако до сих пор существуют значительные объемы информации, которые желательно использовать в составе реляционных БД, но по своему представлению информация не удовлетворяет требованиям этих БД. Так как ценность накопленной информации зачастую превосходит ценность БД и СУБД, то существует потребность в методах и средствах, которые позволят обеспечить преобразование информации нереляционного вида в реляционные БД. Этим вопросам и посвящена работа.

Глава 1 посвящена анализу проблемы проектирования реляционных баз данных на основе использования информации табличного вида. Вводится понятие информации табличного вида, обсуждаются мотивы преобразования информации табличного вида в файлы реляци­онных баз данных, рассматриваются основные требования к средствам преобразования информации табличного вида в реляционные таблицы, рассматриваются задачи проектирования реляционных баз данных на основе использования информации табличного вида.

В главе 2 изложена постановка задачи проектирования реляционных баз данных на основе использования существующей информации табличного вида, рассмотрены укрупненные модели реляционной БД и информации табличного вида, сформулированы задачи преобразования заполненных нереляционных таблиц в реляционные таблицы.

В главе 3 анализируются проблемы преобразования нереляционных таблиц в реляционные таблицы, анализируются проблемы приведения значений атрибутов заполненных таблиц к одному типу.

В главе 4 рассмотрены методы нормализации заполненных реляционных таблиц. В частности, сформулированы проблемы нормализации, описаны методы приведения заполненных таблиц к первой, второй, третьей и четвертой нормальным формам.

Глава 5 посвящена методу назначения ключевых полей в заполненных нереляционных таблицах.

В главе 6 рассмотрены методы выявления и формирования связей между заполненными таблицами. В частности, связей один - к одному, связей один - ко многим, связей многие - ко многим.

В главе 7 выполнен анализ ситуаций, при которых возникает необходимость объединения заполненных реляционных таблиц, приведен алгоритм объединения таблиц.


1. АНАЛИЗ ПРОБЛЕМЫ ПРОЕКТИРОВАНИЯ РЕЛЯЦИОННЫХ БАЗ ДАННЫХ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ ИНФОРМАЦИИ ТАБЛИЧНОГО ВИДА




1.1. Понятие информации табличного вида



Под информацией табличного вида понимается информация, которая интерпре­тируется заинтересованными в ней людьми двумерными таблицами. При этом интуитивно или формально выделяются столбцы таблицы, ее строки и заго­ловки столбцов. Это могут быть словари, каталоги, прайс-листы, ведомости, табели учета и др. Во всех сферах человеческой деятельности, связанных с обработкой документов различного типа, широко используется информация табличного вида. Например: ведомости зарплат, прайс-листы, каталоги, ведомости экзаменов, справочники и т.д. Представление информации в таком виде на­столько популярно, что это способствовало появлению целого класса программных сис­тем, специально ориентированных на работу с табличной информацией - электрон­ных таблиц, которые по распространенности уступают только текстовым процессо­рам.

Форма представления информации табличного вида может быть самой различной: на бумаге, в виде текстового файла, в виде файла электронных таблиц и др. Вид представления информации табличного вида также самый разнообразный. В частности, разделителями столбцов и строк могут быть обычные символы, специ­альные символы, непечатаемые символы, линии или пробелы. Разделители могут и отсутство­вать. В этом случае подразумевается, что пользователь может интуитивно выделить строки и столбцы, например, правые и левые границы ячеек выровнены, а начало следующей строки таблицы определяется самой широкой ячейкой предыдущей строки. Заголовки столбцов могут иметь или не иметь подзаголовки, а те, в свою очередь, подзаголовки более низкого уровня. Информация, принадлежащая заголов­кам и информационным единицам, может располагаться в одной или нескольких строках ячейки. Информация табличного вида может быть сгруппирована в соответ­ствии с различными критериями, и тогда внутри таблиц появляются подзаголовки. Информация, расположенная в ячейках одного столбца не всегда одного типа. На­пример, срок поставки может быть указан в формате даты или в текстовом формате. Строго говоря, информация такого вида не всегда является данными - информацией, фиксированной в определенной форме. Это и многое другое обуславливают, с одной стороны, не всегда однозначное восприятие и интерпретацию информации ее потре­бителями, а с другой стороны зачастую приводит к невозможности ее автоматизиро­ванной обработки.

На рис.1.1 приведена типичная таблица каталога, набранная в текстовом редакторе.




Рис. 1.1. Таблица каталога, набранная в текстовом редакторе

В ней нет разделителей заголовков, нет разделите­лей строк, присутствуют подзаголовки. Все эти разделители интуитивно воспринимаются человеком, но представляют неразрешимую проблему для компьютера. Ни одно из существующих программных средств не переведет эту таблицу хотя бы в формат электронных таблиц, не говоря уже о том, чтобы получить реляционную таблицу, которую можно сразу использовать в существующей БД или вновь проектируемой.

На рис.1.2. представлен результат импорта этого текстового файла в формат электронной таблицы Microsoft Excel.




Рис.1.2. Результат импорта текстового файла в формат электронной таблицы Microsoft Excel


Результат говорит сам за себя: несколько столбцов объединились, а некоторые остались раздельными. Из-за отсутствия разделителей строк в результирующей таблице смешаны строки, и понять, какие данные относятся к какой строке практически невозможно.

Несколько лучше выглядит результат импорта в формат Microsoft Excel той же таблицы, если она была предварительно сформирована в формате Microsoft Word. На рис. 1.3 представлен результат импорта файла в формате Microsoft Word в формат электронной таблицы Microsoft Excel. В данном случае просматриваются столбцы таблицы. Однако заголовки столбцов смещены, расположены в нескольких ячейках.




Рис. 1.3. Результат импорта файла формата Microsoft Word в формат электронной таблицы Microsoft Excel


На рис.1.4 приведена таблица, в которой один столбец содержит информацию разного типа: текстовую и цифровую.




Рис.1.4. Таблица с данными различного типа в одном столбце


Перевод такой таблицы в формат реляционной таблицы базы данных в автоматическом режиме в принципе невозможен без корректировки данных оператором.