План Базы данных как средство от информационного хаоса. Основные технологические этапы создания бд и их характеристики

Вид материалаДокументы

Содержание


Основные технологические этапы создания БД и их характеристики
Сбор данных от источника данных
Краткая история развития технических средств и технологий для хранения и ввода данных в ЭВМ
Влияние характеристик информации на затраты, связанные с ее получением и ценностью информации
Влияние на ценность информации
Web – технологии
В хранилище данных накапливаются данные из одной или более БД. Хранилища создаются также для защиты от физических потерь информа
оригинала массива исходных данных, поступивших от источника (наблюдательных платформ)
расчетных БД – климатических (статистических) характеристик среды
Технологии ввода данных
Развитие идеологии БД
Основными компонентами системы баз данных являются
Базы знаний
Возможности поиска данных –
Рис. 1. Сравнение представления данных и знаний в ЭВМ
Рис.2. Трехуровневая модель хранения данных
Подобный материал:

I. РАЗВИТИЕ ПРОГРАММНО–ТЕХНИЧЕСКИХ
СИСТЕМ И БАЗ ДАННЫХ


План

Базы данных как средство от информационного хаоса.

Основные технологические этапы создания БД и их характеристики.

Краткая история развития технических средств и технологий для хранения и ввода данных в ЭВМ.

Развитие идеологии БД.

Заключение.

Базы данных как средство от информационного
хаоса


Поток информации на различных носителях возрастает все быстрее. Рост потоков информации так велик, что его часто называют информационным взрывом. Рост числа документов носит экспоненциальный характер. При этом ежегодный прирост объемов данных составляет 20–25%.

По мере нарастания потоков данных человечество предпринимает все более энергичные меры, чтобы уберечь мир от информационного хаоса. За короткий срок – каких–нибудь тридцать лет – технические средства обработки информации претерпели революционные изменения. В результате на сегодняшний день потребитель информации располагает целым арсеналом средств, позволяющих ему эффективно ориентироваться в потоках информации. Одно из них БД.

Ежегодно наблюдается рост емкости и снижение стоимости доступных и удобных в эксплуатации дисковых устройств и новых видов массовой памяти. В последние годы появилась целая плеяда СУБД, поддерживающих коллекции данных и способных реализовать преимущества современных аппаратных средств.

Основные технологические этапы создания БД и их характеристики

Технологические этапы переработки информации представлены в табл.1.

Таблица 1


Технологические этапы и операции сбора, обработки и распространения данных

Этапы

Выполняемые операции

Сбор данных от источника данных


Заполнение книжек и журналов регистрации данных

Подготовка справочной информации

Занесение данных на технический носитель

Обработка данных на ЭВМ

Контроль и корректировка данных

Накопление данных

Прикладная обработка данных на месте

Комплектование данных на носителе

Копирование данных для передачи в центр данных

Прием и контроль отчета у владельца данных

Передача отчетных материалов в центр данных

Сбор данных в центре

Первичная ручная обработка

Присвоение идентификационного номера

Кодирование

Переформатирование данных

Контроль данных

Редактирование данных

Регистрация

Документирование носителей с данными

Регистрация сопроводительных документов

Визирование сопроводительных документов

Сканирование листовых источников

Учет

Определение страны, периода и района работ

Определение видов произведенных наблюдений

Подсчет количества наблюдений по видам

Анализ данных на дубликаты

Анализ качества документации на носителях

Заполнение картотеки и журнала учета

Подготовка данных к занесению на носители

Занесение на носители

Продолж. табл.1.

Этапы

Выполняемые операции

Каталогизация

Анализ качества оформления данных

Подготовка уведомления о получении данных

Экспертный анализ качества данных

Занесение сведений о данных на носитель

Получение сведений о собранных данных

Анализ полноты поступления материалов

Архивация и создание БД

Технический контроль носителя

Составление картотеки

Подготовка каталога носителей

Хранение

Проектирование БД

Контроль и загрузка данных из различных форматов

Тестирование БД

Испытания и опытная эксплуатация

Поиск, выборка данных

Подготовка технической документации на БД

Обслуживание пользователей

Прием запросов

Визирование запросов

Постановка запроса на учет

Анализ запроса

Подготовка ответа заказчику

Выполнение запроса

Передача материалов по выполненному запросу

Подготовка справки о результатах обслуживания

Подготовка продукции

Составление бюллетеня поступлений

Массовый расчет статистических характеристик

Подготовка к изданию

Обмен данными

Решение вопроса об обмене данными

Выборка данных

Конвертирование в формат обмена

Формирование итогового носителя

Составление карты источников данных

Получение справки с носителя о логическом и физическом содержании данных

Подготовка акта экспертизы на передачу данных

Передача данных в международный обмен

Подготовка справки о результатах обмена данными


Характеристиками БД являются:
  • объем данных в логических и физических единицах;
  • потоки данных в единицу времени;
  • оперативность поступления данных;
  • полнота БД, в %;
  • качество (достоверность) данных – вероятность ошибки (для управления – 10-4 10-5, планирования – 10-5, статистики – 10-5, бухучета – 10-6 –10-7).

Обеспечение вероятности ошибок выше, чем 10-4 требует увеличения капитальных и эксплуатационных затрат до 50%, времени программирования до 50%, времени работы программ, персонала до 100%. Влияние характеристик информации на затраты, связанные с ее получением и ценностью информации, дано в табл.2.

Краткая история развития технических средств и технологий для хранения и ввода данных в ЭВМ

Компьютерная техника очень активно развивается, каждые два – три года происходит удвоение мощностей компьютера.

Удаленный сетевой доступ к серверам БД стал общепринятым. Традиционные структуры записей данных дополняются сегодня разнообразными видами мультимедийных данных.


Постоянное снижение стоимости оптоволоконных линий связи и сетевого оборудования для него способствует более широкому внедрению технологий в локальной вычислительной сети (ЛВС). Гигабитные технологии Ethernet уже используются в качестве магистральных линий, объединяющих сетевые сегменты крупных серверов БД.


Таблица 2

Влияние характеристик информации на затраты,
связанные с ее получением и ценностью информации


Характеристики

Затраты по получению информации

Влияние на ценность информации

Объем данных

Затраты на сбор, ввод на носитель, загрузку и др.

Рост объемов увеличивает потенциальную полезность данных

Доступность

Затраты на поиск данных

Улучшение доступности увеличивает полезность данных

Скорость ввода в базу данных

Затраты на разработку технологий и их эксплуатацию

Чем быстрее данные будут доступны, тем пользователь лучше может их использовать

Скорость доведения

Затраты на разработку технологий и их эксплуатацию

Чем быстрее данные будут доступны, тем лучше будет решение

Полнота содержания

Достижение 100% полноты сопряжено с трудностями реализации и связано со значительными затратами

Очень важна, иногда БД становится бесполезной (данные не пополняются)

Качество данных

Затраты на разработку

Чрезвычайно важна

Точность определения атрибутов

Обходится все дороже и дороже

Не столь полезна, как об этом принято думать, зависит от задач


Основной рабочей средой пользователя остаются операционные системы (ОС) Windows, Linux. Дружественность Linux к пользователю приближается к уровню Windows XP. Начинается переход на 64–разрядные ОС.

Серверы становятся многопроцессорными, преобладают кластерные решения. Сейчас можно построить компьютер очень большой производительности, объединив с помощью специальной кластерной технологии отдельные компьютеры или процессоры в одну высокопроизводительную вычислительную grid–сеть, в т.ч. с использованием суперкомпьютеров.

Получат дальнейшее развитие Webтехнологии. БД должны сыграть ключевую роль в этих технологиях. Уже сегодня Web–мастера осознают себя фактически администраторами баз данных. Многие вновь возникающие web –узлы представляют собой, в сущности, аналоги приложений БД. При этом развивается архитектура «клиент –сервер».

В набор технологий включаются распознавание речи и рукописного текста, веб – порталы, веб – службы, XML, SQL, беспроводная связь типа Wi–Fi, и поддержка разнообразных альтернативных устройств. Эти технологии формируют основу для создания новой платформы, которая ориентирована на доступ к информации из любой точки, в любой момент.
В хранилище данных накапливаются данные из одной или более БД. Хранилища создаются также для защиты от физических потерь информации.
Класс приложений, называемых репозитариями, можно охарактеризовать как системы для хранения и обработки данных и метаданных (информации о данных). Примером репозитария является Государственный фонд данных по гидрометеорологии, созданный во ВНИИГМИ–МЦД, БД для поддержки проектирования программных средств, проектирования БД на основе case – средств, а также управления документами, содержания крупных web –сайтов и порталов. В репозитарии можно поддерживать множество представлений одной и той же или схожей информации. Например, программный модуль имеет представление в виде исходного кода, объектного кода, промежуточного кода, готовой программы, таблиц использований/определений, документации. Связи между всеми этими представлениями должны отслеживаться репозитарием так, чтобы изменения в одном из них автоматически распространялись на остальные представления того же объекта. Другим примером репозитария являются данные о состоянии природной среды, которые хранятся в виде:
  • оригинала массива исходных данных, поступивших от источника (наблюдательных платформ);
  • инвертированных массивов данных (представленным в другом порядке по отношению к исходным массивам – в виде временных рядов);
  • расчетных БД – климатических (статистических) характеристик среды;
  • метаданных, представляющих сведения об источниках информации, состоянии БД, и программных средств их обработки.
Репозитарий поддерживает понятие версий (состояний объекта в разные моменты времени) и конфигурации (согласованных коллекций версий). Так, различные релизы программной системы будут формироваться как конфигурации из определенных версий файлов исходного кода. Репозитарий должен поддерживать эволюцию структуры информации и ее метаданных таким образом, чтобы при добавлении новых свойств данных или новых связей не требовалась полная перекомпиляция.

Несмотря на экспоненциальный рост емкости дисковых устройств, для размещения подобных объемов данных вряд ли можно в ближайшем будущем обойтись только магнитными или магнитооптическими дисками. В течение 50 лет развития компьютерной техники использовались следующие устройства массовой памяти (носители): перфокарты, киноленты, перфоленты, магнитные ленты, дискеты, магнитные картриджи, СD–ROM, CD–RW, DVD диски, съемные винчестеры, серверы баз данных. В настоящее время наблюдается устойчивая тенденция роста емкости винчестеров, а также снижение удельной стоимости хранения единицы информации. Плотность записи постоянно увеличивается и на настоящий момент составляет более 20 Гб/дюйм2. Предполагается увеличение емкости одной пластины до 200 Гб. Цена хранения одного мегабайта информации с 0,6 долл. в 1995 г. снизилась до 0,1 долл. и продолжает снижаться.

Происходит минитюриализация устройств внешней памяти, например, флэш–память – переносное устройство от 32–128 Мб – имеет габариты меньше, чем дискета. Компания Audavi предлагает систему хранения HardTape, в качестве носителей в которой используются
2,5–дюймовые жесткие диски, заключенные в специальные картриджи размером 30x80x17 мм. Картриджи предлагаются в модификациях емкостью 20, 30, 40, 60 и 80 Гбайт. Система хранения предлагается в качестве альтернативы ленточным накопителям для резервирования информации на случай бедствия. В компании Iomega разработан накопитель на магнитных дисках величиной с большую монету (площадь носителя – около 5 см2), емкость которых составляет 1,5 Гбайт. Накопитель предназначен для применения в портативных мультимедиа–устройствах. Внешний винчестер производства фирмы Fujitsu – это комплект для быстрого копирования и переноса больших объемов информации.

Технологии ввода данных развивались с непосредственного ввода данных в ЭВМ через клавиатуру, затем были созданы отдельные механические устройства перфорации, занесения с использованием экрана дисплея в персональном варианте (с использованием и без СУБД), через web, с микропроцессорных приборов (измерительных систем), сканированием бумажных документов – распознавание документов, с голоса. Самые большие изменения в пользовательском интерфейсе ввода данных связаны с появлением планшетного персонального компьютера, позволяющего рисовать, писать ручкой, словно чернилами, и даже преобразовывать этот рукописный текст в обычный текстовый вид. В этом продукте реализованы средства преобразования в текст и произнесенной речи. Само сочетание этих новых методов с традиционным пользовательским интерфейсом уже означает значительное улучшение стиля взаимодействия между человеком и компьютером.

Развитие идеологии БД

Формами организации информации являются: файлы, БД, баз знаний, базы пространственных данных для использования в ГИС, распределенные БД и вычисления. Эволюция развития баз данных – от файлов данных до многомерных баз данных – представляется с.о.:

60–е годы – первые массивы данных на перфокартах;

70–е годы – массивы данных на магнитных лентах;

80–е годы – банки данных, иерархические и сетевые БД;

90–е годы – реляционные БД (сети ЭВМ);

21 век – доступ к базам данных через локальные и глобальные сети, многомерные БД.

Недостатками файловых систем являются слабые возможности управления данными, большие затраты труда программистов, дублирование разработок.

БД – это множество взаимосвязанных единиц данных, которые могут обрабатываться одной или несколькими прикладными системами. Преимуществами БД являются возможность интегрированного хранения данных и метаданных, поддержка целостности БД, одновременный доступ к данным нескольких пользователей, простота подготовки запросов и отчетов. Назначения БД:
  • представление сложных структур информации, когда объектом хранения являются не только данные, но описания структур данных;
  • сокращение дублирования информации
  • независимость прикладных программ от изменений описаний данных и наоборот;
  • сокращение затрат на обслуживание БД;
  • интеграция данных (множество пользователей, прикладных программ, типов данных).

Основными компонентами системы баз данных являются сама БД, СУБД, оборудование, организационно – методическое обеспечение. СУБД включает язык описания данных (ЯОД), язык манипулирования данными (ЯМД) – SQL, резидентный модуль СУБД, постоянно находящийся в оперативной памяти ЭВМ.

Базы знаний представляют собой систему искусственного интеллекта, основанную на правилах. На рис.1 дано отличие в представлении данных (фактов) и знаний.

Индексация в БД – важный элемент ускорения доступа к БД, производится по классификаторам, основным ключам, на основе автоматической рубрикации. Это большое преимущество БД перед файловыми системами.

Возможности поиска данныхосновное преимущество БД. Поиск возможен по любому логическому выражению (для нескольких атрибутов), бывает полнотекстовый поиск (с учетом близости слов), комбинированный (по словам и атрибутам), типовые запросы.

Важным достоинством СУБД являются возможности экспорта – импорта данных в другие СУБД, форматы –XML, HTML, PDF, rtf – документы и т.п.

Рис. 1. Сравнение представления данных и знаний в ЭВМ

У
правление данными
(на организационном и физическом уровнях). Для эффективного сбора и обработки данных необходимо организовать управление данными на уровнях выполнения научной программы (эксперимента), проекта, центра, а также на физическом уровне в хранилище данных и базе данных корпорации. Главным инструментом управления данными на организационном уровне должны быть Web – технологии. Информационной основой управления данными являются базы метаданных.

Базы метаданных. Список объектов метаданных включает сведения об организациях, массивах фактографических и пространственных данных, проектах, экспертах, информационных ресурсах, источниках информации, методах обработки, форматах данных, программных средствах, кодификаторы.


Запоминающие устройства можно представить как трехзвенную систему (рис.2): устройства и системы для активно используемых данных (дисковые системы), периодически используемых данных (CD/MO/DVD устройства) и данных долговременного хранения (ленточные библиотеки).

Рис.2. Трехуровневая модель хранения данных

Быстрые или оперативные устройства с произвольным доступом хранения служат для работы с данными, в которых пользователи для выполнения своей работы нуждаются постоянно. Основная задача системы хранения повышенной надежности – обеспечение бесперебойной и надежной работы вычислительного комплекса и всех решаемых им задач.

Заключение

Рассмотрена актуальность развития баз данных и информационных технологий. Дана краткая история развития технических средств для хранения и ввода данных в ЭВМ. Представлены современные информационные технологии (интеграция данных, управление данными) и развитие идеологии БД.

Литература
  1. Хансен Гэри, Хансен Джеймс. БД: разработка и управление / Пер. с англ. – М.: ЗАО "Издательство БИНОМ", 1999. – 704 с.
  2. Дейт К. Введение в системы баз данных / Пер. с англ. – М.: Наука, 1981. – 236 с.
  3. Мартин Дж. Организация баз данных в вычислительных системах. – М.: Мир, 1978.
  4. Невская Е.С. Базы данных: Методические указания для студентов третьего и четвертого курсов механико–математического факультета. ссылка скрыта

Вопросы для самопроверки
    1. Какие технические носители Вы знаете? Перечислите их характеристики.
    2. Какие формы организации данных и знаний Вы знаете?