«Информатика»

Вид материалаУчебное пособие

Содержание


Измерение информации
Свойства информации
Информационный процесс, основные операции с данными
Кодирование информации
таблица расширений
Подобный материал:
1   2   3   4   5   6   7   8   9   ...   39

Измерение информации


Информация – это физическая величина, такая же, например энергия или скорость, поэтому она должна измеряться.

Количеством информации называют числовую характеристику сигнала, отражающую ту степень неопределенности (неполноту знаний), которая исчезает после получения сообщения в виде данного сигнала. Эту меру неопределенности в теории информации называют энтропией. Для ее измерения принимается минимальная единица хранения информации– 1 бит(binary digit), элемент памяти, который может переключаться между 2-мя состояниями, обозначаемыми 0 и 1. Связь между количеством информации и числом состояний системы устанавливается формулой Хартли:

N=2I, где N – количество возможных событий, I – количество информации.

Например, если мы бросаем монету, то сначала неопределенность наших знаний равна 2, так как мы не знаем, что выпадет «орел» или «решка». После броска мы уже знаем, в каком положении находится монета – либо «орел», либо «решка». Т. е. неопределенность наших знаний уменьшилась в два раза.

Если события не равновероятны, то для вычисления количества информации используется формула Шеннона (1948г): , где N – количество возможных событий, I – количество информации, pi – вероятности отдельных событий.

Формула Шеннона - формула для определения энтропии - количества информации. Количество информации может быть и целым и нецелым действительным числом.

Для равновероятных событий количество информации можно вычислить по формуле. Для равновероятных событий величина количества информации принимает максимальное значение.

Задача 1. Эксперимент состоит в однократном подбрасывании игральной кости (6 граней). Чему равна информативность результата эксперимента?

Рассуждаем т. о. События не равновероятны, если судить о том, сколько выпадет точек на грани? А максимально-6. Допустим, что события равновероятны, тогда I=log26. А это меньше, чем log28=3. Ответ: Информативность результата меньше 3-х бит.

    1. Свойства информации


Семантическая емкость информации (знаний) – ее смысл, содержание общие для различных форм представляющих информацию данных (форм записи).

Представление информации в виде слов определяет вербальный характер информации

Адекватность или достоверность знаний (информации) – степень их соответствия реальности (Иногда эти понятия различают и понимают более узко, включая в адекватность степень соответствия ситуации намерениям источника, а в достоверность степень подтвержденности, гарантированности данных).

Свойства информации включают также полноту (достаточность для данных целей), доступность (возможность получения и использования), актуальность (соответствие текущим задачам и ситуации), объективностьсубъективность (степень искажений, внесенных участниками и элементами информационного процесса)
    1. Информационный процесс, основные операции с данными


Информация функционирует в информационном процессе, включающем источник (человек, документ, СМИ и т.д.), передатчик, информационный канал (способ передачи), приемник и получателя. Информационные процессы могут связывать между собой людей, живые организмы и их элементы, компьютеры и другие технические устройства. Функции (цели использования) информации в обществе могут быть познавательными, коммуникативными, управленческими. Основные операции с данными включают: генерацию (производство), преобразование (фильтрация, группировка, перенос на другой носитель, перекодировка, формализация), транспортировку (передачу, распространение, прием), хранение (организацию, накопление, архивацию), поиск, обработку и использование (проверка, анализ, вывод следствий, выбор, принятие решений)

    1. Кодирование информации


В памяти компьютера данные хранятся в виде дискретных единиц (знаков), закодированных цифрами. Минимальная единица хранения 1 бит(binary digit), элемент памяти (регистр, ячейка), который может переключаться между 2-мя состояниями, обозначаемыми 0 и 1 (может быть реализован на различных физических принципах – гидравлическом, механическом, электрическом, электронном и т.д.). Любая информация в памяти занимает целое число бит. В 1 бите может храниться признак принимающий 1 из 2-х значений («ж», «м»). для признака с 3-мя значениями («ребенок», «средний возраст», «пожилой») – 2 бита. Всего 2 бита, позволяют хранить признак с 4-мя значениями («ребенок», «подросток», «средний возраст», «пожилой»), N бит с 2N. Для хранения кода символа текста (66 знаков кириллицы, 52 латиницы, 10 цифр, ≈20 дополнительных) требуется 8 бит=1 байт.

Одна страница формата А4 вмещает около 2000 символов. Значит, для ее хранения требуется минимум 2000 байт машинной памяти или около 2 Кбайт (при шрифте 12 пт. и полуторном интервале — около 30 строк и 90 знаков в строке). Текст в 40 000 знаков в полиграфии называется авторским листом. Он потребует на диске не менее 40 Кбайт. На самом деле одна страница, созданная в текстовом процессоре Word, может занимать гораздо больше дискового пространства из-за форматирования, наличия таблиц, рисунков, диаграмм и т. п. — от 50 Кбайт до нескольких Мбайт.

Единицы памяти: 1 байт(б)=8бит, полуслово=2б(16бит), слово=4б (32бита), двойное слово=8б (64бита), Кбайт=1024(210 бит), Мбайт=1024Кб(220 бит), Гигабайт=1024Мб (230 бит), Терабайт=1024Гб (240 бит).

Для кодирования текстовых (символьных) данных используются специальные кодовые таблицы. Кодовая таблица — это внутреннее представление в машине алфавитно-цифровой информации. При кодировании восьмибитовыми числами(1б) в кодовой таблице каждому символу — букве, цифре, служебному знаку присвоен какой-либо код — десятичное число от 0 до 255. Во всем мире в качестве стандарта для представления символьной информации в компьютере используется американский стандартный ASCII (American Standard Code for Information Interchange). Кодовая таблица разделена на две половины.

Первая — основной стандарт с кодами от 0 до 127, которые соответствуют основному международному стандарту ASCII, используется для кодирования цифр и букв латинского алфавита, а также управляющих символов (с кодами 0—31)

Вторая половина кодовой таблицы — таблица расширений — с кодами от 128 до 255 не определяется международными стандартами. Она предназначена для кодирования символов национальных алфавитов, псевдографических символов и некоторых математических знаков

Недостаток – для русских букв существует 5 таблиц кодировки: CP866 (для MS DOS), CP1251 (для MS Windows), ISO 8859–5 (автор – International Standards Organization), Mac (для Mac OS компьютеров Apple).

Система кодирования 16-битовыми словами (2б) позволяет обеспечить отдельные коды для 65 536 символов. Такая система получила название универсальной — UNICODE (ЮНИКОД), она позволяет закодировать в одной таблице все символы мировых алфавитов. Систему UNICODE поддерживает Windows 2000 и более поздние версии этой операционной системы.

При кодировке 1б на знак обычный текст (файл с расширением .txt) из 100 знаков занимает 100б или 800 бит (текст созданный в редакторе Word с расширением .doc содержит еще сведения об оформлении). Средняя текстовая страница из 50 строк по 50 символов занимает около 2,5 Кб (1Мб вмещает около 400, а 1Гб – около 400 000 страниц).

При кодировании и создании графических изображений может используется 3 метода построения изображений: растровый, векторный, фрактальный.

Растровая графика: изображение состоит из точек – пикселей (picture element), для каждой из которых нужно задать цвет и яркость. Например, для качественного черно–белого изображения с полутонами (256 уровней градаций яркости серого), необходим 1б на точку.

Для кодирования цветных графических изображений применяется принцип декомпозиции произвольного цвета на основные составляющие. В качестве таких составляющих используют три основных цвета: красный (Red, R), зеленый (Green, G) и синий (Blue, В). На практике считается (хотя теоретически это не совсем так), что любой цвет, видимый человеческим глазом, можно получить путем механического смешения этих трех основных цветов. Такая система кодирования называется системой RGB по первым буквам названий основных цветов. Если для кодирования яркости каждой из основных составляющих использовать по 256 значений (восемь двоичных разрядов), как это принято для полутоновых черно-белых изображений, то на кодирование цвета одной точки надо затратить 24 разряда. При этом система кодирования обеспечивает однозначное определение 16,5 млн. различных цветов, что на самом деле близко к чувствительности человеческого глаза. Режим представления цветной графики с использованием 24 двоичных разрядов называется полно цветным (True Color).

Каждому из основных цветов можно поставить в соответствие дополнительный цвет, то есть цвет, дополняющий основной цвет до белого. Нетрудно заметить, что для любого из основных цветов дополнительным будет цвет, образованный суммой пары остальных основных цветов. Соответственно, дополнительными цветами являются: голубой (Cyan, С), пурпурный(Magenta, М) и желтый (Yellow, Y). Принцип декомпозиции произвольного цвета на составляющие компоненты можно применять не только для основных цветов, но и для дополнительных, то есть любой цвет можно представить в виде суммы голубой, пурпурной и желтой составляющей. Такой метод кодирования цвета принят в полиграфии, но в полиграфии используется еще и четвертая краска — черная (Black, К). Поэтому данная система кодирования обозначается четырьмя буквами CMYK (черный цвет обозначается буквой К, потому, что буква В уже занята синим цветом), и для представления цветной графики в этой системе надо иметь 32 двоичных разряда. Такой режим тоже называется полно цветным (True Color).

Если уменьшить количество двоичных разрядов, используемых для кодирования цвета каждой точки, то можно сократить объем данных, но при этом диапазон кодируемых цветов заметно сокращается. Кодирование цветной графики 16-разрядными двоичными числами называется режимом High Color. Глубина цветачисло бит на каждую точку. При уменьшении числа цветов в палитре от 22k до 2k глубину цвета и объем файла можно уменьшить в 2 раза.

Векторная графика: изображение не из точек, а из объектов – линий (отрезки, дуги и т.п.) и ограниченных ими фигур. Линии и фигуры задаются уравнениями и свойствами (цвет и начертание линии, цвет и способ заполнения фигуры). Занимает меньший объем памяти, который зависит от числа и сложности объектов. Построение по данным требует специальных расчетов.

Фрактальная графика – изображение не из линий, а целиком строится по специальным формулам. Позволяет получать наиболее сложное и реалистичное изображение. Используется в играх и других мультимедийных системах.

Приемы и методы работы со звуковой информацией пришли в вычислительную технику наиболее поздно. К тому же, в отличие от числовых, текстовых и графических данных, у звукозаписей не было столь же длительной и проверенной истории кодирования. В итоге методы кодирования звуковой информации двоичным кодом далеки от стандартизации. Множество отдельных компаний разработали свои корпоративные стандарты, но если говорить обобщенно, то можно выделить два основных направления. При кодировании звуковой информации может использоваться частотная модуляция звука – разложение звуковой волны на синусоиды, описывающие базовые колебания (гармоники) или таблично–волновой синтез звука из заранее заготовленных образцов (сэмплов).

Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых представляет собой правильную синусоиду, а следовательно, может быть описан числовыми параметрами, то есть кодом. В природе звуковые сигналы имеют непрерывный спектр, то есть являются аналоговыми. Их разложение в гармонические ряды и представление в виде дискретных цифровых сигналов выполняют специальные устройства — аналогово-цифровые преобразователи (АЦП). Обратное преобразование для воспроизведения звука, закодированного числовым кодом, выполняют цифро-аналоговые преобразователи (ЦАП). При таких преобразованиях неизбежны потери информации, связанные с методом кодирования, поэтому качество звукозаписи обычно получается не вполне удовлетворительным и соответствует качеству звучания простейших электромузыкальных инструментов с окрасом, характерным для электронной музыки. В то же время данный метод кодирования обеспечивает весьма компактный код, и потому он нашел применение еще в те годы, когда ресурсы средств вычислительной техники были явно недостаточны.

Метод таблично-волнового (Wave-Table) синтеза лучше соответствует современному уровню развития техники. Если говорить упрощенно, то можно сказать, что где-то в заранее подготовленных таблицах хранятся образцы звуков для множества различных музыкальных инструментов (хотя не только для них). В технике такие образцы называют сэмплами. Числовые коды выражают тип инструмента, номер его модели, высоту тона, продолжительность и интенсивность звука, динамику его изменения, некоторые параметры среды, в которой происходит звучание, а также прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются «реальные» звуки, то качество звука, полученного в результате синтеза, получается очень высоким, приближающимся к качеству звучания реальных музыкальных инструментов.