Курс лекций Часть I автор: Крапивина И. В. Валуйки 2008

Вид материалаКурс лекций

Содержание


Инструментальное программное обеспечение
Прикладное программное обеспечение
Программное обеспечение
1.2. Информация и физический мир
Понятие информации
1.3. Непрерывная и дискретная информация
Раздел ii. измерение информации.
Алфавитный подход
2.2. Единицы измерения информации
Подобный материал:
1   2   3   4   5   6   7   8   9   10   11


В настоящей главе будут подробно рассмотрены некоторые проблемы представления данных различных типов: числовых, символьных, звуковых, графических. Также будут рассмотрены некоторые структуры, позволяющие хранить данные с возможностью удобного доступа к ним.

Вторая глава посвящена аппаратному обеспечению информаци­онных процессов. В ней рассматриваются вопросы синтеза цифровых устройств, устройство электронно-вычислительных машин, уст­ройство отдельных элементов аппаратного обеспечения.

Третья составляющая информатики - программное обеспечение — неоднородна и имеет сложную структуру, включающую несколько уровней: системный, служебный, инструментальный, прикладной.

На низшем уровне находятся комплексы программ, осуществля­ющих интерфейсные функции (посреднические между человеком и компьютером, аппаратным и программным обеспечением, между одновременно работающими программами), т.е. распределения раз­личных ресурсов компьютера. Программы этого уровня называются системными. Любые пользовательские программы запускаются под управлением комплексов программ, называемых операционными сис­темами.

Следующий уровень — это служебное программное обеспечение. Программы этого уровня называются утилитами, выполняют различ­ные вспомогательные функции. Это могут быть диагностические программы, используемые при обслуживании различных устройств (гибкого и жесткого диска), тестовые программы, представляющие комплекс программ технического обслуживания, архиваторы, анти­вирусы и т.п. Служебные программы, как правило, работают под управлением операционной системы (хотя могут и непосредственно обращаться к аппаратному обеспечению), поэтому они рассматрива­ются как более высокий уровень. В некоторых классификациях сис­темный и служебный уровни объединяются в один класс — систем­ного программного обеспечения.

Инструментальное программное обеспечение представляет комп­лексы программ для создания других программ. Процесс создания новых программ на языке машинных команд очень сложен и кро­потлив, поэтому он низкопроизводителен. На практике большин­ство программ составляется на формальных языках программирова­ния, которые более близки к математическому, следовательно, проще и производительней в работе, а перевод программ на язык машин­ных кодов осуществляет компьютер посредством инструментально­го программного обеспечения. Программы инструментального про­граммного обеспечения управляются системными программами, поэтому они относятся к более высокому уровню.

Прикладное программное обеспечение — самый большой по объе­му класс программ, это программы конечного пользователя. В четвертой главе будет дано подробное описание и классификация программ, входящих в этот класс. Пока же скажем, что в мире существует около шести тысяч различных профессий, тысячи различных увлечений и большинство из них в настоящее время имеет какие-либо
свои прикладные программные продукты. Прикладное программное обеспечение также управляется системными программами, и имеет более высокий уровень.

Обобщая сказанное, можно предложить следующую структуру программного обеспечения:



ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ





Системное программное обеспечение

Инструментальное программное обеспечение

Прикладное программное обеспечение


Операционные системы

Драйверы

Дисковые утилиты

Архиваторы

Антивирусы


Комплекс программ техобслуживания и диагностики


Предложенная классификация программного обеспечения явля­ется в большой мере условной, так как в настоящее время программные продукты многих фирм стали объединять в себе программные элементы из разных классов. Например, операционная система Windows, являясь комплексом системных программ, в своем составе содержит блок служебных программ (дефрагментация, проверка, очи­стка диска и др.), а также текстовый процессор WordPad, графичес­кий редактор Paint, которые принадлежат классу прикладных про­грамма.


1.2. Информация и физический мир

Известно большое количество работ, посвященных физической трактовке информации. Эти работы в значительной мере построены на основе аналогии формулы Больцмана, описывающей энтропию статистической системы материальных частиц, и формулы Хартли.

    Заметим, что при всех выводах формулы Больцмана явно или неявно предполагается, что макроскопическое состояние системы, к которому относится функция энтропии, реализуется на микроскопическом уровне как сочетание механических состояний очень большого числа частиц, образующих систему (молекул). Задачи же кодирования и передачи информации, для решения которых Хартли и Шенноном была развита вероятностная мера информации, имели в виду очень узкое техническое понимание информации, почти не имеющее отношения к полному объему этого понятия. Таким образом, большинство рассуждений, использующих термодинамические свойства энтропии применительно к информации нашей реальности, носят спекулятивный характер.

    В частности, являются необоснованными использование понятия "энтропия" для систем с конечным и небольшим числом состояний, а также попытки расширительного методологического толкования результатов теории вне довольно примитивных механических моделей, для которых они были получены. Энтропия и негэнтропия - интегральные характеристики протекания стохастических процессов - лишь параллельны информации и превращаются в нее в частном случае.

    Информацию следует считать особым видом ресурса, при этом имеется ввиду толкование "ресурса" как запаса неких знаний материальных предметов или энергетических, структурных или каких-либо других характеристик предмета. В отличие от ресурсов, связанных с материальными предметами, информационные ресурсы являются неистощимыми и предполагают существенно иные методы воспроизведения и обновления, чем материальные ресурсы.

    Рассмотрим некоторый набор свойств информации:
  • запоминаемость;
  • передаваемость;
  • преобразуемость;
  • воспроизводимость;
  • стираемость.

    Свойство запоминаемости - одно из самых важных. Запоминаемую информацию будем называть макроскопической (имея ввиду пространственные масштабы запоминающей ячейки и время запоминания). Именно с макроскопической информацией мы имеем дело в реальной практике.

    Передаваемость информации с помощью каналов связи (в том числе с помехами) хорошо исследована в рамках теории информации К.Шеннона. В данном случае имеется ввиду несколько иной аспект - способность информации к копированию, т.е. к тому, что она может быть "запомнена" другой макроскопической системой и при этом останется тождественной самой себе. Очевидно, что количество информации не должно возрастать при копировании.

    Воспроизводимость информации тесно связана с ее передаваемостью и не является ее независимым базовым свойством. Если передаваемость означает, что не следует считать существенными пространственные отношения между частями системы, между которыми передается информация, то воспроизводимость характеризует неиссякаемость и неистощимость информации, т.е. что при копировании информация остается тождественной самой себе.

    Фундаментальное свойство информации - преобразуемость. Оно означает, что информация может менять способ и форму своего существования. Копируемость есть разновидность преобразования информации, при котором ее количество не меняется. В общем случае количество информации в процессах преобразования меняется, но возрастать не может. Свойство стираемости информации также не является независимым. Оно связано с таким преобразованием информации (передачей), при котором ее количество уменьшается и становится равным нулю.

    Данных свойств информации недостаточно для формирования ее меры, так как они относятся к физическому уровню информационных процессов.

    Подводя итог сказанному в предыдущих шагах, отметим, что предпринимаются (но отнюдь не завершены) усилия ученых, представляющих самые разные области знания, построить единую теорию, которая призвана формализовать понятие информации и информационного процесса, описать превращения информации в процессах самой разной природы. Движение информации есть сущность процессов управления, которые суть проявление имманентной активности материи, ее способности к самодвижению. С момента возникновения кибернетики управление рассматривается применительно ко всем формам движения материи, а не только к высшим (биологической и социальной). Многие проявления движения в неживых - искусственных (технических) и естественных (природных) - системах также обладают общими признаками управления, хотя их исследуют в химии, физике, механике в энергетической, а не в информационной системе представлений. Информационные аспекты в таких системах составляют предмет новой междисциплинарной науки - синергетики.

    Высшей формой информации, проявляющейся в управлении в социальных системах, являются знания. Это наддисциплинарное понятие, широко используемое в педагогике и исследованиях по искусственному интеллекту, также претендует на роль важнейшей философской категории. В философском плане познание следует рассматривать как один из функциональных аспектов управления. Такой подход открывает путь к системному пониманию генезиса процессов познания, его основ и перспектив.


Понятие информации


Термин информация используется во многих науках и во многих сферах человеческой деятельности. Он происходит от латинского слова «information», что означает «сведения, разъяснения, изложений». Несмотря на привычность этого термина, строгого и общепринято­го определения не существует. В рамках рассматриваемой нами на­уки «информация» является первичным и, следовательно, неопреде­лимым понятием, подобно понятиям «точка» в математике, «тело» в механике, «поле» в физике. Несмотря на то, что этому понятию не­возможно дать строгое определение, имеется возможность описать его через проявляемые свойства и мы попытаемся это сделать.

Как известно, в материальном мире все физические объекты, ок­ружающие нас, являются либо телами, либо полями. Физические Объекты, взаимодействуя друг с другом, порождают сигналы различных типов. В общем случае любой сигнал - это изменяющийся во време­ни физический процесс. Такой процесс может содержать различные характеристики. Характеристика, которая используется для представ­ления данных, называется параметром сигнала. Если параметр сигна­ла принимает ряд последовательных значений и их конечное число, то сигнал называется дискретным. Если параметр сигнала - непрерыв­ная во времени функция, то сигнал называется непрерывным.

В свою очередь, сигналы могут порождать в физических телах изменения свойств. Это явление называется регистрацией сигналов. Сигналы, зарегистрированные на материальном носителе, называют­ся данными. Существует большое количество физических методов регистрации сигналов на материальных носителях. Это могут быть механические воздействия, перемещения, изменения формы или маг­нитных, электрических, оптических параметров, химического соста­ва, кристаллической структуры. В соответствии с методами регист­рации, данные могут храниться и транспортироваться на различных носителях. Наиболее часто используемый и привычный носитель — бумага; сигналы регистрируются путем изменения ее оптических свойств. Сигналы могут быть зарегистрированы и путем изменения магнитных свойств полимерной ленты с нанесенным ферромагнит­ным покрытием, как это делается в магнитофонных записях, и пу­тем изменения химических свойств в фотографии.

Данные несут информацию о событии, но не являются самой информацией, так как одни и те же данные могут восприниматься (отображаться или еще говорят интерпретироваться) в сознании раз­ных людей совершенно по-разному. Например, текст, написанный на русское языке (т.е. данные), даст различную информацию человеку, знающему алфавит и язык, и человеку, не знающему их.

Чтобы получить информацию, имея данные, необходимо к ним применить методы, которые преобразуют данные в понятия, воспри­нимаемые человеческим сознанием. Методы, в свою очередь, тоже различны. Например, человек, знающий русский язык, применяет адекватный метод, читая русский текст. Соответственно, человек, не знающий русского языка и алфавита, применяет неадекватный ме­тод, пытаясь понять русский текст. Таком образом,- можно считать, что информация — это продукт взаимодействия данных и адекватных методов.


1.3. Непрерывная и дискретная информация

Информация может быть двух видов дискретная (цифровая) и непрерывная (аналоговая). Дискретная информация характеризуется последовательными точными значениями некоторой величины, а непрерывная – непрерывным процессом изменения некоторой величины. Непрерывную информацию может, например выдавать датчик атмосферного давления или датчик скорости автомашины. Дискретную информацию можно получить от любого цифрового индикатора: электронных часов, счетчика магнитофона и т. п.

Дискретная информация удобна для обработки человеком, но непрерывная информация часто встречается в практической работе, поэтому необходимо уметь переводить непрерывную информацию в дискретную (дискретизация) и наоборот. Модем (от слов модуляция и демодуляция) представляет собой устройство для такого перевода. Он переводит цифровые данные от компьютера в звук или в электромагнитные колебания-копии звука и наоборот.

При переводе непрерывной информации в дискретную важна так называемая частота дискретизации ν, определяющая период (T = 1/ν) между измерениями значений непрерывной величины.







Чем выше частота дискретизации, тем точнее происходит перевод непрерывной информации в дискретную. Но с ростом этой частоты и растет значение дискретных данных и следовательно сложность их обработки, передачи и хранения. Эту частоту разумно увеличивать только до предела, определяемого теоремой о выборках, называемой теоремой Котельникова или законом Найквиста.

Любая непрерывная величина описывается множеством наложенных друг на друга волновых процессов, называемых гармониками, определяемых функциями вида , где A – амплитуда, ω – частота, t – время, φ – фаза.

Теорема о выборках утверждает, что для точной дискретизации ее частота должна быть не менее чем в два раза выше наибольшей частоты гармоники, входящей в дискретизируемую величину.

При преобразовании дискретной информации в непрерывную, определяющей является скорость этого преобразования: чем она выше, с тем более высокочастотными гармониками получится непрерывная величина. Но чем большие частоты встречаются в этой величине, тем сложнее с ней работать.

Устройства для преобразования непрерывной информации в дискретную АЦП (аналого-цифровой преобразователь) или ADC, а устройства преобразования дискретной в непрерывную – ЦАП (цифро-аналоговый преобразователь) или DAC.


Упражнение 1: в цифровых магнитофонах DAT частота дискретизации 48 КГц. Какова максимальная частота звуковых волн, которые можно точно воспроизводить на таких магнитофонах?

Скорость передачи информации в количестве переданных за одну секунду бит или в бодах 1 бод = 1 бит / сек (bps).

Информацию можно передавать последовательно, т. е. бит за битом и параллельно – группами фиксированного количества бит (используется как правило на расстоянии не более 5 м).

Упражнение 2: перевести единицы измерения


1 Кбайт = … бит

1 Мбайт = … байт

2,5 Гбайт = Кбайт


РАЗДЕЛ II. ИЗМЕРЕНИЕ ИНФОРМАЦИИ.

2.1. Подходы к измерению информации


При всем многообразии подходов к определению понятия информации, с позиций измерения информации нас интересуют два из них: определение К. Шеннона, применяемое в математической теории информации, и определение А. Н. Колмогорова, применяемое в отраслях информатики, связанных с использованием компьютеров (computer science).
     В содержательном подходе возможна качественная оценка информации: новая, срочная, важная и т.д. Согласно Шеннону, информативность сообщения характеризуется содержащейся в нем полезной информацией - той частью сообщения, которая снимает полностью или уменьшает неопределенность какой-либо ситуации. Неопределенность некоторого события - это количество возможных исходов данного события. Так, например, неопределенность погоды на завтра обычно заключается в диапазоне температуры воздуха и возможности выпадения осадков.
     Содержательный подход часто называют субъективным, так как разные люди (субъекты) информацию об одном и том же предмете оценивают по-разному. Но если число исходов не зависит от суждений людей (случай бросания кубика или монеты), то информация о наступлении одного из возможных исходов является объективной.
      Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита. С позиций computer science носителями информации являются любые последовательности символов, которые хранятся, передаются и обрабатываются с помощью компьютера. Согласно Колмогорову, информативность последовательности символов не зависит от содержания сообщения, а определяется минимально необходимым количеством символов для ее кодирования. Алфавитный подход является объективным, т.е. он не зависит от субъекта, воспринимающего сообщение. Смысл сообщения учитывается на этапе выбора алфавита кодирования либо не учитывается вообще. На первый взгляд определения Шеннона и Колмогорова кажутся разными, тем не менее, они хорошо согласуются при выборе единиц измерения.

2.2. Единицы измерения информации


Решая различные задачи, человек вынужден использовать информацию об окружающем нас мире. И чем более полно и подробно человеком изучены те или иные явления, тем подчас проще найти ответ на поставленный вопрос. Так, например, знание законов физики позволяет создавать сложные приборы, а для того, чтобы перевести текст на иностранный язык, нужно знать грамматические правила и помнить много слов.
     Часто приходится слышать, что сообщение или несет мало информации или, наоборот, содержит исчерпывающую информацию. При этом разные люди, получившие одно и то же сообщение (например, прочитав статью в газете), по-разному оценивают количество информации, содержащейся в нем. Это происходит оттого, что знания людей об этих событиях (явлениях) до получения сообщения были различными. Поэтому те, кто знал об этом мало, сочтут, что получили много информации, те же, кто знал больше, чем написано в статье, скажут, что информации не получили вовсе. Количество информации в сообщении, таким образом, зависит от того, насколько ново это сообщение для получателя.
     Однако иногда возникает ситуация, когда людям сообщают много новых для них сведений (например, на лекции), а информации при этом они практически не получают (в этом нетрудно убедиться во время опроса или контрольной работы). Происходит это оттого, что сама тема в данный момент слушателям не представляется интересной.
     Итак, количество информации зависит от новизны сведений об интересном для получателя информации явлении. Иными словами, неопределенность (т.е. неполнота знания) по интересующему нас вопросу с получением информации уменьшается. Если в результате получения сообщения будет достигнута полная ясность в данном вопросе (т.е. неопределенность исчезнет), говорят, что была получена исчерпывающая информация. Это означает, что необходимости в получении дополнительной информации на эту тему нет. Напротив, если после получения сообщения неопределенность осталась прежней (сообщаемые сведения или уже были известны, или не относятся к делу), значит, информации получено не было (нулевая информация).
     Если подбросить монету и проследить, какой стороной она упадет, то мы получим определенную информацию. Обе стороны монеты "равноправны", поэтому одинаково вероятно, что выпадет как одна, так и другая сторона. В таких случаях говорят, что событие несет информацию в 1 бит. Если положить в мешок два шарика разного цвета, то, вытащив вслепую один шар, мы также получим информацию о цвете шара в 1 бит. Единица измерения информации называется бит (bit) - сокращение от английских слов binary digit, что означает двоичная цифра.
     В компьютерной технике бит соответствует физическому состоянию носителя информации: намагничено - не намагничено, есть отверстие - нет отверстия. При этом одно состояние принято обозначать цифрой 0, а другое - цифрой 1. Выбор одного из двух возможных вариантов позволяет также различать логические истину и ложь. Последовательностью битов можно закодировать текст, изображение, звук или какую-либо другую информацию. Такой метод представления информации называется двоичным кодированием (binary encoding).
     В информатике часто используется величина, называемая байтом (byte) и равная 8 битам. И если бит позволяет выбрать один вариант из двух возможных, то байт, соответственно, 1 из 256 (28). В большинстве современных ЭВМ при кодировании каждому символу соответствует своя последовательность из восьми нулей и единиц, т. е. байт. Соответствие байтов и символов задается с помощью таблицы, в которой для каждого кода указывается свой символ. Так, например, в широко распространенной кодировке Koi8-R буква "М" имеет код 11101101, буква "И" - код 11101001, а пробел - код 00100000.
     Наряду с байтами для измерения количества информации используются более крупные единицы:
     1 Кбайт (один килобайт) = 210 байт = 1024 байта;
     1 Мбайт (один мегабайт) = 210 Кбайт = 1024 Кбайта;
     1 Гбайт (один гигабайт) = 210 Мбайт = 1024 Мбайта.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:
     1 Терабайт (Тб) = 1024 Гбайта = 240 байта,
     1 Петабайт (Пб) = 1024 Тбайта = 250 байта.
     Рассмотрим, как можно подсчитать количество информации в сообщении, используя содержательный подход.
     Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных событий. Тогда количество информации х, заключенное в этом сообщении, и число событий N связаны формулой: 2x = N. Решение такого уравнения с неизвестной х имеет вид: x=log2N. То есть именно такое количество информации необходимо для устранения неопределенности из N равнозначных вариантов. Эта формула носит название формулы Хартли. Получена она в 1928 г. американским инженером Р. Хартли. Процесс получения информации он формулировал примерно так: если в заданном множестве, содержащем N равнозначных элементов, выделен некоторый элемент x, о котором известно лишь, что он принадлежит этому множеству, то, чтобы найти x, необходимо получить количество информации, равное log2N.
     Если N равно целой степени двойки (2, 4, 8, 16 и т.д.), то вычисления легко произвести "в уме". В противном случае количество информации становится нецелой величиной, и для решения задачи придется воспользоваться таблицей логарифмов либо определять значение логарифма приблизительно (ближайшее целое число, большее ).
     При вычислении двоичных логарифмов чисел от 1 до 64 по формуле x=log2N поможет следующая таблица.

N

x

N

x

N

x

N

x

1

0,00000

17

4,08746

33

5,04439

49

5,61471

2

1,00000

18

4,16993

34

5,08746

50

5,64386

3

1,58496

19

4,24793

35

5,12928

51

5,67243

4

2,00000

20

4,32193

36

5,16993

52

5,70044

5

2,32193

21

4,39232

37

5,20945

53

5,72792

6

2,58496

22

4,45943

38

5,24793

54

5,75489

7

2,80735

23

4,52356

39

5,28540

55

5,78136

8

3,00000

24

4,58496

40

5,32193

56

5,80735

9

3,16993

25

4,64386

41

5,35755

57

5,83289

10

3,32193

26

4,70044

42

5,39232

58

5,85798

11

3,45943

27

4,75489

43

5,42626

59

5,88264

12

3,58496

28

4,80735

44

5,45943

60

5,90689

13

3,70044

29

4,85798

45

5,49185

61

5,93074

14

3,80735

30

4,90689

46

5,52356

62

5,95420

15

3,90689

31

4,95420

47

5,55459

63

5,97728

16

4,00000

32

5,00000

48

5,58496

64

6,00000