Представление и кодирование информации с помощью знаковых систем. Алфавитный подход к определению количества информации.
Представление информации может осуществляться с помощью знаковых систем. Каждая знаковая система строится на основе определенного^алфавита и правил выполнения операций над знаками. Знаковыми системами являются естественные языки (русский, английский и т. д.), формальные языки (языки программирования, системы счисления и т. д.), биологические алфавиты (состояния нейрона в нервной системе, нуклеотиды, хранящие генетическую информацию в молекуле ДНК) и др.
Знаки могут иметь различную физическую природу. Например, для письма используются знаки, представляющие собой изображения на бумаге или других носителях; в устной речи в качестве знаков выступают различные звуки (фонемы), а при обработке текста на компьютере знаки представляются в форме последовательностей электрических импульсов (компьютерных кодов).
Кодирование, т. е. перевод информации из одной знаковой системы в другую, производится с помощью таблиц соответствия знаковых систем, которые устанавливают взаимно однозначное соответствие между знаками или группами знаков двух различных знаковых систем. Пример такой таблицы — таблица кодов ASCII (американский стандартный код обмена информацией), устанавливающая соответствие между интернациональными знаками алфавита и их числовыми компьютерными кодами.
При хранении и передаче информации с помощью технических устройств целесообразно отвлечься от содержания информации и рассматривать ее как последовательность знаков (букв, цифр, кодов цвета точек изображения и т. д.).
Исходя из вероятностного подхода к определению количества информации, набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).
Тогда, если считать, что появление символов в сообщении равновероятно, по формуле можно рассчитать, какое количество информации несет каждый символ:
где N — количество знаков в алфавите, I — количество информации.
Информационная емкость знаков зависит от их числа в алфавите (мощности алфавита): чем больше их число, тем большее количество информации несет один знак.
Так, информационная емкость буквы в русском алфавите, если не использовать букву «ё», составляет:
.
Аналогично легко подсчитать, что каждый знак «алфавита» нервной системы (есть импульс, нет импульса) в соответствии с формулой несет информацию 1 бит, а каждый из четырех символов генетического алфавита — информацию 2 бит.
В соответствии с алфавитным подходом количество информации, которое содержит сообщение, закодированное с помощью знаковой системы, равно количеству информации, которое несет один знак, умноженному на число знаков в сообщении.