Количественная мера информации
Контрольная работа - Компьютеры, программирование
Другие контрольные работы по предмету Компьютеры, программирование
?линных открытых текстах T=t1t2…tl, составленных из букв алфавита {a1, a2, ..., an}. При этом просматриваются подряд идущие m-граммы текста
t1t2...tm, t2t3... tm+1, ..., ti-m+1tl-m+2...tl.
Если число появлений m-граммы ai1ai2...aim в тексте T, а L общее число подсчитанных m-грамм, то опыт показывает, что при достаточно больших L частоты
для данной m-граммы мало отличаются друг от друга.
В силу этого, относительную частоту считают приближением вероятности P (ai1ai2...aim) появления данной m-граммы в случайно выбранном месте текста (такой подход принят при статистическом определении вероятности).
Для русского языка частоты (в порядке убывания) знаков алфавита, в котором отождествлены E c Ё, Ь с Ъ, а также имеется знак пробела (-) между словами, приведены в таблице 1.
информация текстовый сообщение количественный
Таблица 1
-0.175О0.090Е, Ё0.072А0.062И0.062Т0.053Н0.053С0.045Р0.040В0.038Л0.035К0.028М0.026Д0.025П0.023У0.021Я0.018Ы0.016З0.016Ь, Ъ0.014Б0.014Г0.013Ч0.012Й0.010Х0.009Ж0.007Ю0.006Ш0.006Ц0.004Щ0.003Э0.003Ф0.002
Некоторая разница значений частот в приводимых в различных источниках таблицах объясняется тем, что частоты существенно зависят не только от длины текста, но и от его характера.
Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов.
ХОД РАБОТЫ
- Построил таблицу распределения частот символов, характерныx для заданного сообщения путём деления количества определённого символа в данном сообщении на общее число символов
По формуле
H=вычислил энтропию сообщения
- Далее по формуле Шеннона для определения кол-ва информации
вычислил кол-во информации в передаваемом сообщении
- Вычислил избыточность D по формуле