Методы статистического анализа текста

Информация - Иностранные языки

Другие материалы по предмету Иностранные языки

Министерство образования науки Российской Федерации

Федеральное агентство по образованию

ФГАОУ ВПО Уральский федеральный университет имени первого Президента России Б. Н. Ельцина

Институт образовательных информационных технологий

Секция информатизации библиотечного дела

Специальность Библиотечно-информационная деятельность

Реферат на тему

МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ТЕКСТА

по дисциплине Аналитика текста

Выполнил: Щеглова А., гр. ИТ-47021

Преподаватель: Гришина С. М.

Екатеринбург

Оглавление

Введение

.Частотный анализ

.Ранжирование данных

.Закон Бредфорда - Ципфа0

.Контент-анализ

.1Определение контент-анализа

.2История появления контент-анализа

.3Процедура контент-анализа

.4Виды контент-анализа

.5 Применение контент-анализа

Заключение

Список использованной литературы

Введение

В традиционной литературе текст исследуется в основном в рамках лингвистики, герменевтики, семиотики, культурологии и является одним из основных понятий культуры ХIХ-ХХ вв. В основном текст рассматривается как отрасль филологии, литературоведческая дисциплина, изучающая произведения письменности в целях установления их особой организации, отношение между текстом и культурным контекстом, как система высказываний, обладающих единым смыслом и как форма передача информации.

Нередко текст рассматривают как дискурсивное единство, т.е. специфический способ и правила организации речевой деятельности, независимо письменной или устной, обладающее многообразной смысловой структурой, порождающей новые смыслы и т.д.

Но можно подойти к тексту принципиально с иной стороны. И тогда текст, прежде всего, будет рассматриваться как формально-логическое образование, которое можно исследовать некоторыми формализованными методами. Методологической основой такого исследования будет выступать статистический принцип частотного распределения признака (признаков), которые во взаимосвязи образуют новые смыслы.

Именно такой подход организован в методах статистического анализа текста - частотном анализе, ранжировании данных, законе Бредфорда-Ципфа, контент-анализе.

Цель данного реферата: охарактеризовать основные методы статистического анализа текста.

1. Частотный анализ

Частотный анализ - это один из методов криптоанализа, основывающийся на предположении о существовании нетривиального статистического распределения отдельных символов и их последовательностей как в открытом тексте, так и шифрованном тексте, которое с точностью до замены символов будет сохраняться в процессе шифрования и дешифрования [10].

Кратко говоря, частотный анализ предполагает, что частота появления заданной буквы алфавита в достаточно длинных текстах одна и та же для разных текстов одного языка. При этом в случае моноалфавитного шифрования, если в шифрованном тексте будет символ с аналогичной вероятностью появления, то можно предположить, что он и является указанной зашифрованной буквой. Аналогичные рассуждения применяются к биграммам (двубуквенным последовательностям), триграммам в случае полиалфавитных шифров.

Метод частотного анализа известен с еще IX-го века и связан и именем Ал-Кинди. Но наиболее известным случаем применения такого анализа является дешифровка египетских иероглифов Ж.-Ф. Шампольоном в 1822 году.

Данный вид анализа основывается на том, что текст состоит из слов, а слова из букв. Количество различных букв в каждом языке ограничено и буквы могут быть просто перечислены. Важными характеристиками текста являются повторяемость букв, пар букв (биграмм) и вообще m-ок (m-грамм), сочетаемость букв друг с другом, чередование гласных и согласных и некоторые другие.

Идея состоит в подсчете чисел вхождений каждой nm возможных m-грамм в достаточно длинных открытых текстах T=t1t2…tl, составленных из букв алфавита {a1, a2, ..., an}. При этом просматриваются подряд идущие m-граммы текста:t2...tm, t2t3... tm+1, ..., ti-m+1tl-m+2...tl.

Если - число появлений m-граммы ai1ai2...aim в тексте T, а L - общее число подсчитанных m-грамм, то опыт показывает, что при достаточно больших L частоты

для данной m-граммы мало отличаются друг от друга.

В силу этого, относительную частоту считают приближением вероятности P (ai1ai2...aim) появления данной m-граммы в случайно выбранном месте текста (такой подход принят при статистическом определении вероятности).

В представленной ниже таблице приводятся частоты встречаемости букв в русском языке (в процентах):

Буква алфавитаПоказатель частоты встречаемости-0,175А0,062Б0,014В0,038Г0,013Д0,025Е, Ё0,072Ж0,007З0,016И0,062Й0,010К0,028Л0,035М0,026Н0,053О0,090П0,023Р0,040С0,045Т0,053У0,021Ф0,002Х0,009Ц0,004Ч0,012Ш0,006Щ0,003Ъ, Ь0,014Ы0,016Э0,003Ю0,006Я0,018

Имеется мнемоническое правило запоминания десяти наиболее частых букв русского алфавита. Эти буквы составляют слово СЕНОВАЛИТР.

Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов. Существуют специальные таблицы с указанием частоты биграмм некоторых алфавитов. По результатам исследований с помощью таких таблиц ученые определили наиболее часто встречаемые биграммы и триграммы для русского алфавита:

СТ, НО, ЕН, ТО, НА, ОВ, НИ, РА, ВО, КО, СТО, ЕНО, НОВ, ТОВ, ОВО, ОВА.

Из таблиц биграмм можно так?/p>