Методы статистического анализа текста

Информация - Иностранные языки

Другие материалы по предмету Иностранные языки

»и в конце XIX начале XX века в Соединенных Штатах Америки. Объектом исследования авторов были тексты массовой информации, а мотивом продемонстрировать появление желтой процессы в Нью-Йорке.

Сам термин content-analysis впервые начали применять американские журналисты Б. Мэтью, А. Тенни, Д.Спиид, Д.Уипкинс. Так же следует отметить, что у истоков становления методологии контент-анализа стоял французский журналист Ж. Кайзер.

Что касается политической сферы, то в 1930-1940-е годы американский исследователь средств коммуникации Гарольд Лассвелл (Harold Lasswell) проводил исследования, которые на сегодняшний день признаны классикой контент-анализа. Лассвелл занимался анализом пропагандистских материалов периода Второй мировой войны. В 1960-е годы, во время так называемого методологического взрыва исследования с применением методики контент-анализа особенно активизировались.

В 1943 году Абрахам Каплан (Abraham Kaplan) увеличил фокус контент-анализа от статистической семантики политических дискуссий до анализа семиотики. Во время Второй мировой войны популярность семиотики привела к использованию качественно-ориентированного контент-анализа для изучения идеологических аспектов в таких жанрах, как телевизионные шоу и коммерческая реклама.

Это способствовало развитию методики, разнообразило её варианты. Именно в этот период начинается активное использование компьютерной техники в исследованиях.

Контент-анализ с момента своего появления и за все время своего развития, безусловно, претерпел существенные изменения. Но, самое главное в данном методе - способность получения объективной информации или знания по косвенным признакам, осталось неизменным.

.3 Процедура контент-анализа

Процедура контент-анализа различается в зависимости от источников информации и особенностей задач их анализа. В общем виде она описывается как набор следующих этапов.

Подготовительный этап

Включает отбор источников информации и массива текстов для анализа, определение категорий и единиц анализа, единиц счета, технологии обработки данных.

Определение совокупности изучаемых текстов производится с позиций определенных критериев отбора, соответствующих задаче или гипотезе контент-анализа. Избирается канал (пресса, телевидение, радио, Интернет-материалы), разновидность текстов (статьи, авторефераты диссертаций, рекламные общения и пр.). Устанавливается сопоставимый размер текстов, репрезентативность выборки. Иногда - способ, частота и время появления сообщений. Отбор единиц анализа основывается на семантических (смысловых) критериях и зависит от исходных текстов и целей их анализа.

Заключительной задачей подготовительного этапа является разработка инструментов - форматов таблиц. Систем кодирования, условных сокращений, инструкций аналитику и др. В число обязательных инструментов входят:

1.Классификатор контент-анализа, по которым понимается общая таблица, в которую сведены все категории и подкатегории анализа и единицы анализа. Она создается в первую очередь для того, чтобы предельно четко зафиксировать те единицы, в которых выражается каждая категория, используемая в исследовании.

2.Протокол (бланк) контент-анализа содержит: сведения о документе (его авторе, времени издания, объеме и т.п.); итоги его анализа (количество случаев употребления в нем определенных единиц анализа и следующие отсюда выводы относительно категорий анализа). Протоколы заполняются, как правило, в закодированном виде, чтобы уместить всю информацию на одном листе, но если в исследовании осуществляется контент-анализ малого числа документов, то можно обойтись без кодирования и заполнять протоколы в открыто-содержательном виде.

.Регистрационная карточка представляет собой кодировальную матрицу, в которой отмечается количество единиц счета, характеризующее единицы анализа. Протокол контент-анализа каждого конкретного документа заполняется на основе подсчета данных всех регистрационных карт, относящихся к этому документу.

.Инструкция аналитику (кодировщику) - система правил и пояснений для исполнителей по сбору эмпирической информации, регистрации заданных единиц анализа. В инструкции излагается алгоритм действий, дается операциональное определение категорий и единиц анализа, правила их кодирования, приводятся конкретные примеры из текстов, являющихся объектом исследования, оговаривается, как следует поступать в спорных ситуациях, и пр.

Сбор и первичная обработка данных контент-анализа

На этом этапе производится процедура подсчета семантических единиц разного уровня обобщения. Фиксация данных обычно осуществляется с помощью простых анкет, в которых фиксируется каждое появление в анализируемом тексте искомой единицы.

Составляются счетные таблицы по отдельным текстам, а также сводные таблицы по отдельным темам. Используются электронные таблицы, формулы суммирования по столбцам и строкам или прикладные компьютерные программы для статистических расчетов.

Завершение этапа сбора данных контролируется фиксацией просмотренных текстов, подсчетом частот по строкам и столбцам исходных таблиц, иногда - кратким отчетом группы исполнителей с указанием трудозатрат, сложных случаев и пересмотренных исходных правил.

Интерпретация и синтезирование результатов

Интерпретация полученных результатов осуществляется в соответствии с задачами конкретного исследования. Результаты контент-анализа чаще вс