
Но вспомним, как все это начиналось. Группаученых Гарвардскогоуниверситета в США (рук. Ф. Стоун) в 1961 г. начала разработку принциповподобной машинной обработки, проведя серию анализов самых различных текстов:газет, сочинений членов малых групп, программных речей, произнесенныхкандидатами на президентский пост от демократической и республиканской партийСША, личных документов(писем, дневников, автобиографий)99.
В рамках этого исследования было разработанонесколько программ со следующими общими требованиями: компьютер отыскивает втексте лингвистическиеаналоги тем категориям, которые интересуют и оговорены исследователем;подсчитывает частоту употребления этих категорий и их сочетания; выводитрезультаты в таблицы распределений; группирует текст в зависимости от употребляющихся тамкатегорий ит.д.
Эти операции компьютер осуществлял толькопосле того, как в его память были заложены языковые знаки (слова, идиомы,фразы), которые всвоих группировках могут быть выражены на понятийном языке социальной теории исследователяи каждая из которых представляет из себя определенную переменную величину в его гипотезах. Дляэтого исследователь составляет словарь своего исследования: понятийному слову в качестве егорасшифровки даны носители его смысла в бытующем в реальностиязыке.
Построение такого словаря аналогичнопостроению тезауруса — языка определенной области человеческого знания, когда ключевымсловам из этой области знаний соответствует синонимический рядобщеупотребительных слов. Таким образом, словарная статья в тезаурусе - это более крупный семантический блок,чем словарная статьяобычного толкового словаря.
Обозреваемое нами комплексное исследованиевключает следующиесамостоятельные анализы.
Исследование Д. Данфи связано с изучениеммалых групп, оно основано на анализе вербального поведения членов малых групп.Целью этого изучениябыло выяснение ролевых различий в группах, связей, отношения к фигуре формальногонаставника - все это вовременном развитии.Материалом для анализа были сочинения испытуемых групп. Основными категориямибыли самоотождествление, величина группы, служащей для испытуемых референтной,действия и эмоции, институциональный контекст и т.д.
Группа исследований была связана сполитическими текстами, в частности, анализ М. Смитом, Ф. Стоуном и Е. Гленнпрограммных речей, произнесенных кандидатами на президентский пост отдемократической иреспубликанской партии США в течение 36 лет (от Смита и Гувера до Джонсона иГолдуотера).
Исследователи Дж. Нейменвирс и Т. Брейерпровели анализ статей,опубликованных в газетах The Times (Англия), Le Monde (Франция), FrankfurturAllgemeine Zeitung (тогда еще Западная Германия), The New York Times (США), напредмет того, как, по их мнению, обстоит дело с политической интеграцией западных стран в связи ссуществованиемэкономических и военных союзов между ними.
Процесс межгосударственной интеграциипонимался как изменение следующих четырех элементов: характер принятия решений,касающихся судеб различных стран; обмен между странами почтой, студентами;торговля, иммиграция; мнения масс и элиты по поводу перспектив на этот счет.Показателями изменений в ориентации анализируемых престижных газет быливыбраны внимание к национальным и региональным символам и степень тождественности вориентации газет всехчетырех стран.
Даниэл М. Огилви построил специальныйсловарь для проверки гипотезы о существовании так называемого комплексаИкара, психологического явления, которое отмечалось по наблюдениямпсихологов за рядомсвоих пациентов. Огилви решил подвергнуть испытанию эту гипотезу, проанализировавтекстовые материалы, созданные в рамках разных культур. В качестве такогоматериала были выбраны сказки - 626 сказок из 44 примитивных сообществ. Контент-анализ этих сказокбыл предварен созданием так называемого Икарианского словаря, охватывающего74 категории и 2500 слов, их наполняющих. Для разработки системыкатегорий использовались разные источники: работы исследователей, описывающих комплекс Икара, историижизни людей, явно обладавших этим комплексом, тексту наблюдений за нимипсихотерапевтов и т.д.
Поскольку изначально комплекс Икараопределялся как направленность на полет, падение, огонь, воду, бессмертие инарциссизм,, гипотезу о существовании комплекса на уровне анализируемыхсказок можно было, помнению автора, считать доказанной, если эти темы окажутся связанными вконкретных единицах фольклора, или на определенном этапе окажется возможным поодним темам предсказать появление в анализируемом тексте смежных тем. Итоганализа состоял врасчете корреляций между 74 категориями и факторном анализе конечнойматрицы.
С самых первых попыток использованияэлектронно-счетных устройств для работы с текстом становились яснымипреимущества и недостатки обработки текстового материала с помощью машин- они обеспечивалиадекватность анализа огромных текстовых материалов, но требовали огромныхусилий по составлению программы - собственно словника, с учетом всех синонимических вариантов понятий,которые надо будетотыскивать в этом море пропускаемых через машину слов. Не случайно, что многие изтех анализов, которые были проделаны в Гарвардском университете, использовали категориальныйаппарат ранее проделанных исследований и лобкатывали его на компьютерах.
Для начала же авторы системы ДженераИнкуайерер создали отперфорированные тексты с общим количеством слов, равным 6миллионам. Из этих слов была произведена выборка в 511 тыс. слов.Тексты, попавшие ввыборку, были просеяны через процедуру поиска ключевого слова. В результатеосуществления этой процедуры исследователи получили распечатку всехслучаев употребления интересующих их слов в выбранной совокупности текстов. Нареализацию процедурыушло шесть часов машинного времени, а полученная распечатка была толщиной внесколько десятков сантиметров. Одним из самых неожиданных результатовпроцедуры было то, что для определения смысла ключевого слова оказалось вполнедостаточно нескольких слов, расположенных по обе стороны ключевого слова. Тоесть для ряда задач ненужно было иметь значения всего предложения целиком, включая анализ его синтаксическойструктуры. Но оставались еще местоимения, идиомы и т.д.
Хотя первые словники создавалисьисследователями под конкретные задачи и главным тут была идентификация ключевых слов, самиавторы отлично понимали перспективы развития компьютерного дела - их размышления о том, что наборнаяклавиатура, связанная с компьютером, будет обычной принадлежностью школьного класса иделового офисаучителя, бухгалтера, психотерапевта, библиотекаря (ясно видно, что этиразмышления относились к дореволюционной эпохе - до революции, когда был изобретенперсональный компьютер), звучат сегодня как предвидение. Но для того чтобывыполнять все эти ожидаемые операции, нужно было, чтобы компьютер мог различать нетолько слова, но и смысл более пространных языковых единиц. Для этого нужнобыло решение проблемы синтаксического анализа. К сегодняшнему дню частично такиепроблемы решены, коль скоро мы доверяем своему компьютеру - при наличии в нем специфическихпрограмм - проверку ошибок набранного текста.
Отметим существенный момент в разработкеметодологии анализатекста с помощью машины (что помимо всего прочего означало движение в направлении общениячеловек-машина): как только исследователи вышли на изучение диалога, они осознали, что эта проблемавыводит их за пределы узкоспециальных ведомственных словарей...
С тех пор машинный метод обработки текстовыхмассивов все больше находит себе применение. При чем мы имеем в данном случаене те чисто прикладные случаи, когда машина помогает отыскать нужную вам научную литературу поключевым словам, которые такая литература имеет заранее в виде своеобразной паспортички (или патентизобретения, если вы хотите проверить, не изобрел ли кто уже предлагаемый вами велосипед); илипрактику, по которой работает Международный междисциплинарный Индекс публикаций (CitationIndex) - индекс представляет из себя распечаткустатей из 7000 журналов, издаваемых во всем мире, по лицам, упоминаемым там. Каждоеупоминание лица классифицируется по источнику: является ли оно автором статьи,упоминается ли в ходе дискуссии, появляется ли его имя в рецензии, вбиблиографии и т.д. Более детальный вариант этого индекса по социальнойпроблематике содержит роспись всех статей по ключевым словам.
Так, выпуск 1984 г. содержит данные о1000000 статей из этих журналов, а поскольку форма его выхода - алфавитный список упоминаемых фамилий- то это составляет 10,5млн. ссылок. К примеру, в течение нескольких минут мы можем (а этот Индекс естьв Государственнойроссийской библиотеке) определить, какие статьи по этой проблематике напечатаныво всем мире в период, например, мая-августа1985 г. Оказалось, что за это время было опубликовано 7 статей (все вамериканских журналах): три посвящены исследованиям речи лиц спсихопатологическими изменениями, статья У. Миллса по содержанию китайской пропаганды,статья К. Уинника Контент-анализ журналов с сексуальной тематикой. Всеупоминания снабжены указанием названия журнала, тома, номера истраниц.
Уже через десять лет после этого пионерскогопроекта Ф. Стоуна и его коллег практически повсеместно стали осуществлятьсяпроекты контент-аналитических исследований с применением ЭВМ. На состоявшемся в 1974 г. в Италиирабочем совещании по проблемам контент-анализа было представлено несколькотаких проектов, в частности проект международного исследования газетных заголовков сзадачами определения внимания различных газет к местным, общенациональным и международнымсобытиям, сравнения внимания американских и европейских газет к проблемам лобщего рынка,сравнения освещениягражданской войны в Нигериигазетами разных стран и др. Германия была представлена на этой конференциипроектом по созданию специализированного словаря для целей анализасодержаниятекстов100.
Как ни странным это покажется на первыйвзгляд, именно пример с машинной обработкой текстов иллюстрирует очень важнуюдля понимания сущности контент-анализа мысль. И в другом местеучебника эта мысль непрозвучала бы так явственно. Анализ содержания как метод не обладаетмагическими качествами - вы не получите из него больше, чем вложили в него.Если нечто значительное, важное, необычное не предусмотрено процедурой,то оно не появится в результате анализа, каким бы сложным и кропотливым он ни был.
Говоря о машинной обработке текстов, мыдолжны уточнить, что сейчас обсуждали случаи, когда компьютер оперируетнепосредственнотекстом. Гораздо более часты случаи, когда ЭВМ используется, грубо говоря, какарифмометр, оперируя с введенными в него кодировочными карточками, которые ужесодержат итоги наблюдения за текстом, осуществленного исследователем. Сейчасэто уже распространенная практика.
Выбор единицнаблюдения
Даже только начинающие овладевать методоманализа содержанияисследователи начинают с вопроса: сколько текстовнадо исследовать, чтобы исследование считалоськорректным Мне даже кажется, что они не до конца осознают важность этоговопроса - а важность вответе, которым должно начинаться каждое исследование, где автор заявляет: Яизучил такое-то количество текстов. Этого достаточно, чтобы сделать выводы отаком-то периоде деятельности источника. Просто начинающего исследователяберет легкая оторопь от осознания сложности, тщательности, пунктуальности, трудоемкостиметода - подчеркиваем, что эти характеристикидолжны быть присущи методу всегда - и он задает этот вопрос, чтобы получить логичный ответ, насколькоминимальной должна быть выборка изучаемых текстов, чтобы по возможности максимальным был период, на который мыраспространяем свои выводы.
Вопрос этот вполне логичен. Методологиямногих наук основана на том, что целое описывается по его части.
Вспомним, что, например, такая отрасльсоциологии, как зондирование общественного мнения, смогла встать на индустриальныерельсы не раньше, чемдля институтов, специализирующихся на таком зондировании, был решен вопрос снаучной выборкой. Стали известны законы отбора отдельных индивидуумов, чтобысравнительно небольшоеих число - в случае,например, с американским институтом общественного мнения Дж. Гэллапа, это1500 -2000 американцев- позволило распространять данные опросана все население США. Говоря научным языком, с разработкой научной теориивыборки была решенапроблема, как добиться надежных обобщений при интенсивном изученииотносительно небольшого числа случаев. Реально выборка представлялавозможность экономично, при большой скорости проведения работ, профессиональнопровести опрос, который зачастую дает более верную информацию, чем сплошноеобследование.
Кстати, вспомним, что на заре исследованийобщественного мненияименно выборка подвергалась поистине уничтожающей критике оппонентов изученияобщественного мнения. Обыденное сознание никак не могло согласиться с тем, чтодостаточно опросить всего 1500 человек, чтобы знать, что думают поопределенному поводу 150 млн. человек.
Главное, что мы должны себе представить, этото, что существуют различные типы выборок и что далеко не все из них сможетприменить на практикеконтент-аналитик.
Не последняя тут проблема - доступность материала. Хотя библиотекимногих стран уже давно озаботились проблемой сохранности продукции СМК дляпотомства, пробелов здесь множество. Как правило, хранятся только самыепрестижные газеты101. Особенно остростоит эта проблема поотношению к продукции радио и телевидения. Это может быть естественнымограничителем при общей разработанности технологии выборок.
Pages: | 1 | ... | 15 | 16 | 17 | 18 | 19 | ... | 34 |