Книги по разным темам Pages:     | 1 |   ...   | 15 | 16 | 17 | 18 | 19 |   ...   | 34 |

Но вспомним, как все это начиналось. Группаученых Гарвардско­гоуниверситета в США (рук. Ф. Стоун) в 1961 г. начала разработку принциповподобной машинной обработки, проведя серию анализов самых различных текстов:газет, сочинений членов малых групп, про­граммных речей, произнесенныхкандидатами на президентский пост от демократической и республиканской партийСША, личных доку­ментов(писем, дневников, автобиографий)99.

В рамках этого исследования было разработанонесколько программ со следующими общими требованиями: компьютер отыскивает втек­сте лингвистическиеаналоги тем категориям, которые интересуют и оговорены исследователем;подсчитывает частоту употребления этих категорий и их сочетания; выводитрезультаты в таблицы распределе­ний; группирует текст в зависимости от употребляющихся тамкатего­рий ит.д.

Эти операции компьютер осуществлял толькопосле того, как в его память были заложены языковые знаки (слова, идиомы,фразы), кото­рые всвоих группировках могут быть выражены на понятийном язы­ке социальной теории исследователяи каждая из которых представля­ет из себя определенную переменную величину в его гипотезах. Дляэтого исследователь составляет словарь своего исследования: поня­тийному слову в качестве егорасшифровки даны носители его смыс­ла в бытующем в реальностиязыке.

Построение такого словаря аналогичнопостроению тезауруса — языка определенной области человеческого знания, когда ключевымсловам из этой области знаний соответствует синонимический рядобщеупотребительных слов. Таким образом, словарная статья в теза­урусе - это более крупный семантический блок,чем словарная ста­тьяобычного толкового словаря.

Обозреваемое нами комплексное исследованиевключает следую­щиесамостоятельные анализы.

Исследование Д. Данфи связано с изучениеммалых групп, оно основано на анализе вербального поведения членов малых групп.Це­лью этого изучениябыло выяснение ролевых различий в группах, свя­зей, отношения к фигуре формальногонаставника - все это вовре­менном развитии.Материалом для анализа были сочинения испытуе­мых групп. Основными категориямибыли самоотождествление, величина группы, служащей для испытуемых референтной,действия и эмоции, институциональный контекст и т.д.

Группа исследований была связана сполитическими текстами, в частности, анализ М. Смитом, Ф. Стоуном и Е. Гленнпрограммных речей, произнесенных кандидатами на президентский пост отдемок­ратической иреспубликанской партии США в течение 36 лет (от Сми­та и Гувера до Джонсона иГолдуотера).

Исследователи Дж. Нейменвирс и Т. Брейерпровели анализ ста­тей,опубликованных в газетах The Times (Англия), Le Monde (Франция), FrankfurturAllgemeine Zeitung (тогда еще Западная Германия), The New York Times (США), напредмет того, как, по их мнению, об­стоит дело с политической интеграцией западных стран в связи ссу­ществованиемэкономических и военных союзов между ними.

Процесс межгосударственной интеграциипонимался как измене­ние следующих четырех элементов: характер принятия решений,касающихся судеб различных стран; обмен между странами почтой, студентами;торговля, иммиграция; мнения масс и элиты по поводу перспектив на этот счет.Показателями изменений в ориентации ана­лизируемых престижных газет быливыбраны внимание к нацио­нальным и региональным символам и степень тождественности вори­ентации газет всехчетырех стран.

Даниэл М. Огилви построил специальныйсловарь для проверки гипотезы о существовании так называемого комплексаИкара, психологического явления, которое отмечалось по наблюдениямпсихо­логов за рядомсвоих пациентов. Огилви решил подвергнуть испыта­нию эту гипотезу, проанализировавтекстовые материалы, созданные в рамках разных культур. В качестве такогоматериала были выбраны сказки - 626 сказок из 44 примитивных сообществ. Контент-анализ этих сказокбыл предварен созданием так называемого Икарианского словаря, охватывающего74 категории и 2500 слов, их наполняю­щих. Для разработки системыкатегорий использовались разные ис­точники: работы исследователей, описывающих комплекс Икара, историижизни людей, явно обладавших этим комплексом, тексту наблюдений за нимипсихотерапевтов и т.д.

Поскольку изначально комплекс Икараопределялся как направленность на полет, падение, огонь, воду, бессмертие инарциссизм,, гипотезу о существовании комплекса на уровне анализируемыхска­зок можно было, помнению автора, считать доказанной, если эти темы окажутся связанными вконкретных единицах фольклора, или на определенном этапе окажется возможным поодним темам предсказать появление в анализируемом тексте смежных тем. Итоганализа состо­ял врасчете корреляций между 74 категориями и факторном анализе конечнойматрицы.

С самых первых попыток использованияэлектронно-счетных устройств для работы с текстом становились яснымипреимущества и недостатки обработки текстового материала с помощью машин- они обеспечивалиадекватность анализа огромных текстовых материалов, но требовали огромныхусилий по составлению программы - собствен­но словника, с учетом всех синонимических вариантов понятий,ко­торые надо будетотыскивать в этом море пропускаемых через маши­ну слов. Не случайно, что многие изтех анализов, которые были про­деланы в Гарвардском университете, использовали категориальныйаппарат ранее проделанных исследований и лобкатывали его на ком­пьютерах.

Для начала же авторы системы ДженераИнкуайерер создали отперфорированные тексты с общим количеством слов, равным 6миллионам. Из этих слов была произведена выборка в 511 тыс. слов.Тек­сты, попавшие ввыборку, были просеяны через процедуру поиска клю­чевого слова. В результатеосуществления этой процедуры исследова­тели получили распечатку всехслучаев употребления интересующих их слов в выбранной совокупности текстов. Нареализацию процеду­рыушло шесть часов машинного времени, а полученная распечатка была толщиной внесколько десятков сантиметров. Одним из самых неожиданных результатовпроцедуры было то, что для определения смысла ключевого слова оказалось вполнедостаточно нескольких слов, расположенных по обе стороны ключевого слова. Тоесть для ряда за­дач ненужно было иметь значения всего предложения целиком, вклю­чая анализ его синтаксическойструктуры. Но оставались еще место­имения, идиомы и т.д.

Хотя первые словники создавалисьисследователями под конкрет­ные задачи и главным тут была идентификация ключевых слов, самиавторы отлично понимали перспективы развития компьютерного де­ла - их размышления о том, что наборнаяклавиатура, связанная с ком­пьютером, будет обычной принадлежностью школьного класса иде­лового офисаучителя, бухгалтера, психотерапевта, библиотекаря (ясно видно, что этиразмышления относились к дореволюционной эпохе - до революции, когда был изобретенперсональный компьютер), звучат сегодня как предвидение. Но для того чтобывыполнять все эти ожи­даемые операции, нужно было, чтобы компьютер мог различать нетолько слова, но и смысл более пространных языковых единиц. Для этого нужнобыло решение проблемы синтаксического анализа. К се­годняшнему дню частично такиепроблемы решены, коль скоро мы доверяем своему компьютеру - при наличии в нем специфическихпрограмм - проверку ошибок набранного текста.

Отметим существенный момент в разработкеметодологии анали­затекста с помощью машины (что помимо всего прочего означа­ло движение в направлении общениячеловек-машина): как только исследователи вышли на изучение диалога, они осознали, что эта проблемавыводит их за пределы узкоспециальных ведомственных словарей...

С тех пор машинный метод обработки текстовыхмассивов все больше находит себе применение. При чем мы имеем в данном случаене те чисто прикладные случаи, когда машина помогает отыскать нуж­ную вам научную литературу поключевым словам, которые такая ли­тература имеет заранее в виде своеобразной паспортички (или патентизобретения, если вы хотите проверить, не изобрел ли кто уже предла­гаемый вами велосипед); илипрактику, по которой работает Меж­дународный междисциплинарный Индекс публикаций (CitationIn­dex) - индекс представляет из себя распечаткустатей из 7000 журна­лов, издаваемых во всем мире, по лицам, упоминаемым там. Каждоеупоминание лица классифицируется по источнику: является ли оно автором статьи,упоминается ли в ходе дискуссии, появляется ли его имя в рецензии, вбиблиографии и т.д. Более детальный вариант этого индекса по социальнойпроблематике содержит роспись всех статей по ключевым словам.

Так, выпуск 1984 г. содержит данные о1000000 статей из этих журналов, а поскольку форма его выхода - алфавитный список упоминаемых фамилий- то это составляет 10,5млн. ссылок. К примеру, в течение нескольких минут мы можем (а этот Индекс естьв Государ­ственнойроссийской библиотеке) определить, какие статьи по этой проблематике напечатаныво всем мире в период, например, мая-ав­густа1985 г. Оказалось, что за это время было опубликовано 7 статей (все вамериканских журналах): три посвящены исследованиям речи лиц спсихопатологическими изменениями, статья У. Миллса по со­держанию китайской пропаганды,статья К. Уинника Контент-анализ журналов с сексуальной тематикой. Всеупоминания снабжены указанием названия журнала, тома, номера истраниц.

Уже через десять лет после этого пионерскогопроекта Ф. Стоуна и его коллег практически повсеместно стали осуществлятьсяпроекты контент-аналитических исследований с применением ЭВМ. На со­стоявшемся в 1974 г. в Италиирабочем совещании по проблемам контент-анализа было представлено несколькотаких проектов, в ча­стности проект международного исследования газетных заголовков сзадачами определения внимания различных газет к местным, общена­циональным и международнымсобытиям, сравнения внимания аме­риканских и европейских газет к проблемам лобщего рынка,сравне­ния освещениягражданской войны в Нигериигазетами разных стран и др. Германия была представлена на этой конференциипроектом по созданию специализированного словаря для целей анализасодержа­ниятекстов100.

Как ни странным это покажется на первыйвзгляд, именно пример с машинной обработкой текстов иллюстрирует очень важнуюдля понимания сущности контент-анализа мысль. И в другом местеучебни­ка эта мысль непрозвучала бы так явственно. Анализ содержания как метод не обладаетмагическими качествами - вы не получите из него больше, чем вложили в него.Если нечто значительное, важное, нео­бычное не предусмотрено процедурой,то оно не появится в результа­те анализа, каким бы сложным и кропотливым он ни был.

Говоря о машинной обработке текстов, мыдолжны уточнить, что сейчас обсуждали случаи, когда компьютер оперируетнепосредствен­нотекстом. Гораздо более часты случаи, когда ЭВМ используется, грубо говоря, какарифмометр, оперируя с введенными в него кодировочными карточками, которые ужесодержат итоги наблюдения за текстом, осуществленного исследователем. Сейчасэто уже распространенная практика.

Выбор единицнаблюдения

Даже только начинающие овладевать методоманализа содержа­нияисследователи начинают с вопроса: сколько текстовнадо исследо­вать, чтобы исследование считалоськорректным Мне даже кажется, что они не до конца осознают важность этоговопроса - а важность вответе, которым должно начинаться каждое исследование, где автор заявляет: Яизучил такое-то количество текстов. Этого достаточно, чтобы сделать выводы отаком-то периоде деятельности источника. Просто начинающего исследователяберет легкая оторопь от осозна­ния сложности, тщательности, пунктуальности, трудоемкостимето­да - подчеркиваем, что эти характеристикидолжны быть присущи методу всегда - и он задает этот вопрос, чтобы получить логичный ответ, насколькоминимальной должна быть выборка изучаемых тек­стов, чтобы по возможности максимальным был период, на который мыраспространяем свои выводы.

Вопрос этот вполне логичен. Методологиямногих наук основана на том, что целое описывается по его части.

Вспомним, что, например, такая отрасльсоциологии, как зондиро­вание общественного мнения, смогла встать на индустриальныерель­сы не раньше, чемдля институтов, специализирующихся на таком зон­дировании, был решен вопрос снаучной выборкой. Стали известны законы отбора отдельных индивидуумов, чтобысравнительно неболь­шоеих число - в случае,например, с американским институтом обще­ственного мнения Дж. Гэллапа, это1500 -2000 американцев- позво­лило распространять данные опросана все население США. Говоря научным языком, с разработкой научной теориивыборки была реше­напроблема, как добиться надежных обобщений при интенсивном изученииотносительно небольшого числа случаев. Реально выборка представлялавозможность экономично, при большой скорости прове­дения работ, профессиональнопровести опрос, который зачастую дает более верную информацию, чем сплошноеобследование.

Кстати, вспомним, что на заре исследованийобщественного мне­нияименно выборка подвергалась поистине уничтожающей критике оппонентов изученияобщественного мнения. Обыденное сознание никак не могло согласиться с тем, чтодостаточно опросить всего 1500 человек, чтобы знать, что думают поопределенному поводу 150 млн. человек.

Главное, что мы должны себе представить, этото, что существуют различные типы выборок и что далеко не все из них сможетприме­нить на практикеконтент-аналитик.

Не последняя тут проблема - доступность материала. Хотя библиотекимногих стран уже давно озаботились проблемой сохранности продукции СМК дляпотомства, пробелов здесь множество. Как пра­вило, хранятся только самыепрестижные газеты101. Особенно остросто­ит эта проблема поотношению к продукции радио и телевидения. Это может быть естественнымограничителем при общей разработаннос­ти технологии выборок.

Pages:     | 1 |   ...   | 15 | 16 | 17 | 18 | 19 |   ...   | 34 |    Книги по разным темам