Рич Р. К. Политология. Методы исследования: Пер с англ. / Предисл. А. К. Соколова
Вид материала | Анализ |
- Рич Р. К. Политология. Методы исследования: Пер с англ. / Предисл. А. К. Соколова, 6313.29kb.
- Н. Ю. Алексеенко под редакцией д-ра биол наук, 1890.25kb.
- Сорокин П. А. С 65 Человек. Цивилизация. Общество / Общ ред., сост и предисл., 11452.51kb.
- Дэвид Дайчес, 1633.42kb.
- Mathematics and the search for knowledge morris kline, 498.28kb.
- Указатель литературы по методам и методикам исследования общие вопросы психологического, 348.83kb.
- edo ru/site/index php?act=lib&id=186 Густав Эдмунд фон Грюнебаум Классический, 2844.73kb.
- «хм «Триада», 9393.37kb.
- Анастази А. А 64 Дифференциальная психология. Индивидуальные и групповые разли- чия, 11288.93kb.
- Шелтон Г. М. – Ортотрофия. Основы правильного питания, 3135.34kb.
Конструктную валидизацию осуществляют, выводя валидность измерения из данных о степени соответствия реальных соотношений между оценками по различным измерениям ожиданий, следующих из теории, предписывающей нам использовать данный показатель. При этом рассуждение ведется по двум направлениям.
Прежде всего, мы должны сказать себе: “Если понятие Х положительно связано с понятием Y и отрицательно – с понятием Z (как и предсказывает наша теория), верно будет также и то, что оценки понятия Х в валидном измерении будут положительно связаны с оценками понятия Y в валидном измерении и отрицательно – с оценками понятия Z в валидном измерении”. Мы не можем валидизировать измерение, сравнивая оценки в этом измерении с оценками той же переменной в другом измерении, которое, как мы знаем, является валидным (как в случае свидетельства о рождении). Однако мы можем судить о его валидности по тому, в какой степени использование данного измерения в качестве показателя переменной создает те же типы отношений между данной переменной и другими переменными, которые мы ожидаем в соответствии с нашей теорией.
В качестве примера возьмем изучение международных сообществ. Мы могли бы построить измерение надежности такого союза на основе контент-анализа газетных публикаций соответствующих стран. Является ли валидным показателем надежности сообщества двух стран то. что газеты данного государства пишут о другом государстве? Мы могли бы ответить на этот вопрос, рассуждая следующим образом: “В соответствии с нашей теорией, чем надежнее сообщество государств, тем чаще они будут одинаково голосовать в ООН и тем меньше ограничений на взаимную торговлю они будут накладывать. Поэтому оценки [c.103] надежности сообщества в валидном измерении будут положительно связаны с оценками в измерениях одинакового голосования в ООН и отрицательно связаны с оценками в измерениях количества торговых ограничений. Затем мы переходим к анализу данных, необходимому для установления того, подтверждается ли это ожидание нашими наблюдениями. Если соотношения окажутся такими, как ожидалось, наша уверенность в валидности измерения надежности сообщества будет выше. Если соотношения будут иными, чем мы ожидали, мы зададимся вопросом, надежным ли измерением для этого понятия мы располагаем”.
То, что мы только что описали, часто называют внешней валидизацией При этом осуществляется сравнение оценок в измерении, подвергающемся валидизации, с оценками в измерениях для других переменных. Разумеется, для использования этого метода валидизации нам придется включить в наше исследование измерения других переменных. Это означает, что нем следует обдумывать способы валидизации наших измерений уже на ранних этапах процесса исследования. Безусловно, к тому моменту, когда мы будем готовы разрабатывать план исследования, мы должны знать, как будет проверяться валидность наших измерений, для того чтобы наверняка собрать всю необходимую информацию.
Попытки внешней валидизации дадут убедительные доказательства валидности нашего измерения для одной переменной лишь в том случае, если мы будем убеждены в валидности измерений, используемых для остальных переменных. Так, в последнем примере мы не смогли бы сделать никаких выводов относительно валидности измерения надежности сообщества на основе соотношений оценок в данном измерении и оценок двух других переменных, если бы мы не считали показатели одинакового голосования и торговых ограничений валидными. Поскольку часто бывает трудно обнаружить безусловно валидные показатели для переменных, с которыми должна быть связана ключевая переменная, процедуры внешней валидизации следует применять с осторожностью. Все это очень напоминает процедуру проверки гипотезы. Никакой отдельно взятый результат не гарантирует валидности (или невалидности) измерения. Скорее, по мере накопления случаев успешной валидизации наша уверенность [c.104] в валидности измерения возрастает. По этой причине для использования во внешней валидизации разумно искать как можно больше предсказанных теорией отношений. Чем больше имеется в нашем распоряжении разных способов проверки валидности, тем надежнее наш результат.
Та же самая логика рассуждений применима ко второму типу конструктной валидизации – внутренней, или конвергентной, валидизции. Этот тип валидизации включает разработку нескольких измерений для одной и той же переменной и сравнение между собой этих разных измерений. Мы считаем, что, если каждый из показателей дает для рассматриваемого понятия валидное измерение, оценки, получаемые конкретными объектами в этих измерениях, должны быть тесно связаны. Если и А, и В, и С являются валидными измерениями для Х, то оценки любого конкретного объекта в измерениях А, В и С должны быть очень близки.
Предположим, например, что мы хотим получить показатель для качества уличного освещения в окрестностях жилья в рамках изучения работы коммунальных служб. Мы могли бы использовать в качестве такого показателя оценку достаточности уличного освещения, по мнению жителей (выявляется с помощью выборочных интервью). Мы можем выборочно опросить живущих по соседству людей, насколько хорошо, по их мнению, освещена улица около их дома, и взять среднюю оценку за меру качества уличного освещения. Чтобы осуществить внутреннюю валидизацию, мы можем измерить качество уличного освещения также: 1) использовав световой счетчик для получения физической меры яркости и распределения освещения; 2) получив оценки освещенности, сделанные специально обученными наблюдателями; 3) попросив жителей сравнить освещение на улицах с освещением на фотографиях, изображающих улицы, освещенные в разной степени, и усреднив их оценки для получения значения освещенности окрестностей их домов. Таким образом, мы получаем четыре измерения переменной. Если каждое из них является валидным, все они должны быть тесно связаны. Можно проверить это с помощью соответствующих статистических расчетов. Если мы обнаружим, что оценки измерения, в основе которого лежат ответы на вопросы интервью, слабо связаны с оценками остальных трех измерений и что при этом оценки этих трех измерений тесно [c.105] связаны друг с другом, у нас будет основание подозревать, что первое измерение невалидно.
Это очень похоже на взвешивание одного и того же предмета на трех разных весах. Если каждые весы показывают точный вес и у нас нет оснований считать, что в ходе эксперимента вес объекта изменился, мы вправе ожидать, что все эти весы покажут один и тот же вес. Если еще одни весы показывают вес, отличный от данного, можно подозревать, что они не отрегулированы.
На рис.3.5 изображены различия между внутренней и внешней формами конструктной валидизации. Рис.3.5а показывает, что внутренняя валидизация осуществляется через проверку соответствия оценок нескольких разных измерений для одного и того же понятия. Чем точнее это соответствие, тем увереннее мы себя чувствуем, утверждая, что каждое измерение валидно. Рис. 3.5б демонстрирует, что для внешней валидизации требуется установить, как наше измерение одной переменной связано с другими переменными, согласно теоретическим представлениям. Если ожидаемое отношение не проявляется, мы вправе подозревать, что выбранный нами показатель не обеспечивает валидного измерения для понятия. (В гл.14 мы обсудим статистические расчеты, которые можно использовать для определения степени реальной связанности разных измерений.)
Рис. 3.5. Формы конструктной валидизации
Пользуясь внутренней валидизацией, необходимо соблюдать те же предосторожности, которые требуются при внешней валидизации. Мы не всегда можем быть уверены, что наши альтернативные измерения ключевого понятия валидны, и поэтому мы должны с осторожностью делать вывод о валидности или невалидности измерения [c.106] на основании любой проверки валидизации. Наша уверенность в результатах внутренней валидизации может существенно возрасти, если мы последуем простому правилу: альтернативные измерения понятия должны основываться на возможно большем числе различных операционализаций.
В примере с уличным освещением измерения имеют в качестве источника четыре разных типа операционализаций: словесные оценки жителей, физические измерения, оценки наблюдателей и отбор фотографий, произведенный жителями. Каждый из них представляет особый способ операционализации. Чем больше разных способов мы можем использовать и чем более они взаимонезависимы, тем больше мы можем доверять нашей валидизации. Почему? Логика рассуждения здесь такова. Основной источник невалидности – это систематические и случайные ошибки измерения. Разные измерения подвержены ошибкам разных типов. Чем больше показателей для некоторой переменной у нас имеется и чем сильнее они отличаются друг от друга, тем менее вероятно, что во всех показателях проявится одна и та же ошибка измерения. А если это так, то у нас будет больше возможностей обнаружить ошибку измерения как источник различий в оценках в любом измерении и получить точное измерение для переменной в том случае, если мы будем использовать множественные показатели7.
Например, факторы, способные сделать непригодным физическое измерение качества уличного освещения (такие, как неисправный световой счетчик), по-видимому, совершенно не связаны ни с какими факторами, которые могли бы внести систематические ошибки в измерение, основанное на оценках жителей (такими, как характерная для людей тенденция считать, основываясь на чувстве местного патриотизма, что их коммунальные службы не хуже, чем в других местах). Если мы используем только один способ измерения, любой источник ошибок измерения может сказаться на оценках в каждом измерении, постоянно предоставляя нам негодный показатель и не давая возможности осуществлять значимые сравнения между измерениями. Если, например, мы опираемся только на физическое измерение освещенности, но снимаем показания несколькими разными способами (на [c.107] тротуаре, на краю тротуара и на мостовой), любой дефект измерительного инструмента (в данном случае светового счетчика) будет оказывать влияние на все измерения и ни одно нельзя будет использовать для проверки другого.
При таком подходе множественные показатели для переменных имеют очень большое значение. Наличие множественных измерений не только дает нам возможность проверить валидность наших показателей, но также в первую очередь увеличивает наши шансы получить валидное измерение переменных. Множественные измерения могут на самом деле повысить валидность измерения, позволяя скомбинировать результаты нескольких разных процедур для получения сложной оценки, которая скорее будет являться правильным отражением действительного значения переменной, чем каждое из измерений, взятое в отдельности. Такая сложная оценка с большей вероятностью будет представлять собой валидное измерение, так как не исключено, что при объединении результатов нескольких процедур измерения ошибки, приводящие к невалидности каждого измерения, нейтрализуются.
Здесь действует практически тот же принцип, что и при взвешивании предмета на многих разных весах. Поскольку весы несовершенны, каждый прибор может показать несколько иное значение веса – чуть тяжелее или чуть легче. Однако если предмет взвешивается на нескольких весах, в соответствии с законами теории вероятности достаточно высока вероятность того, что эти небольшие ошибки нейтрализуют друг друга, давая средний вес, который является правильным. Сходным образом, если мы операционализируем понятия несколькими разными способами, так что ошибка измерения, связанная с каждой операционализацией, не зависит от ошибок, сопровождающих все остальные операционализации, мы получаем хорошие шансы обеспечить точное измерение понятия, комбинируя разные оценки. (В разделах гл.8, посвященных шкалированию и индексированию, будут описаны некоторые возможные методы комбинирования оценок для получения составного измерения.)
Третий способ валидизации называется дискриминантной валидизацией. Задавая вопрос, обладает ли измерение дискриминантной валидностью, мы интересуемся главным образом тем, возможно ли, используя данное [c.108] измерение в качестве показателя некоторого понятия, отличить это понятие от других. Например, если бы мы захотели измерять понятие доверия к политическим деятелям с помощью ряда вопросов обследования, а в нашей анкете есть ряд вопросов, предназначенных для измерения понятия доверия к людям (вообще), то, сравнивая оценки двух измерений, мы можем спросить себя, не отражает ли первый набор вопросов всего лишь иной способ измерения доверия к людям. Если оценки очень близки, мы скажем, что измерение политического доверия не обладает дискриминантной валидностью, поскольку не позволяет отличить понятие “доверие к политическим деятелям” от понятия “доверие к людям”. [c.109]
Наконец, последний способ валидизации опирается на понятие очевидной валидностн. Некоторые измерения основаны на столь прямом наблюдении за исследуемым поведением, что задавать вопрос об их валидности представляется неразумным: такое измерение кажется валидным “по внешнему виду”. Предположим, например, что мы хотим измерить степень соблюдения государственного закона, требующего наличия на входной двери каждой фирмы патента на соответствующую деятельность. По-видимому, обучив наблюдателей просто отмечать наличие или отсутствие таких патентов, мы получим явно валидное измерение выполнения закона. И хотя мы всегда должны спрашивать себя, являются ли выбранные нами измерения валидными по внешнему виду, как правило, мы совершали бы ошибку, если бы гарантировали точность результатов исследования, опираясь на одну лишь очевидную валидность. Мы должны попытаться удостоверить валидность наших измерений с помощью стандартных процедур типа тех, что описывались выше.
Основные свойства четырех рассмотренных типов валидизации представлены в табл. 3.1. Если мы хотим на основании наших исследований сделать правильные выводы, мы должны располагать валидными измерениями. Однако чтобы быть валидными, измерения должны быть также надежными. [c.110]
Таблица 3.1
Типы валидизации
Прагматическая валидизация | Конструктная валидизация | Дискриминантная валидизация | Очевидная валидизация |
Сверить результаты, полученные путем использования показателя, с результатами, полученными путем использования другого показателя, признанного в качестве валидного измерения соответствующего понятия; или проверить прогностическую валидность показателя, использовав его для предсказания событий, отражающих измеряемое понятие. | Внутренняя (конвергентная) валидизация: сделать вывод о валидности показателя на основании его соотношения с другими показателями для того же самого понятия, использующего множественные показатели. Внешняя валидизация: сделать вывод о валидности показателя на основании его соотношения с показателями для других понятий, с которыми измеряемое понятие теоретически должно быть связано. | Сделать вывод о валидности показателя на основании степени несоответствия показателям для других понятий, теоретически отличных от измеряемого понятия. | Признать валидность, исходя из непосредственной очевидности показателя. (Можно ли убедить людей, находящихся в курсе дела, что это валидный показатель для данного понятия?) |
НАДЕЖНОСТЬ
Когда мы говорим о валидности измерения, нас интересует, насколько точно значения, получаемые с помощью этого измерения, соответствуют истинным значениям измеряемой переменной. Когда мы говорим о надежности измерения, нас интересует устойчивость получаемых с его помощью значений. Можем ли мы, применяя измерение несколько раз, получить для любого данного объекта одно и то же значение или же в результате разных подходов одним и тем же объектам приписываются разные значения? Если при неоднократном применении некоторого измерения один и тот же объект не получает одного и того же значения, это измерение является ненадежным показателем соответствующего понятия. Чтобы гарантировать надежность линеек, их изготавливают из нерастяжимого материала. Если бы линейки изготовляли из растяжимых материалов, они вполне могли бы [c.110] показывать разную длину одного и того же объекта (даже в том случае, если его длина на самом деле не изменилась) просто потому, что линейка растягивается и сжимается.
Если измерение ненадежно, оно не может быть валидным, поскольку по крайней мере некоторые различия в оценках, приписанных объектам, обусловлены ошибками измерения, а не истинными различиями между объектами. Вспомним наш пример с исследованием уличного освещения. Что, если используемый нами световой счетчик окажется настолько чувствительным, что будет фиксировать не только свет от уличных фонарей, но и лунный свет? Тогда значения переменной качество уличного освещения для каждой улицы будут зависеть как от яркости уличных фонарей, так и от случайных факторов, таких, как фазы Луны и характера облачности. В той степени, в которой эти случайные факторы влияют на наши результаты, измерение оказывается невалидным отражением действительных различий в качестве уличного освещения. В этом случае ненадежность обусловливает невалидность.
Измерение может быть вполне надежным и все-таки невалидным. Вспомним приводившееся в качестве примера исследование того, в какой степени люди в разных государствах одобряют политику своего правительства. Мы говорили, что вопросы, задаваемые в ходе обследования, могут привести к невалидным измерениям, поскольку в авторитарных странах люди боятся говорить правду о том, что они думают. Так как данный фактор обусловливает скорее систематическую, чем случайную ошибку, вопросы могли бы давать весьма устойчивые результаты. Вне зависимости от того, сколько раз их спрашивают, люди могли бы отвечать одно и то же. Это, однако, не делает измерение валидным.
Таким образом, измерение может быть надежным, не будучи валидным, но не может быть валидным, не будучи надежным. В то время как валидность уязвима и со стороны систематической, и со стороны случайной ошибки, надежность подвергается опасности лишь со стороны последней. Это означает, что, если в предшествующих исследованиях измерение было убедительно валидизировано, мы можем использовать его, не беспокоясь о его надежности: [c.111] если измерение валидно, оно должно быть надежно. Однако, продемонстрировав надежность, мы не гарантируем валидность.
Как застраховаться от ненадежности? Как определить, надежно ли данное измерение? Чтобы предотвратить угрозу ненадежности, необходимо знать о различных источниках случайных ошибок измерения, описанных нами в данной главе, и делать все возможное для установления контроля над ними. Следует, в частности, продумывать реальный процесс измерения и проводить предварительное тестирование инструментов измерения для выявления ранее неизвестных причин случайных ошибок.
В социальных науках часто бывает довольно сложно определить, надежно ли предлагаемое нами измерение. Это происходит потому, что истинное значение переменных, с которыми мы имеем дело, может коренным образом изменяться с течением времени и под давлением обстоятельств: люди меняют свое мнение под влиянием опыта; государства начинают по-иному распределять ресурсы между социальными службами и ведомствами оборонного характера в ответ на возникновение военной угрозы и т. п. Когда реальные значения так или иначе изменяются, трудно бывает отличить результаты воздействия случайных ошибок измерения от действительных колебаний в рамках измеряемых понятий. Это означает, что тесты на надежность следует проводить через максимально короткие промежутки времени.
В социальных науках имеется три типа методов установления надежности измерений. Первый – это метод неоднократного тестирования. В этом случае одно и то же измерение снова и снова применяется в отношении одного и того же набора объектов. Если объекты всякий раз получают одну и ту же оценку, измерение считается надежным. Трудности с данным методом возникают в том случае, когда измерение связано с интервьюированием людей (в отличие от измерения характеристик неодушевленных объектов или осуществления скрытого наблюдения за людьми). Если мы повторяем вопросы через короткий промежуток времени, интервьюируемые могут помнить данные ими ранее ответы и, стараясь быть последовательными, будут повторять эти ответы, вместо того чтобы правдиво отвечать на поставленный вопрос. Если возникает [c.112] такая ситуация, мы оказываемся не в состоянии правильно оценить надежность вопросов как показателя для данного понятия. Пытаясь избежать такого тест-эффекта, мы могли бы приступить к повторному опросу лишь по прошествии значительного промежутка времени. Однако в этом случае мы столкнемся с другой проблемой: с течением времени истинные значения переменной могли измениться, и мы можем оказаться не в состоянии отличить изменения в оценках, возникающие из-за ненадежности измерения, от действительных изменений переменной.
Указанная проблема привела к созданию другого теста на надежность – метода альтернативной формы. В соответствии с этим методом в один и тот же момент разные формы измерения применяются к одной и той же группе объектов либо одно и то же измерение применяется к разным группам объектов. В этом случае тест-эффект невозможен, поскольку ни один объект не измеряется более одного раза, а так как измерения не отделены друг от друга никакими временными интервалами, на результатах измерений не могут сказаться реальные изменения исследуемых переменных. Однако успех этой стратегии зависит от того, насколько хорошо сопоставимы друг с другом альтернативные формы измерения как измерения данного понятия, и от того, действительно ли две группы эквивалентны с точки зрения дистрибуции измеряемой переменной. Если у нас есть основания полагать, что эти условия выполняются, то, чем более близки оценки по двум измерениям или по двум группам, тем более мы можем быть уверены в надежности измерения. Однако если в нашем распоряжении нет сравнимых измерений или групп, мы не можем использовать данный метод должным образом.
Наконец, последний способ тестирования надежности измерения известен под названием метода подвыборки. Этот метод заключается в том, что, сформировав выборку из объектов, мы делим ее на несколько подвыборок таким образом, чтобы все они были похожи друг на друга. Затем мы применяем одно и то же измерение ко всем подвыборкам и используем сходство или различие результатов для подвыборок как показатель надежности измерения. Поскольку мы используем одно и то же измерение, у нас нет