Лаак Я. тер Л01 Психодиагностика: проблемы содержания и методов

Вид материала

Подобный материал:

1 ... 5 6 7 8 9 10 11 12 ... 24

88

способны создать такой набор. Всегда соблазнительно видеть структуру или какой-либо план в случайных феноменах. В этом смысле случайные ошибки противоречат интуитивным представлениям.

Кроме того, в обыденном языке понятия надежности и валидности иногда отождествляются. Например, прогноз погоды называется надежным в том случае, если он соответствует реальным событиям, а не тогда, когда различные радиовещательные компании дают одинаковую информацию. Лекарство считается надежным тогда, когда оно дает желаемый эффект, но не когда различные специалисты выписывают одно и то же лекарство в сходных случаях.

Любое руководство по теории тестов перечисляет множество возможных источников случайных ошибок. В качестве таких источников могут быть названы: сам человек, колебания внимания и работоспособности, забывчивость, легкомысленное отношение, импульсивность. Второй источник — это среда. Окружение различается объективно и субъективно. Оно по-разному влияет на субъекта, работающего с тестом. Наконец, и сами методики, и процедуры, и даже сами исследователи могут быть источниками ошибок. В той мере, в какой можно учесть или устранить эти факторы, они не являются источниками «ненадежности» теста, но всегда остаются иные, неконтролируемые, ошибки. Существует ряд практических процедур, определяющих случайные ошибки. Теория «обобщаемости» («generalizability theory») Кронбаха, Глезера, Нанды и Раджаратнама (1972) наряду с другими может рассматриваться как система, упорядочивающая источники ошибок. Эта теория определяет различные коэффициенты надежности применительно к той конкретной области заданий, показатели которой психолог хочет обобщить: например, относительно заданий (внутренняя согласованность), относительно времени (стабильность) , относительно оценок разных экспертов (согласие между теми, кто производит оценивание). Дисперсионный анализ применяется для оценки всех источников (см., например, Van der Kamp, 1976, De Gruvter & Van der Kamp, 1991).

Надо признать, что психологам, математикам и методологам не так легко представить себе, что же такое случайная ошибка «на самом деле». Но, может быть, к этому и не

89

следует стремиться. В математических моделях трудностей с понятием случайной ошибки не возникает, а практическая ценность этого понятия доказана (личное сообщение Сниджерса, Амстердам, 20 декабря, 1994).

Исторически сложилось так, что надежность измерительного инструмента или процедуры измерения определяется с помощью двух конкретных показателей: ошибки измерения и коэффициента надежности. Первый отражает расхождение тестовых баллов, получаемых у одного человека. Если величина этого расхождения мала, то измерение может быть признано надежным. Стандартная ошибка рассматривается как стандартное отклонение в процессе большого числа измерений на одном и том же человеке. Практически это недостижимо, так как невозможно много раз предлагать работу с одним и тем же тестом одному и тому же человеку. Выходом из этой ситуации стало введение коэффициента надежности. Коэффициент надежности является выражением двух отношений: постоянства — непостоянства и стабильности — нестабильности. Существует несколько коэффициентов, описание которых можно встретить в любом руководстве по использованию тестов. В 1937 году Кьюдер и Ричардсон составили список этих коэффициентов. Хорошо известны предложенные ими KR-20 и KR-21.

Разработка первого коэффициента надежности приписывается Спирмену (1904). Если невозможно подвергнуть одинаковым тестовым испытаниям одного и того лее человека и не существует его двойника (ведь можно же подумать о монозиготных близнецах!), то, очевидно, нужно проявить некоторую изобретательность, чтобы создать «копию» этого человека. Оригинальное решение Спирмена заключалось в том, чтобы сконструировать неких искусственных «двойников для разных целей», по выражению Уиттманна (1988, стр. 513). То же было сделано Фишером, отцом дисперсионного анализа. Он тоже создавал искусственных двойников, используя их в разных целых. Результаты испытуемых внутри клеток матрицы двумерного распределе-ния представляют собой результаты «двойников», выбранных для оценки дисперсии ошибки. Это, конечно, не реальные, а статистически сконструированные двойники. Задания в тесте Спирмена — это «теоретические» двойни-

ки, потому что они представляют случайную выборку в одной из областей вопросов теста. Это было одной из причин определения надежности для параллельных тестов Гуллик-сена (1950). Блестящая идея Спирмена позволяет определить надежность в виде формулы: 1 минус отношение дисперсии ошибки к общей дисперсии (см. гл. 1).

У одного и того же теста могут быть различные коэффициенты надежности. Однако изначально нужно знать, какой тип надежности подходит для тех или иных практических и исследовательских целей. Например, что является наиболее приемлемым — согласие ли между экспертами, между разными измерениями, между разными заданиями одного и того же теста или двумя частями одного теста. Пользователь тестов должен выбрать коэффициент, наиболее соответствующий его целям. Обратившись к справочникам, можно определить, имеется необходимый коэффициент надежности или нет.

Понятие «надежность» используется для характеристи-.-ки тестов, методик и процедур оценивания. Под «надежностью» понимается повторяемость и согласованность результатов Тестирования. Концепция надежности предполагает также оценку неизбежных случайных ошибок. Считается, что расхождение между результатами тестирования в отношении какой-либо характеристики основывается на реально существующих, стабильных различиях между людьми. Допускается, что истинные результаты человека стабильны во времени. В основе лежит допущение, что однажды полученные показатели не изменяются (Feldt & Brennan, 1989, Wittmann, 1988, Nunnally & Bernstein, 1994). Это предположение присутствует в известных руководствах по теории тестов (Gulliksen, 1950). Следовательно, можно говорить об «истинных» баллах (истинных в платоновском смысле, т.е. подлинных, идеальных сущностей) , в соответствии с которыми все изменения во времени являются только «видимостью». В настоящее время исследователи уже не делают предположений о существовании неизменных истинных показателей, но требование надежности тестовых показателей остается, поскольку истинные или надежные показатели рассматриваются как предполагаемая оценка многих независимых повторных процедур тестирования. Однако эти истинные или надежные баллы могут изменяться с течением времени.

90

91

Понятие надежности в психодиагностике специально разработано для характеристики тестов и других методик. Теоретическая основа заимствована из теории тестов. Но применительно к психодиагностическому процессу концепция надежности обычно не рассматривалась. В каком смысле психодиагностический процесс может быть назван надежным и как можно оценить надежность процесса оценивания? Прямого ответа на этот вопрос не существует.

В первой главе приведено описание измерения случайной ошибки. Учет случайной ошибки позволяет обеспечить интервалы надежности для полученных баллов. Психодиагност предпочитает иметь дело не с точечным оцениванием, а с интервальным, при котором существует 95-процентная вероятность того, что будут получены истинные показатели человека. Кстати, синоптики, делая прогноз погоды, поступают примерно так же.

Невозможно не видеть ценность понятия случайной ошибки. Эти ошибки можно оценить с помощью некоторых искусственных конструктов («двойников» Спирмена). Однако они остаются чуждыми нашему интуитивному пониманию. Представление о надежности на уровне здравого смысла иногда имеет сходство с психологической концепцией валидности. Отметим, что представляется достаточно соблазнительным рассматривать полученные результаты как стабильные. Однако такого условия нет в современной теории тестов. Классическое понятие параллельного теста базируется на скрытом допущении, что вещи никогда не меняются (см. также Wittmann, 1988). Следствием этого является то, что в теории отсутствуют средства понятийного описания и процедуры измерения феномена динамики и изменений. Слишком просто сказать, подобно Платону, что все изменения — это только «видимость» и что «ничто не ново под луной». Наннелли и Бернштейн (1994) с некоторым сожалением приводят этот вывод в своем собственном руководстве, но это не больше и не меньше, чем следствие из классической теории тестов.

Подведем некоторые итоги. Концепция надежности является важной и сложной. В руководствах по проведению психологичесого оценивания приводится описание различных коэффициентов надежности. Их вычисление основано преимущественно на классической теории тестов. Концеп-

ция надежности развивалась внутри психологии, но она используется и в рамках других наук. Можно встретить замечания, что в психологии слишком много внимания уделяется ошибкам, потому что сами психологические концепции содержат слишком много ошибок. Однако Наннелли и Бернштейн (1994) замечают, что проблемы коррекции ошибочного оценивания не чужды медицинским и естественным наукам. Так, например, при измерении давления может быть зафиксировано некоторое непостоянство, как и при измерении психологических характеристик (Lenders, 1988).

3.1.3. Проблема согласованности трех уровней психодиагностики при определении надежности

В предыдущем разделе описывались житейские представления о надежности и психологические концепции надежности, обсуждались различия между ними. Житейские представления о надежности можно углубить и дополнить положениями научной психологии о существовании случайных ошибок, согласованности и повторяемости. Также возможна и обратная ситуация, когда представления из житейской психологии дадут толчок для разработки содержания понятия надежности.

Отношение между математическим определением надежности и содержанием психологических теорий нельзя назвать простыми и ровными. Леви (1974, стр. 21) критиковал классическую теорию тестов, отмечая, что «.. .теория тестов сильна своим практическим применением, но ее отношение к другим психологическим теориям сомнительно, неясно». Уиттманн (1988) делает замечание сходного характера, а Вуд (1989) считает, что то же самое может быть высказано и по адресу современной теории анализа ответов на задания теста (IRT).

Конечно, психометрики выдвигают аргументы в свою защиту, отмечая при этом недостатки содержания самих психологических теорий и говоря о том, что исследователи не понимают теории тестов. Например, Мелленберг (1980) приводит в качестве примера исследование клинических психологов, которые оценивают «адаптацию», рассматривая различия между показателями, полученными при характеристике «образа-Я» и характеристике «идеального

92

9?,

образа-Я». Клинические психологи были удивлены, не обнаружив корреляции этих показателей с другими индикаторами адаптации. Мелленберг отметил ненадежность показателей различий и вероятность того, что существует корреляция между двумя этими измерениями. В полученных результатах нет ничего удивительного, считает Мелленберг: они могли быть предсказаны исходя из определения надежности показателей различий в классической теории тестов.

Иногда происходит просто путаница. Автору этой книги предложили однажды высказать свое мнение о тесте, который оценивает способность детей воспринимать предмет, показанный с разных сторон, как тождественный. Методика основана на концепции Пиаже о понимании необходимости учета точки зрения на объект. Пиаже использовал известный тест с тремя горами: детям предлагалось описать, что, по их мнению, видят те дети, которые смотрят на горы с другого места. Маленькие дети допускают ошибки при выполнении этого теста. Ошибки учитывались при начислении ребенку баллов за выполнение теста. Для детей разного возраста был определен коэффициент согласованности. Данный показатель оказался ниже для старших детей и выше для детей из семей с низким социально-экономическим статусом. Однако, это объяснялось той простой причиной, что показатели разброса для маленьких детей и детей из семей с низким социально-экономическим статусом были больше. Указанный феномен является феноменом развития, т.к. более старшие дети делают меньше ошибок при решении заданий на понимание перспективы. Следовательно, при работе с этим тестом должен быть использован другой индекс надежности. * Попытка связать психологию, занимающуюся разработкой предметного содержания, с психометрикой или со статистической моделью может быть обнаружена при разработке теории аспектов (the facet theory). В рамках этой теории анализируются соответствующие и независи-. мые аспекты конструктов и идет поиск приемлемых способов их оценивания (см. например, De Groot & Medendorp,

1986).

Как показано в этой главе, взаимодействие между уровнями протекает не всегда гладко. Временами оно ведет к

94

трениям между психологами, занимающимися разработкой предметного содержания, с одной стороны, и психометриками — с другой. Это противостояние имеет, вероятно, тот же характер, что и противоречие между клиническим и статистическим подходами (см. гл. 4). Однако это противостояние способствует также и лучшем пониманию концепций надежности, повторяемости, внутренней согласованности и источников случайных ошибок, а также способов их оценивания.

3.2. Валидность

Представления о валидности существуют как на уровне здравого смысла, так и в форме психологической концепции. Понятие валидности занимает важное место в каждой научной дисциплине. В психометрии понятию валидности уделяется не слишком много внимания по сравнению с концепцией надежности. Концепция валидности относительно трудна для изучения и для математического определения. Теория анализа ответов на задания теста (IRT) может быть рассмотрена как специфический вклад психометрии в развитие концепции валидности. Кроме того, существует несколько различных моделей и статистических процедур, которые можно использовать при изучении валидности. Принято считать, что каждая процедура, помогающая ответить на вопросы, имеет отношение к валидности. В последующих главах приводится описание валидности на уровне здравого смысла, представлено философское понимание валидности, в частности те аспекты, которые существенны для психологической науки. Эта информация приводится для того, чтобы определить, насколько ценным для психодиагностики является житейское и философское понимание валидности. Далее рассматривается использование концепции валидности в психологическом тестировании и экспериментальном (и квазиэкспериментальном) исследовании.

3.2.1. Представление о валидности на уровне здравого смысла

Валидность означает «быть валидным», т.е. действительным, эффективным, имеющим реальное отношение к чему-то. О придании валидности говорят, например, в случае утверждения документа, результатов голосования, вступ-

95

ления в силу закона и т.д. О методике или процедуре говорят, что она валидна для определенных целей. Но невозможно сказать о человеке, что он «валиден» аналогично тому, как мы говорим о его «надежности». Представление о валидности на житейском уровне содержит отчасти и философские элементы. Например, ответ детей на вопрос: «Как ты узнал, что другие дети говорили правду?» — содержит те же критерии, которые встречаются и в философских работах (Van Houdt, 1994). В своих ответах дети от 7 до 11 лет указывают на:

связь между утверждениями человека и реальными событиями;
связь утверждения с предыдущими суждениями (связанность) ;
тот факт, что проблема решится, если будет рассказано, что случилось (прагматическая полезность);
согласие между независимыми наблюдателями (интерсубъектный консенсус);
тот факт, что никто не отрицает истинность утверждения (ассенсус).

3.2.2. Житейские представления о валидности и понятие валидности в психодиагностике

Принцип корреспонденции и валидность. Понятие валидности используется для характеристики теста, процедуры или утверждения. Часто валидность определяется как теория (принцип) корреспонденции. В рам-ках этой теории определяются отношения между субъектом, познающим мир, и объективной реальностью. Существует несколько вариантов этой теории. До девятнадцатого века наиболее распространенной была теория истины. Первым исследователем формальной истинности объяснения, а затем и создателем теории корреспонденции был Аристотель. Вслед за ним Фома Аквинский попытался определить истину как соответствие (adequatio) процессов познания (intellectus) реальной действительности («реальности вне языка») (res). В этих теориях центральным является отношение между суждением в той или иной форме (на уровне житейских представлений, на языке логики или математики) и реальным миром. Это очень старые вопросы о взаимоотношениях между объектом и субъектом, между

бытием и сознанием, между реальной действительностью и нашим представлением о мире, между нашими суждениями и реальным положением дел.

Эти вопросы являются важными и для психодиагностики, например вопрос о том, как соотносятся оценки, данные психодиагностом, и оцениваемые характеристики личности. Точна ли оценка психодиагноста? Еще один случай проявления теории корреспонденции можно рассмотреть на примере теории когнитивного развития Пиаже, согласно которой развитие интеллекта ребенка проходит несколько стадий от сенсомоторного интеллекта до стадии формальных операций, и только на последней стадии у ребенка возникает способность понимать основные свойства реальности.

Теория корреспонденции допускает определенное расхождение мнений. Возникает вопрос: какой язык наиболее адекватен реальности — используемый в повседневном общении, логический или математический? Существуют попытки разрешения этого вопроса путем создания формализованного мета-языка (например, теория формальной семантики Тарского, 1949). Представители философии обыденного языка (например, Сирль (1969) изучают особенности используемого в повседневном общении языка , при этом особое внимание уделяется рассмотрению функций языка. Часто при описании исследований можно встретить термин «наивные реалисты», применяемый для обозначения людей, использующих обычный язык. «Наивностью» в данном случае называется представление человека о том, что его опыт, восприятие и мысли суть непосредственное отражение окружающего его реального мира. Логический и математический способы передачи информации формальны и абстрактны. Они слишком далеки от языка повседневного общения. Другой дискуссионный вопрос — это вопрос о том, что, познавая мир, сам ли человек привносит в него что-то или же действительность привносит в «человека познающего». Что первично — законы нашего мышления или реальность?

Эти вопросы носят философский характер, но оказывают влияние и на психодиагностику. Например, относится ли данный вопрос к когнитивному развитию или же это проблема адекватной операционализации конструкта? Имеет

96

4 Я.тер Лаак

97

ли гипотетический конструкт дополнительный смысл? Под этим понимается то, что конструкт не полностью покрывается операциональным определением. Эти вопросы не ста-новятся предметом рассмотрения конкретных психологических исследований, поскольку велик риск того, что эмпирические исследования на данную тему увязнут в зыбкой почве философских вопросов, ответы на которые вряд ли могут быть найдены.

Критерий когеренции и валидность.

Валидность может быть рассмотрена как соответствие критерию когеренции. В этом случае какое-либо утверждение должно соответствовать не реальной действительности, а другим утверждениям. В некоторой единой системе утверждения должны быть связаны между собой. Новое утверждение должно «подходить» ко всем остальным, не обнаруживая каких бы то ни было противоречий. В случае, если существуют какие-либо расхождения, возможно два варианта решений: либо новое утверждение должно быть отвергнуто, либо нужно отказаться от целой системы. Второй вариант не менее вероятен, чем первый, поскольку вполне может быть так, что собранные воедино утверждения не имеют отношения к действительности, а являются лишь «причудой» создателя теста. От такого положения дел в какой—то мере нас предохраняет то, что существуют некоторые общепризнанные представления об окружающей действительности, настолько очевидные, что нет необходимости их доказывать. Это так называемые «Protokollsatze»*, т.е. основополагающие утверждения, которые не противоречат опыту. Логический позитивизм, играющий важную роль в психологии, имеет в своей основе несколько аксиоматических утверждений, напоминающих «Protokollsatze». Нейрат (1931) считал неверным сравнение высказываний с реальностью. Все знания принимают форму утверждений и последнее не должно противоречить другим утверждениям.

Критерий когеренции подвергается критике, и вопрос о нем вызывает споры. В каких именно случаях утверждение считается противоречивым? На этот вопрос обычно отвечают формально. Такой ответ не подходит для утверждений.

* Protokollsatze (нем.) — протокольные выражения. Согласно теории Карнана, они описывают содержание непосредственного опыта или феномены, следовательно, простейшие познаваемые факты (прим. перев.).

где преобладает смысловое содержание. Психологи оперируют смыслами, их конструкты не являются чисто формальными; высказывания клиентов не понятны в формально логическом смысле. Другая линия критики указывает на то, что возможна иная система связанных утверждений, относящихся к той же области реальности.

Критерий когеренции важен для психодиагностики. При изучении описаний связанность отдельных высказываний о событиях, чувствах и поведении может быть критерием валидности этого описания или повествования. До сего времени психодиагносты редко изучали повествования, предметом их рассмотрения являлись преимущественно анамнез, интервью и тестовые показатели. Наконец, требование внутренней согласованности заданий теста может быть сопоставлено с критерием когеренции.

Критерий полезности и валидность.

Рассмотрим практическое значение (полезность) или функциональность критерия валидности. В данном случае речь идет не о соответствии аспектам реальности и не о соответствии другим утверждениям. Здесь подразумевается прежде всего то, что утверждения (содержащие в себе некоторую информацию) и идеи дают человеку возможность с большим или меньшим успехом взаимодействовать с реальной действительностью. Для определенных целей критерии являются полезными и функциональными. В психодиагностике существуют нормативные модели (модели решения и исследования), которые максимизируют определенный критерий. Цель должна быть достигнута с использованием минимальных усилий. В главе 7 будут приведены некоторые примеры. Это Модель полезности ожидаемых последствий (the multy-attribute utility theory).

Споры ведутся и по поводу этого критерия. Все ли то, что полезно, истинно? Одинаково ли полезно это понятие для каждого? Или же то, что подходит одному человеку, ничего не дает другому? Или вообще является нежелательным для другого человека?

Критерий межличностного соглашения.

Критерий интерсубъектного соглашения иногда определяется как консенсус (Habermas, 1973). Подход Хабермаса к пониманию этого критерия содержит ряд конструктивных

98

99

элементов. Согласно его точке зрения, содержание или материал, по поводу которого достигается согласие, считается понятным. Утверждения являются истинными в том смысле, что они соответствуют реальным событиям. События и «факты», полученные в результате эмпирических исследований, требуют удовлетворительной специфической интерпретации, которая следует за «herrschaftfreie»* диалогом. Диалог понимается как коммуникативный акт, удовлетворяющий следующим требованиям. Истинными считаются утверждения, описывающие внешнее положение вещей. Утверждения истинны, если намерения, чувства, потребности не скрываются, а открыто выражаются в процессе коммуникации. Кроме этого, утверждения должны соответствовать нормам и ценностям общества. Имея такую информацию, слушатель принимает или не принимает утверждение.

В психодиагностике интерсубъектность выполняет несколько функций, одна из которых соответствует функции надежности.

Понятие консенсуса играло значительную роль в разработке пятифакторной модели личностных свойств Хофсти (1992, 1994). Выбор этих пяти факторов основан на согласии мнений репрезентативной выборки, которая оценивала достаточно полный список прилагательных, описывающих личностные характеристики. Эта пятерка — наименьшее число прилагательных, необходимых для описания личностных характеристик любого человека. Если кто-то скажет, что использует другие, не входящие в состав пятифакторной модели прилагательные, то в этом случае Хофсти может ответить, что то, что этот человек называет «храбрым», является в соответствии с итогами исследования-референдума «высокомерным» и «самоуверенным». Таким образом каждый человек может вступить в противоречие с установленным другими консенсусом.

Подведем итоги. Очевидно, что различные концепции валидности (в эпистемологическом понимании) являются значимыми для психодиагностики. В психодиагностике и в психологии не существует одного, превалирующего типа валидности. Хотя логический позитивизм оказал большое

* «herrschaftfreie» диалог (нем.) — диалог, «свободный от господства од
ной из сторон» (прим. перев.). •

влияние на используемые критерии, валидность — это не просто понятие, заимствованное из эпистемологии. Более того, можно выделить различные уровни психологической теории (Snow, 1973). Это означает, что «Protocollsatze», в качестве аксиомы предпочитаемое логическими позитивистами, не является единственным уровнем теории. Существуют также таксономические теории и, наконец, простые рабочие гипотезы.

3.2.3. Как возникает представление о валидности?

Приобретение валидных знаний можно изучать как феномен развития. Специалист в области педагогической психологии Перри (1970) изучал то, каким образом у студентов Гарвардского университета в процессе образования изменяются представления об истине, валидности и ценностях. С помощью повторных интервью он провел исследование на 140 студентах. В полученных материалах он выделяет 9 позиций, которые можно объединить в три категории.

Первая категория характеризуется пассивным приобретением знаний и восприятием преподавателя как несомненного авторитета с точки зрения знаний.
Вторая категория ответов показывает понимание студентами того, что любое знание зависит от контекста и является относительным. Соответственно, и точка зрения преподавателя рассматривается как одна, произвольно выбранная, из множества возможных.
Третья категория ответов студентов показывает, что они формируют свое собственное видение мира и ощушают необходимость действовать на основе собственных знаний и практически использовать их в конкретных ситуациях.

Перри (1970) показал, что представления об истине и валидности изменялись в процессе обучения в университете.

Китченер и Кинг (1981) заинтересовались тем, как мо-лодыелюдив возрасте 15 лет и старше представляют реальность, как они понимают источники знаний о реальности и что они думают о природе знаний. Полученные результаты авторы разбили на 7 уровней — «шагов», последовательность которых можно рассматривать как отражение этапов развития. Первый «шаг» выявил представление о том, что знания находятся где-то «вовне» («out there»), чтоонисиль-