Лаак Я. тер Л01 Психодиагностика: проблемы содержания и методов

Вид материалаКнига
Тринадцать итоговых тезисов
Подобный материал:
1   ...   16   17   18   19   20   21   22   23   24
.

313

ТРИНАДЦАТЬ ИТОГОВЫХ ТЕЗИСОВ
  1. Изучение диагностического процесса включает также и диагностику самого диагноста: это исследование его чело­веческих особенностей.
  2. «Модель линзы» Брунсвика достаточно хорошо пред­сказывает результаты диагностической деятельности. Хоф-фман, который изучал этот процесс, не претендует на то, чтобы «посмотреть», что делается в голове диагноста.
  3. Процессы «житейской диагностики» не поддаются рас­шифровке с помощью «прямого» анализа. Возможно, более успешным путем было бы сравнение непрофессионального диагностирования с нормативными моделями и подсчет ошибок и расхождений.
  4. Как уже отмечалось, диагност убежден, что он орга­низует информацию не только линейно, но и конфигура-тивно. Исследования не располагают эмпирическим подкреплением этого утверждения. Определенный ответ пока не дан.
  5. Профессиональных диагностов часто сравнивают с не­профессионалами. Легко предположить, что и те и другие — жертвы предубеждений, вызванных ограниченностью человеческих возможностей в переработке информации (Hogarth, 1987) и слабостью интуитивных способностей к статистическому анализу (Nissbett & Ross, 1980).
  6. На исследования, выявившие предубеждения диагно­ста, наука отреагировала следующим образом: тренингами для диагностов, уменьшающими вероятность предвзятых, необъективных суждений; защитой достоинств диагноста и опровержением претензий к моделям; методологическими рекомендациями по применению эмпирического цикла, ди­агностического цикла и помощью в принятии решений.
  7. Между эмпирическим и диагностическим циклами су­ществуют как черты сходства, так и различия. Имеются попытки интегрировать эти два цикла, поскольку их разли­чия невелики.



  1. Де Брюн предлагает интегрировать эмпирический цикл, диагностический цикл и модели принятия решений.
  2. Использование нормативной модели принятия реше­ний оправдывается указанием на предубеждения диагноста

и существенные недочеты в категоризации и интеграции диагностических данных.
  1. Такая форма как дерево решений помогает структу­рировать диагностический процесс в целом и выбор каждого решения в отдельности. Этот способ предполагает теорети­ческое и эмпирическое знание проблемы, которая изобра­жается в виде дерева решений.
  2. В психодиагностике существует лишь несколько экс­пертных систем. Проектировать такие системы сложно. Это требует знаний, оформленных в стабильные эмпирические законы.
  3. Нормативная модель принятия решений минимизи­рует погрешности в соответствии с каким-либо правилом, например, методом наименьших квадратов в линейной ре­грессии. Если люди отклоняются от таких правил, они дей­ствуют не лучшим образом, т.е. нерационально. Модели не описывают и не объясняют порядок действий диагноста и не претендуют на это.
  4. Необходимость принятия решений делает профессию психодиагноста тяжелой и жесткой.

314

Глава 8

Качество психодиагностики и использование тестов: оценка, критика и альтернативы

При определении качества диагностики следует учиты­вать выделяемые нами три ее уровня и четыре компонента. Качество зависит, помимо других причин, от соответствия требованиям этих компонентов и от попыток организовать три уровня, вопреки их фактической «нестыковке». Итак, существует необходимость в обсуждении качества теории тестов (классической и современной), теории различий между индивидами с точки зрения их предельных возмож­ностей и типичного уровня функционирования, теории сре-довых условий и теории развития, в обсуждении адекватности методик и процедур, особенно тестов, и, на­конец, адекватности диагностического процесса. Другими словами, анализ качества требует обсуждения существен­ной части как содержания, так и методов психодиагности­ки. Это, конечно, большая задача, но в известной степени ее невозможно избежать, поскольку согласно нашему опре­делению психодиагностика не имеет собственного матери­ала и собственного, только ей «принадлежащего», объекта и должна, таким образом, заимствовать их у психологии и, в частности, у ее методов. До сих пор качество психодиаг­ностики определяется главным образом на основе одного ее компонента, наиболее очевидного и конкретного,— тестов и опросников. Жаль,что сейчас отсутствует интерес к каче­ству других компонентов.

В ряде стран тесты документально оформляются и оце­ниваются. Например, в США «Ежегодник измерения умст­венных способностей» Буроса дает информацию обо всех опубликованных тестах и опросниках, для которых разра­ботан метод получения объективных показателей. С их по­мощью оцениваются межиндивидуальные различия, и уже имеются исследования их надежности и валидности.

Сколько существуют тесты и опросники, столько их и критикуют. Первая линия критики, не сходящая с повестки дня, связана с вопросом о том, отражают ли в достаточной

мере тесты, задания и задачи психологические процессы. Тесты часто конструировались в ответ на практические за­просы общества или некоторых влиятельных общественных институтов. Практические средства диагностики служили вполне определенной цели — достичь значимой предсказа­тельной валидности, но они не предлагали никакого суще­ственного продвижения в понимании психологических процессов. Конструктная валидность намечала новые пер­спективы, но терстоуновская разработка простой структу­ры не была удовлетворительной. Поиски привели к подходу, изучающему процессы переработки информации (см. гл.4). Второе, за что критикуют существующие мето­дики, связано с использованием тестов. Часто тесты исполь-зуются для принятия решений, имеющих для людей огромное значение. Объективны ли, справедливы ли такие решения в отношении любого человека и любой группы? Особое внимание вызывает в этом отношении тестирование групп меньшинств.

8.1. Качество компонентов психодиагностики

Центральное место при обсуждении качества психодиаг­ностики занимает первый компонент. Тесты и опросники являются конкретными продуктами диагностики. Разрабо­тана система для оценки тестов и опросников, затрагиваю­щая и два других компонента. Во-первых, особое значение придается надежности и валидности. Это относится в боль­шинстве случаев к классической концепции надежности и дихотомии прогностической и конструктной валидно­сти.Обычно эти вопросы обсуждаются как относящиеся к надежности. Современная теория тестов пока играет скром­ную роль. В последнем по времени издании «Стандартов» психологических тестов (1987) современная теория тестов едва ли играет хоть какую-либо роль. Можно ожидать, од­нако, что новые «Стандарты» будут включать требования, исходящие из современной теории тестов. В голландской версии «Стандартов» (1989) современная теория тестов рас­сматривается как набор моделей измерения, описывающих ответы на задания.

Теория преимущественно занимается той частью, кото­рая связана с конструктной валидностью и анализирует


316

317

внутреннюю структуру теста.Предполагается,что внутрен­няя структура отражает исследуемое (латентное) одномер­ное свойство.Неверно думать, что это чисто технический вопрос. Известный психометрист Лорд (1980,стр.20) писал: «Представляется достоверным,что такие тесты, как тесты на словарный запас, понимание прочитанного, арифмети­ческие операции, словесные аналогии, числовые ряды, и различные типы пространственных тестов в большей или меньшей степени близки к одномерным».Однако совсем не­трудно понять, что решение задачи требует не одной, а нескольких способностей.Мы можем легко представить се­бе тесты, которые не одномерны.Тесты достижений в химии предполагают частичную натренированность в математи­ке, а частично требуют знания нематематических фактов. Последнее замечание,возможно, соответствует действи­тельности. Бсжар (1983, стр.18), исследователь в области педагогики, доказывает, что одномерность нехарактерна для заданий или тестов,но при определенных условиях она может быть присуща ответам в заданиях. Возьмем следую­щий пример: допустим, что имеется одномерный тест на произнесение слов по буквам. Этот тест проведен в группе детей, страдающих дизлексией, и здесь он проявил себя не как одномерный. В данном случае многомерный характер теста может объясняться особым типом обучения, которое получают дети с дизлексией (Bejar, 1983). Итак, вопрос об одномерности — это вопрос эмпирический. Помимо знания внутренней структуры тестовых заданий необходимы зна­ния о взаимосвязи тестов друг с другом. Статья Кэмпбелла и Фиске (1959) повлияла на введение конвергентной и ди-скриминативной валидности.Вдобавок не надо забывать о прагматическом источнике тестов: тест должен прогнози­ровать значимый критерий (прогностическая валидность). Классическая и современная теории тестов дают воз­можность конструирования тестов и исследования надеж­ности и валидности, которые не используются во всей полноте в практическом тестировании и в диагностике.Но­вые так же, как и старые модели не исключают возможности неправильного понимания. Что делать, если модель пред­полагает одномерность ответов, а тест в какой-либо группе (как в вышеприведенном примере у детей с дизлексией)

дает не одномерные результаты, расходясь с исходной вер­сией? Можно ли тогда делать заключение о том, что тест не имеет конструктной валидности?

Во-вторых, при обсуждении тестов и опросников прини­мают в расчет теоретические источники конструкта, осо­бенности его использования, описание, категоризацию, прогностические возможности. Теоретические источники в большинстве случаев сводятся к психометрическим теори­ям о межиндивидуальных различиях в случае предельно возможного, а также типичного функционирования. Тео­рии, описывающие различия средовых условий, и теории развития едва ли играют существенную роль. Вопрос о ка­честве диагностического процесса прямо не рассматривает­ся, т.е. в оценке теста вопросы относительно качества процесса диагностики не учитываются. Однако из седьмой главы ясно, что процесс считается отвечающим научным требованиям, если он строится в соответствии с правилами проверки гипотезы.

В данном разделе показано, что качество диагностики должно соответствовать характеристикам описанных в этой книге компонентов и уровней, фактически до сих подчер­кивается только роль тестов. Разработана определенная си­стема оценки. Система основана главным образом на правилах классической теории тестов. Современная теория тестов играет весьма скромную роль в измерении макси­мальных возможностей индивида или типичного уровня функционирования. Исключение составляют тесты школь­ных достижений, по крайней мере, в Нидерландах.

8.2. Система оценки качества тестов и опросников

Тесты и опросники должны удовлетворять определен­ным требованиям. В пятидесятые годы была опубликована первая книга Американской психологической ассоциации, содержавшая Стандарты для тестирования в образовании и психологии (1954). В 1950 Гулликсен опубликовал книгу по теории тестов. В результате переработки классической теории тестов он сформулировал повышенные требования к «хорошим» тестовым методам. Последняя ревизия «Стан-


318

319

дартов» была осуществлена в 1985 г. Стандарты значитель­но пополнили перечень критериев для оценки тестов, прак­тики тестирования и эффективности применения. Ожидалось, что в ревизии 1985 г. будет присутствовать со­временная теория тестов. Но этого не произошло. В числе критиков (Hambleton,1986) оказались удивленные психо-метристы: новые «Стандарты» были только что подготовле­ны, и можно было ожидать,что в этой ревизии будут представлены ориентиры, задаваемые современной тео­рией тестов.

«Стандарты» в ревизии 1985 г. содержали классические разделы надежности, измерения погрешностей (в классиче­ской теоретической ориентации), нормы, шкалы и требова­ния к руководству по проведению тестов. Обновление по отношению к предшествующему опыту выразилось в диф­ференциации части «Стандартов» для различных практи­ческих сфер деятельности. Профессиональные сферы деятельности оказались настолько отличными друг от дру­га, что стало правомерным введение разных «Стандартов». Возможно также, что руководили этим разделением сами представители профессиональных сфер. «Стандарты» с не­большими различиями были приведены для клинической, педагогической психологии и психологии управления.

«Стандарты» 1974 г. использовались в Нидерландах для разработки системы оценки тестов и опросников. Эти стан­дарты были переведены на язык характеристик теста, на­личие или отсутствие которых можно было оценивать. Имелось пять категорий, каждая из которых включала оп­ределенный круг вопросов. Качество ответа на каждый воп­рос могло быть хорошим, удовлетворительным и неудовлетворительным. Анализ системы по категориям по­зволил каждую из них квалифицировать как хорошую, удовлетворительную и неудовлетворительную. Вот эти ка­тегории:

1. Цели конструирования теста.Данная категория охваты­вает вопросы, связанные с применением теста, теорети­ческими источниками конструкта и релевантностью со­держания теста. Эта категория должна включать положение об основном предназначении теста.

2. Структура теста, качество его материалов и руководства.
Данная категория связана с системой подсчета, эффек­
тивностью теста и его материалов (брошюра к тесту, клю­
чи, время тестирования), со стандартизацией, четкостью
инструкции и интерпретацией результатов.

3. Нормы. Эта категория связана с качеством норм. Пред­
ставительны ли нормы для данной популяции? Нормы,
полученные на представительных выборках, используют­
ся для интерпретации показателей. В классическом вари­
анте тестов репрезентативность норм опирается на до­
вольно широкие, общие группы. Новые «Стандарты»
(1985) более прагматичны и рекомендуют получение
норм для специфических групп.
  1. Надежность. Эта категория требует наличия результатов исследования с помощью параллельных тестов (Гуллик-сеновское определение надежности), внутренней согласо­ванности, тест-ретестовой надежности, сравнения экс­пертных оценок. Подчеркивается чувствительность коэффициентов к разнообразию выборок.
  2. Валидность. Эта категория ориентирована на корреляции показателей теста и конструктную валидность. В отноше­нии последней допускается, что конструкт является эле­ментом номологической сетки, так что его внешняя и внутренняя структура эксплицируемы и, следовательно, поддаются эмпирической проверке.

Как отмечалось выше, каждая категория включает опреде­ленный набор вопросов, в соответствии с которыми систе­ма квалифицирует эту категорию как «хорошую, удов­летворительную и неудовлетворительную». Систему оценки можно продемонстрировать лишь на примере ис­пользования ее в конкретном тесте. Результаты исследо­вания теста должны быть доступными.

В следующем разделе в качестве примера использования такой системы приводится разработка новой голландской версии WISC-R (Векслеровской шкалы интеллекта для детей).

8.2.1. Оценка качества WISC-R Ниже приводится оценка WISC-R по пяти приведенным выше категориям. Этот тест используется часто. В 1981 г.в Нидерландах группа голландских и фламандских психоло­гов приступила к новой адаптации теста. Руководство к


320

I ] Я. тер Лаак

321

нему было опубликовано в 1986/1991 гг. Оценка тестов обсуждается в голландском руководстве — «Документация по тестам и исследованиям тестов» (Evers, Van Vliet-Mulder, Ter Laak, 1992). Адаптация WISC-R обеспокоила практических психологов отчасти более высокими норма­ми. Новые показатели привели к распределению детей по школам разного уровня сложности обучения.

Оценки, приведенные ниже, согласуются с оценками «Документации» (1992). Результаты одинаковые. С по­мощью приводимых н иже примеров нам хотелось бы про­демонстрировать применение системы и высказать некоторые предложения по ее использованию.

Категория 1: теоретическая основа векслеровской шка­лы интеллекта для детей. Авторы руководства опирались на публикации Векслера, представляя теоретическое обосно­вание теста. И тест, и его направленность настолько хорошо известны, что нет необходимости описывать ни цели его использования, ни историю создания. Вдобавок тест разра­батывался для удовлетворения практической потребности в простом тесте, пригодном для широкого применения. Од­нако в 1955 г. Векслер высказал некоторые дополнительные соображения относительно применения теста.

Согласно его наблюдениям интеллект обнаруживает се­бя в нескольких различных формах поведения. В достиже-ниях по тестам интеллекта играют роль как интеллектуальные, так и неинтеллектуальные факторы (например, произвольный контроль и эмоциональная урав­новешенность). Векслер работал клиническим психологом в большом госпитале Белльвью в Нью-Йорке и был убеж­ден, что личностные характеристики (мотивация, эмоцио­нальность, любознательность, депрессивность и т.д.) влияют на показатель IQ.

Он предпочел не ограничивать измерение интеллекта одним его важным аспектом, например, абстрактным мыш­лением. По мнению Векслера, интеллект предполагает на­личие нескольких различных факторов, находящихся в иерархических отношениях. Интеллект рассматривается как способность наиболее высокого порядка. Интеллект проявляется в целенаправленном действии. По словам Век­слера, в операциональном плане интеллект определяется

как совокупная или глобальная способность индивида це­ленаправленно действовать, мыслить рационально и справ­ляться с проблемами в собственном окружении. Исходя из этого, Векслер отбирал задачи, которые коррелируют с про­явлениями интеллекта, например, со школьными достиже­ниями и профессиональным образованием.Он задался вопросом, какие интеллектуальные и неинтеллектуальные виды способностей приводят к этим достижениям. Задачи должны быть разными, привлекать легкостью подсчета от­ветов и надежностью оценки. Были добавлены «хорошие» (правильные) ответы, и полученные показатели позволили создать картину сильных и слабых сторон личности. Самое первое (по времени возникновения) разделение общего по­казателя IQ касалось показателя вербального интеллекта и показателя «интеллекта действия» (невербального интел­лекта). Их корреляция составляла около 0,70. Конечно, независимых ортогональных факторов не существует и их невозможно интерпретировать как таковые. Второй часто используемой классификацией являются факторы, предло­женные Кауфманом: вербальные способности, перцептив­ная организация, сосредоточенность и общий интеллект (см. Kaufman, 1976). В пятой главе мы останавливались на недостатках интерпретации профилей. В данной голланд­ской версии WISC—R на первой странице нет результатов субтестов, на основе которых строится графический проф­иль. Это сделано для предотвращения интерпретации силь­ных и слабых сторон интеллекта. Субтесты не обладают факторной валидностью /см.гл.5/.

У Векслера интеллект толкуется как глобальная способ­ность.Общий показатель признается хорошим индикато­ром интеллекта. По этому показателю можно предсказать адаптацию в ограниченном, но важном круге ситуаций — школьном и профессиональном образовании, на работе. Со­ставление профиля не поощряется, но и не возбраняется.

Разработка теоретической основы теста включает три вопроса. Четко определен вопрос о назначении теста. Тест используется для прогноза, и конструкт его более или менее разработан. Однако он включен в номологическую сеть не настолько четко, чтобы можно было эту сеть валидизиро-ватъ. Подтверждена релевантность содержания теста. По-


322

и*

323

ражает, что многие задания заимствованы из шкалы Бине-Симона. Голландская и фламандская редакции особое зна­чение придают конструктной валидности. Однако тест будет неизбежно использоваться и для прогноза. В целом тест можно оценить на «хорошо».

Категория 2: качество материалов и руководства. В упо­мянутых ревизиях тестов были тщательно проверены все задания. Система подсчета отличается достаточной ясно­стью. Стимульные материалы хорошие.Таблицы норм для голландской и фламандской выборок являются общими. Проведение теста занимает значительное время.Несмотря на справедливость некоторой критики, категория должна быть квалифицирована как соответствующая оценке хоро­шо.

Категория 3: нормы. Нормы получены на выборке от 6 до 16 лет с возрастным интервалом в один год.Выборка репре­зентативна.В каждую возрастную группу входит около ста семидесяти мальчиков и девочек.Имеются нормы для обще­го показателя IQ и отдельно для показателей вербального интеллекта и невербального интеллекта. Данные собраны в 1981 г. Ответы по девяти вопросам этой категории приво­дят в результате к оценке теста хорошо.

Категория 4: надежность. Внутренняя согласованность определялась с помощью различных методов. В большинст­ве случаев использовался коэффициент альфа Кронбаха. Вдобавок использовалась (2 (лямбда). Все коэффициенты высокие. Один субтест является тестом на скорость, для него вычислен коэффициент ретестовой надежности. Ни одно из значений не опускается ниже 0,85. Результаты оценки внутренней согласованности хорошие.Поражает, что почти ни одно руководство к тесту не дает необходимых показателей. Наннелли и Бернштейн (1994, стр. 264—265) являются исключением, и они сформулировали следующее эмпирическое правило. При коэффициенте 0,70 надеж­ность признается умеренной, для исследований требуется коэффициент надежности 0,80, а для целей отбора едва достаточным минимумом надежности считается 0,90. По­разительно, что в характеристиках теста отсутствуют ко­эффициенты стабильности. Хотя можно понять, что повторный сбор данных — большая работа, необходимо

иметь соответствующие коэффициенты ретестовой надеж­ности. Выводы здесь опираются на семь вопросов, и суще­ствует компромисс между хорошей внутренней согласованностью и недостаточной стабильностью, поэто­му оценку теста по этой категории можно определить как «удовлетворительную».

Категория 5: валидность. Названные ревизии теста сде­лали упор на конструктной валидности. Векслер не разра­ботал номологическую сеть полностью, но с течением времени при анализе заданий интеллектуальных тестов на­капливался соответствующий опыт. В редакциях теста ис­пользовались разные факторно-аналитические модели. Результаты анализа немного отличались, и авторы реко­мендовали факторы Кауфмана. Это представляется разум­ным, потому что многие практики используют эти факторы.

Конструктная валидность проанализирована в соответ­ствии с принятыми правилами. Отсутствуют коэффициен­ты прогностической валидности. Имеются корреляции с другими интеллектуальными тестами. Эти коэффициенты приведены в новом разделе по валидности, но могут рас­сматриваться как данные по конструктной валидности. Как незначимые приводятся корреляции теста с чтением и арифметикой на первой и второй ступенях обучения. Ква­лификация теста по сумме тринадцати вопросов может быть только неудовлетворительной, поскольку первоначально тест использовался как прогностический. Требуется немно­го времени, чтобы получить соответствующие коэффици­енты прогностической валидности. Тогда может быть дана другая квалификация.

Как упоминалось выше относительно коэффициентов надежности, в нескольких (немногочисленных) руководст­вах используются эмпирические правила ранжирования коэффициента прогностической корреляции. Можно было бы остановиться на том, что целью является достижение значимых корреляций. Однако у исследователя обычно бо­лее высокие запросы. Он стремится объяснить большую часть дисперсии. Что это такое — «большая» часть? На­ннелли и Бернштейн (1994, стр. 99—100) замечают, что эмпирически найденные корреляции редко бывают выше, чем 0,30—0,40. В какой-то степени это разочаровывает, но


324

325