Лаак Я. тер Л01 Психодиагностика: проблемы содержания и методов
Вид материала | Книга |
Тринадцать итоговых тезисов |
- Психодиагностика, 171.42kb.
- «Институт содержания и методов обучения», 423.32kb.
- Программа гиа по дисциплине «Психодиагностика», Психодиагностика как наука и практическая, 49.39kb.
- Е. А. Бондаренко Институт содержания и методов обучения рао, 87.83kb.
- Психодиагностика, 1634.82kb.
- Программа тренинга: 24 часов академических лекционно-практических занятий. Основы рекрутинга:, 47.4kb.
- Программа дисциплины «Психодиагностика» включает в себя : -содержание дисциплины, 239.75kb.
- Қазақстанның тәуелсіздігі, 2085.24kb.
- Использование геометрических методов, 139.78kb.
- Рабочая программа дисциплины общая психодиагностика федерального компонента цикла, 196.24kb.
313
ТРИНАДЦАТЬ ИТОГОВЫХ ТЕЗИСОВ
- Изучение диагностического процесса включает также и диагностику самого диагноста: это исследование его человеческих особенностей.
- «Модель линзы» Брунсвика достаточно хорошо предсказывает результаты диагностической деятельности. Хоф-фман, который изучал этот процесс, не претендует на то, чтобы «посмотреть», что делается в голове диагноста.
- Процессы «житейской диагностики» не поддаются расшифровке с помощью «прямого» анализа. Возможно, более успешным путем было бы сравнение непрофессионального диагностирования с нормативными моделями и подсчет ошибок и расхождений.
- Как уже отмечалось, диагност убежден, что он организует информацию не только линейно, но и конфигура-тивно. Исследования не располагают эмпирическим подкреплением этого утверждения. Определенный ответ пока не дан.
- Профессиональных диагностов часто сравнивают с непрофессионалами. Легко предположить, что и те и другие — жертвы предубеждений, вызванных ограниченностью человеческих возможностей в переработке информации (Hogarth, 1987) и слабостью интуитивных способностей к статистическому анализу (Nissbett & Ross, 1980).
- На исследования, выявившие предубеждения диагноста, наука отреагировала следующим образом: тренингами для диагностов, уменьшающими вероятность предвзятых, необъективных суждений; защитой достоинств диагноста и опровержением претензий к моделям; методологическими рекомендациями по применению эмпирического цикла, диагностического цикла и помощью в принятии решений.
- Между эмпирическим и диагностическим циклами существуют как черты сходства, так и различия. Имеются попытки интегрировать эти два цикла, поскольку их различия невелики.
- Де Брюн предлагает интегрировать эмпирический цикл, диагностический цикл и модели принятия решений.
- Использование нормативной модели принятия решений оправдывается указанием на предубеждения диагноста
и существенные недочеты в категоризации и интеграции диагностических данных.
- Такая форма как дерево решений помогает структурировать диагностический процесс в целом и выбор каждого решения в отдельности. Этот способ предполагает теоретическое и эмпирическое знание проблемы, которая изображается в виде дерева решений.
- В психодиагностике существует лишь несколько экспертных систем. Проектировать такие системы сложно. Это требует знаний, оформленных в стабильные эмпирические законы.
- Нормативная модель принятия решений минимизирует погрешности в соответствии с каким-либо правилом, например, методом наименьших квадратов в линейной регрессии. Если люди отклоняются от таких правил, они действуют не лучшим образом, т.е. нерационально. Модели не описывают и не объясняют порядок действий диагноста и не претендуют на это.
- Необходимость принятия решений делает профессию психодиагноста тяжелой и жесткой.
314
Глава 8
Качество психодиагностики и использование тестов: оценка, критика и альтернативы
При определении качества диагностики следует учитывать выделяемые нами три ее уровня и четыре компонента. Качество зависит, помимо других причин, от соответствия требованиям этих компонентов и от попыток организовать три уровня, вопреки их фактической «нестыковке». Итак, существует необходимость в обсуждении качества теории тестов (классической и современной), теории различий между индивидами с точки зрения их предельных возможностей и типичного уровня функционирования, теории сре-довых условий и теории развития, в обсуждении адекватности методик и процедур, особенно тестов, и, наконец, адекватности диагностического процесса. Другими словами, анализ качества требует обсуждения существенной части как содержания, так и методов психодиагностики. Это, конечно, большая задача, но в известной степени ее невозможно избежать, поскольку согласно нашему определению психодиагностика не имеет собственного материала и собственного, только ей «принадлежащего», объекта и должна, таким образом, заимствовать их у психологии и, в частности, у ее методов. До сих пор качество психодиагностики определяется главным образом на основе одного ее компонента, наиболее очевидного и конкретного,— тестов и опросников. Жаль,что сейчас отсутствует интерес к качеству других компонентов.
В ряде стран тесты документально оформляются и оцениваются. Например, в США «Ежегодник измерения умственных способностей» Буроса дает информацию обо всех опубликованных тестах и опросниках, для которых разработан метод получения объективных показателей. С их помощью оцениваются межиндивидуальные различия, и уже имеются исследования их надежности и валидности.
Сколько существуют тесты и опросники, столько их и критикуют. Первая линия критики, не сходящая с повестки дня, связана с вопросом о том, отражают ли в достаточной
мере тесты, задания и задачи психологические процессы. Тесты часто конструировались в ответ на практические запросы общества или некоторых влиятельных общественных институтов. Практические средства диагностики служили вполне определенной цели — достичь значимой предсказательной валидности, но они не предлагали никакого существенного продвижения в понимании психологических процессов. Конструктная валидность намечала новые перспективы, но терстоуновская разработка простой структуры не была удовлетворительной. Поиски привели к подходу, изучающему процессы переработки информации (см. гл.4). Второе, за что критикуют существующие методики, связано с использованием тестов. Часто тесты исполь-зуются для принятия решений, имеющих для людей огромное значение. Объективны ли, справедливы ли такие решения в отношении любого человека и любой группы? Особое внимание вызывает в этом отношении тестирование групп меньшинств.
8.1. Качество компонентов психодиагностики
Центральное место при обсуждении качества психодиагностики занимает первый компонент. Тесты и опросники являются конкретными продуктами диагностики. Разработана система для оценки тестов и опросников, затрагивающая и два других компонента. Во-первых, особое значение придается надежности и валидности. Это относится в большинстве случаев к классической концепции надежности и дихотомии прогностической и конструктной валидности.Обычно эти вопросы обсуждаются как относящиеся к надежности. Современная теория тестов пока играет скромную роль. В последнем по времени издании «Стандартов» психологических тестов (1987) современная теория тестов едва ли играет хоть какую-либо роль. Можно ожидать, однако, что новые «Стандарты» будут включать требования, исходящие из современной теории тестов. В голландской версии «Стандартов» (1989) современная теория тестов рассматривается как набор моделей измерения, описывающих ответы на задания.
Теория преимущественно занимается той частью, которая связана с конструктной валидностью и анализирует
316
317
внутреннюю структуру теста.Предполагается,что внутренняя структура отражает исследуемое (латентное) одномерное свойство.Неверно думать, что это чисто технический вопрос. Известный психометрист Лорд (1980,стр.20) писал: «Представляется достоверным,что такие тесты, как тесты на словарный запас, понимание прочитанного, арифметические операции, словесные аналогии, числовые ряды, и различные типы пространственных тестов в большей или меньшей степени близки к одномерным».Однако совсем нетрудно понять, что решение задачи требует не одной, а нескольких способностей.Мы можем легко представить себе тесты, которые не одномерны.Тесты достижений в химии предполагают частичную натренированность в математике, а частично требуют знания нематематических фактов. Последнее замечание,возможно, соответствует действительности. Бсжар (1983, стр.18), исследователь в области педагогики, доказывает, что одномерность нехарактерна для заданий или тестов,но при определенных условиях она может быть присуща ответам в заданиях. Возьмем следующий пример: допустим, что имеется одномерный тест на произнесение слов по буквам. Этот тест проведен в группе детей, страдающих дизлексией, и здесь он проявил себя не как одномерный. В данном случае многомерный характер теста может объясняться особым типом обучения, которое получают дети с дизлексией (Bejar, 1983). Итак, вопрос об одномерности — это вопрос эмпирический. Помимо знания внутренней структуры тестовых заданий необходимы знания о взаимосвязи тестов друг с другом. Статья Кэмпбелла и Фиске (1959) повлияла на введение конвергентной и ди-скриминативной валидности.Вдобавок не надо забывать о прагматическом источнике тестов: тест должен прогнозировать значимый критерий (прогностическая валидность). Классическая и современная теории тестов дают возможность конструирования тестов и исследования надежности и валидности, которые не используются во всей полноте в практическом тестировании и в диагностике.Новые так же, как и старые модели не исключают возможности неправильного понимания. Что делать, если модель предполагает одномерность ответов, а тест в какой-либо группе (как в вышеприведенном примере у детей с дизлексией)
дает не одномерные результаты, расходясь с исходной версией? Можно ли тогда делать заключение о том, что тест не имеет конструктной валидности?
Во-вторых, при обсуждении тестов и опросников принимают в расчет теоретические источники конструкта, особенности его использования, описание, категоризацию, прогностические возможности. Теоретические источники в большинстве случаев сводятся к психометрическим теориям о межиндивидуальных различиях в случае предельно возможного, а также типичного функционирования. Теории, описывающие различия средовых условий, и теории развития едва ли играют существенную роль. Вопрос о качестве диагностического процесса прямо не рассматривается, т.е. в оценке теста вопросы относительно качества процесса диагностики не учитываются. Однако из седьмой главы ясно, что процесс считается отвечающим научным требованиям, если он строится в соответствии с правилами проверки гипотезы.
В данном разделе показано, что качество диагностики должно соответствовать характеристикам описанных в этой книге компонентов и уровней, фактически до сих подчеркивается только роль тестов. Разработана определенная система оценки. Система основана главным образом на правилах классической теории тестов. Современная теория тестов играет весьма скромную роль в измерении максимальных возможностей индивида или типичного уровня функционирования. Исключение составляют тесты школьных достижений, по крайней мере, в Нидерландах.
8.2. Система оценки качества тестов и опросников
Тесты и опросники должны удовлетворять определенным требованиям. В пятидесятые годы была опубликована первая книга Американской психологической ассоциации, содержавшая Стандарты для тестирования в образовании и психологии (1954). В 1950 Гулликсен опубликовал книгу по теории тестов. В результате переработки классической теории тестов он сформулировал повышенные требования к «хорошим» тестовым методам. Последняя ревизия «Стан-
318
319
дартов» была осуществлена в 1985 г. Стандарты значительно пополнили перечень критериев для оценки тестов, практики тестирования и эффективности применения. Ожидалось, что в ревизии 1985 г. будет присутствовать современная теория тестов. Но этого не произошло. В числе критиков (Hambleton,1986) оказались удивленные психо-метристы: новые «Стандарты» были только что подготовлены, и можно было ожидать,что в этой ревизии будут представлены ориентиры, задаваемые современной теорией тестов.
«Стандарты» в ревизии 1985 г. содержали классические разделы надежности, измерения погрешностей (в классической теоретической ориентации), нормы, шкалы и требования к руководству по проведению тестов. Обновление по отношению к предшествующему опыту выразилось в дифференциации части «Стандартов» для различных практических сфер деятельности. Профессиональные сферы деятельности оказались настолько отличными друг от друга, что стало правомерным введение разных «Стандартов». Возможно также, что руководили этим разделением сами представители профессиональных сфер. «Стандарты» с небольшими различиями были приведены для клинической, педагогической психологии и психологии управления.
«Стандарты» 1974 г. использовались в Нидерландах для разработки системы оценки тестов и опросников. Эти стандарты были переведены на язык характеристик теста, наличие или отсутствие которых можно было оценивать. Имелось пять категорий, каждая из которых включала определенный круг вопросов. Качество ответа на каждый вопрос могло быть хорошим, удовлетворительным и неудовлетворительным. Анализ системы по категориям позволил каждую из них квалифицировать как хорошую, удовлетворительную и неудовлетворительную. Вот эти категории:
1. Цели конструирования теста.Данная категория охватывает вопросы, связанные с применением теста, теоретическими источниками конструкта и релевантностью содержания теста. Эта категория должна включать положение об основном предназначении теста.
2. Структура теста, качество его материалов и руководства.
Данная категория связана с системой подсчета, эффек
тивностью теста и его материалов (брошюра к тесту, клю
чи, время тестирования), со стандартизацией, четкостью
инструкции и интерпретацией результатов.
3. Нормы. Эта категория связана с качеством норм. Пред
ставительны ли нормы для данной популяции? Нормы,
полученные на представительных выборках, используют
ся для интерпретации показателей. В классическом вари
анте тестов репрезентативность норм опирается на до
вольно широкие, общие группы. Новые «Стандарты»
(1985) более прагматичны и рекомендуют получение
норм для специфических групп.
- Надежность. Эта категория требует наличия результатов исследования с помощью параллельных тестов (Гуллик-сеновское определение надежности), внутренней согласованности, тест-ретестовой надежности, сравнения экспертных оценок. Подчеркивается чувствительность коэффициентов к разнообразию выборок.
- Валидность. Эта категория ориентирована на корреляции показателей теста и конструктную валидность. В отношении последней допускается, что конструкт является элементом номологической сетки, так что его внешняя и внутренняя структура эксплицируемы и, следовательно, поддаются эмпирической проверке.
Как отмечалось выше, каждая категория включает определенный набор вопросов, в соответствии с которыми система квалифицирует эту категорию как «хорошую, удовлетворительную и неудовлетворительную». Систему оценки можно продемонстрировать лишь на примере использования ее в конкретном тесте. Результаты исследования теста должны быть доступными.
В следующем разделе в качестве примера использования такой системы приводится разработка новой голландской версии WISC-R (Векслеровской шкалы интеллекта для детей).
8.2.1. Оценка качества WISC-R Ниже приводится оценка WISC-R по пяти приведенным выше категориям. Этот тест используется часто. В 1981 г.в Нидерландах группа голландских и фламандских психологов приступила к новой адаптации теста. Руководство к
320
I ] Я. тер Лаак
321
нему было опубликовано в 1986/1991 гг. Оценка тестов обсуждается в голландском руководстве — «Документация по тестам и исследованиям тестов» (Evers, Van Vliet-Mulder, Ter Laak, 1992). Адаптация WISC-R обеспокоила практических психологов отчасти более высокими нормами. Новые показатели привели к распределению детей по школам разного уровня сложности обучения.
Оценки, приведенные ниже, согласуются с оценками «Документации» (1992). Результаты одинаковые. С помощью приводимых н иже примеров нам хотелось бы продемонстрировать применение системы и высказать некоторые предложения по ее использованию.
Категория 1: теоретическая основа векслеровской шкалы интеллекта для детей. Авторы руководства опирались на публикации Векслера, представляя теоретическое обоснование теста. И тест, и его направленность настолько хорошо известны, что нет необходимости описывать ни цели его использования, ни историю создания. Вдобавок тест разрабатывался для удовлетворения практической потребности в простом тесте, пригодном для широкого применения. Однако в 1955 г. Векслер высказал некоторые дополнительные соображения относительно применения теста.
Согласно его наблюдениям интеллект обнаруживает себя в нескольких различных формах поведения. В достиже-ниях по тестам интеллекта играют роль как интеллектуальные, так и неинтеллектуальные факторы (например, произвольный контроль и эмоциональная уравновешенность). Векслер работал клиническим психологом в большом госпитале Белльвью в Нью-Йорке и был убежден, что личностные характеристики (мотивация, эмоциональность, любознательность, депрессивность и т.д.) влияют на показатель IQ.
Он предпочел не ограничивать измерение интеллекта одним его важным аспектом, например, абстрактным мышлением. По мнению Векслера, интеллект предполагает наличие нескольких различных факторов, находящихся в иерархических отношениях. Интеллект рассматривается как способность наиболее высокого порядка. Интеллект проявляется в целенаправленном действии. По словам Векслера, в операциональном плане интеллект определяется
как совокупная или глобальная способность индивида целенаправленно действовать, мыслить рационально и справляться с проблемами в собственном окружении. Исходя из этого, Векслер отбирал задачи, которые коррелируют с проявлениями интеллекта, например, со школьными достижениями и профессиональным образованием.Он задался вопросом, какие интеллектуальные и неинтеллектуальные виды способностей приводят к этим достижениям. Задачи должны быть разными, привлекать легкостью подсчета ответов и надежностью оценки. Были добавлены «хорошие» (правильные) ответы, и полученные показатели позволили создать картину сильных и слабых сторон личности. Самое первое (по времени возникновения) разделение общего показателя IQ касалось показателя вербального интеллекта и показателя «интеллекта действия» (невербального интеллекта). Их корреляция составляла около 0,70. Конечно, независимых ортогональных факторов не существует и их невозможно интерпретировать как таковые. Второй часто используемой классификацией являются факторы, предложенные Кауфманом: вербальные способности, перцептивная организация, сосредоточенность и общий интеллект (см. Kaufman, 1976). В пятой главе мы останавливались на недостатках интерпретации профилей. В данной голландской версии WISC—R на первой странице нет результатов субтестов, на основе которых строится графический профиль. Это сделано для предотвращения интерпретации сильных и слабых сторон интеллекта. Субтесты не обладают факторной валидностью /см.гл.5/.
У Векслера интеллект толкуется как глобальная способность.Общий показатель признается хорошим индикатором интеллекта. По этому показателю можно предсказать адаптацию в ограниченном, но важном круге ситуаций — школьном и профессиональном образовании, на работе. Составление профиля не поощряется, но и не возбраняется.
Разработка теоретической основы теста включает три вопроса. Четко определен вопрос о назначении теста. Тест используется для прогноза, и конструкт его более или менее разработан. Однако он включен в номологическую сеть не настолько четко, чтобы можно было эту сеть валидизиро-ватъ. Подтверждена релевантность содержания теста. По-
322
и*
323
ражает, что многие задания заимствованы из шкалы Бине-Симона. Голландская и фламандская редакции особое значение придают конструктной валидности. Однако тест будет неизбежно использоваться и для прогноза. В целом тест можно оценить на «хорошо».
Категория 2: качество материалов и руководства. В упомянутых ревизиях тестов были тщательно проверены все задания. Система подсчета отличается достаточной ясностью. Стимульные материалы хорошие.Таблицы норм для голландской и фламандской выборок являются общими. Проведение теста занимает значительное время.Несмотря на справедливость некоторой критики, категория должна быть квалифицирована как соответствующая оценке хорошо.
Категория 3: нормы. Нормы получены на выборке от 6 до 16 лет с возрастным интервалом в один год.Выборка репрезентативна.В каждую возрастную группу входит около ста семидесяти мальчиков и девочек.Имеются нормы для общего показателя IQ и отдельно для показателей вербального интеллекта и невербального интеллекта. Данные собраны в 1981 г. Ответы по девяти вопросам этой категории приводят в результате к оценке теста хорошо.
Категория 4: надежность. Внутренняя согласованность определялась с помощью различных методов. В большинстве случаев использовался коэффициент альфа Кронбаха. Вдобавок использовалась (2 (лямбда). Все коэффициенты высокие. Один субтест является тестом на скорость, для него вычислен коэффициент ретестовой надежности. Ни одно из значений не опускается ниже 0,85. Результаты оценки внутренней согласованности хорошие.Поражает, что почти ни одно руководство к тесту не дает необходимых показателей. Наннелли и Бернштейн (1994, стр. 264—265) являются исключением, и они сформулировали следующее эмпирическое правило. При коэффициенте 0,70 надежность признается умеренной, для исследований требуется коэффициент надежности 0,80, а для целей отбора едва достаточным минимумом надежности считается 0,90. Поразительно, что в характеристиках теста отсутствуют коэффициенты стабильности. Хотя можно понять, что повторный сбор данных — большая работа, необходимо
иметь соответствующие коэффициенты ретестовой надежности. Выводы здесь опираются на семь вопросов, и существует компромисс между хорошей внутренней согласованностью и недостаточной стабильностью, поэтому оценку теста по этой категории можно определить как «удовлетворительную».
Категория 5: валидность. Названные ревизии теста сделали упор на конструктной валидности. Векслер не разработал номологическую сеть полностью, но с течением времени при анализе заданий интеллектуальных тестов накапливался соответствующий опыт. В редакциях теста использовались разные факторно-аналитические модели. Результаты анализа немного отличались, и авторы рекомендовали факторы Кауфмана. Это представляется разумным, потому что многие практики используют эти факторы.
Конструктная валидность проанализирована в соответствии с принятыми правилами. Отсутствуют коэффициенты прогностической валидности. Имеются корреляции с другими интеллектуальными тестами. Эти коэффициенты приведены в новом разделе по валидности, но могут рассматриваться как данные по конструктной валидности. Как незначимые приводятся корреляции теста с чтением и арифметикой на первой и второй ступенях обучения. Квалификация теста по сумме тринадцати вопросов может быть только неудовлетворительной, поскольку первоначально тест использовался как прогностический. Требуется немного времени, чтобы получить соответствующие коэффициенты прогностической валидности. Тогда может быть дана другая квалификация.
Как упоминалось выше относительно коэффициентов надежности, в нескольких (немногочисленных) руководствах используются эмпирические правила ранжирования коэффициента прогностической корреляции. Можно было бы остановиться на том, что целью является достижение значимых корреляций. Однако у исследователя обычно более высокие запросы. Он стремится объяснить большую часть дисперсии. Что это такое — «большая» часть? Наннелли и Бернштейн (1994, стр. 99—100) замечают, что эмпирически найденные корреляции редко бывают выше, чем 0,30—0,40. В какой-то степени это разочаровывает, но
324
325