Л. Ф. Бурлачук психодиагностика учебник

Вид материала

Содержание

3.4. Пилотажное исследование
3.5 Анализ заданий
Таблица 3.3 Образец матрицы для анализа заданий
Испытуемые Балл по зада- Балл по зада- Балл по всему Бал по всему Произведениешло нию в квад- тесту тесту в квадрате баллов по з
3.6. Определение надежности теста
162 Глава 3. Психометрические основы психодиагностики: основные этапы...

Подобный материал:

1 ... 15 16 17 18 19 20 21 22 ... 35

компоновки текста опросника следует руководствоваться такими рекомендациями.

Нумеруется каждое задание.
Каждая строка на странице должна быть короткой и содержать не более 10-
12 слов.
Все задания располагаются по прямой вертикальной полосе сверху вниз в
левом углу страницы.

3.4. Пилотажное исследование 157

4. Варианты ответов должны быть представлены так, чтобы получилась пря
мая вертикальная полоса сверху вниз в правом углу страницы. Необходи
мо обеспечить ясную визуальную связь между каждым заданием и вариан
тами ответа на него. Это может быть сделано с помощью введения пунктир
ной линии от колонки заданий к их вариантам ответов. Например,

1. да не знаю нет

2. да не знаю нет

3. да не знаю нет

Каждое задание нужно отделить друг от друга, лучше это сделать, исполь
зуя свободное пространство, а не горизонтальную линию.
Если используется более чем один тип заданий, одинаковые задания груп
пируются вместе. Каждый тип заданий требует разных инструкций и своих
вариантов ответов.
Опросник печатается так, чтобы он имел эстетически привлекательный вид.
Современные компьютеры позволяют сравнительно легко добиться опти
мального варианта текста. Дизайн опросника может способствовать воспри
ятию его как формального документа или приближать к игре (особенности
шрифта, цвет бумаги и расположение заданий).

Результаты обследования (разные формы их представления) обычно не принято включать в опросник, хотя в некоторых случаях и допускается наличие в бланке (брошюре), с которым работает испытуемый, итогового блока, заполняемого психологом.

^ 3.4. Пилотажное исследование

Проведение пилотажного исследования предполагает выполнение заданий теста лицами, которые имеют сходные особенности с теми, для обследования которых он предназначается. Анализ полученных данных поможет отобрать наилучшие задания для окончательной версии опросника.

Если, например, опросник предназначен для обследования лиц, имеющих проблемы с алкоголем, пилотажное исследование можно провести в соответствующих консультативных центрах, клиниках. В том случае, когда опросник будет использоваться применительно к любым, скажем, взрослым и психически нормальным представителям популяции, необходимо сформировать репрезентативную группу испытуемых. Сделать это намного труднее, чем подобрать какую-либо специфическую группу. Обычно составление выборки отнимает много времени, поэтому не стоит этим заниматься при проведении пилотажного исследования. Если невозможно создать репрезентативную выборку, обычно достаточно составить выборку приблизительно похожую на репрезентативную. Лица, которые принимают участие в пилотажном исследовании, должны различаться по демографическим показателям, таким как возраст, пол, социальный статус. Пилотажную версию опросника следует предъявить как можно большему количеству испытуемых. Минимальное количество респондентов, которое требуется для пилотажного

13В Глава 3. Психометрические основы психодиагностики: основные этапы...

исследования, должно быть в два раза больше, чем количество заданий. Если невозможно получить такое количество испытуемых, лучше все-таки привлечь к исследованию меньшее количество людей, чем вообще отказаться от проведения пилотажной стадии исследования.

^ 3.5 Анализ заданий

Анализ заданий по результатам, полученным в пилотажном исследовании, имеет своей целью отбор наилучших заданий для окончательной версии опросника и включает в себя определение доли ответивших правильно (в соответствии с ключом) и дискриминантности каждого задания. Первый шаг состоит в том, чтобы составить таблицу анализа заданий (табл. 3.3), в которой каждая колонка (а, Ь, с, d и т. д.) представляет задание, а каждая строка (1, 2,3,4, 5 и т. д.) — обследуемого. Когда речь идет о разработке личностных опросников, в таблицу вписывается соответствующий балл по каждому заданию, а при этом имеется в виду, что обратные задания (с противоположным содержанием) оцениваются так же, как и прямые задания, но в противоположном направлении континуума оценок. Затем суммируются баллы по каждой клетке для получения общего балла по каждому ряду (испытуемые) и общего балла по каждой колонке (задания).

^ Таблица 3.3

Образец матрицы для анализа заданий

Обследуем	Задания	Сумма

	а	Ь	с	d	е
1.	1	1	0	1	1	4
2.	0	1	0	0	1	2
3.	1	0	0	1	1	3
4.	1	0	0	0	1	2
5.	0	0	0	1	1	2
Сумма	3	2	0	3	5	13

Следующим шагом будет вычисление показателя, определяющего долю испытуемых, ответивших в соответствии с «ключом» опросника или индекса эффективности задания¹. Этот показатель подсчитывается делением количества обследуемых, давших правильный (так называемый «ключевой») ответ, на их общее количество. В идеале этот индекс для каждого задания должен располагаться в интервале от 0,25 до 0,75, приближаясь в среднем к 0,5 для всего опросника. Индекс, меньший чем 0,25, показывает, что задание неэффективно потому, что очень

¹ В ряде случаев определяется как индекс сложности задания; например, во многих шкалах интеллекта присутствуют субтесты, предназначенные для определения общей осведомленности и состоящие из вопросов типа: «Назовите столицу Уругвая» или «Кто автор "Критики чистого разума"?». В таких тестах с помощью индекса сложности устраняются те задания, на которые отвечают почти все испытуемые (легкие) и те, на которые отвечают правильно очень немногие (сложные).

3.5 Анализ заданий 159

немногие обследуемые отвечают на него правильно, а выше 0,75 указывает на то, что на данное задание получено слишком много правильных ответов. В табл. 3.3 анализа заданий индекс эффективности для каждого задания получается следующим образом: (а) 3/5 - 0,6; (Ь) 2/5 - 0,4; (с) 0/5 - 0; (rf) 3/5 - 0,6 и (в) 5/5 - 1. Из этого следует, что нужно устранить задания (с) и (е) из окончательной версии опросника.

Также нужно удостовериться, просмотрев результаты в таблице анализа заданий, в том что хороший индекс эффективности, т. е. лежащий где-то посередине между крайними оценками, не просто означает выбор средних оценок в оценочном континууме каждым испытуемым, а представляет собой вариацию различных оценок.

Задания (вопросы, утверждения) только тогда следует включать в окончательную версию опросника, когда они измеряют те же самые личностные особенности, что и другие, предназначенные для этого задания. Для определения дискри-минативности заданий используется коэффициент корреляции каждого задания с общим баллом всего теста. Чем выше коэффициент корреляции, тем выше дис-криминантность задания, тем лучше задание. Это основной критерий. Как правило, требуется минимальная корреляция в 0,2. Задания с отрицательной или нулевой корреляцией почти всегда исключаются.

Для расчета этого показателя чаще всего применяется коэффициент произведения моментов Пирсона (заметим, что он наиболее приемлем для оценивания заданий, имеющих пять и более вариантов ответа, а в случае дихотомических заданий используется точечно-бисериальная корреляция). Вычисления обычно производятся с помощью специальных компьютерных программ, однако каждый разработчик тестов должен хотя бы один раз провести расчеты вручную. Это дает возможность проникновения в смысл того, что происходит с заданиями теста. Тем читателям, которые попытаются осуществить эту процедуру, напоминаем, что коэффициенты корреляции всегда меньше +1 и больше -1. Если получено значение коэффициента, выходящее за границы этого интервала, значит, допущена ошибка в расчетах. Формула коэффициента произведения моментов Пирсона имеет вид:

- (IX )²

где г— коэффициент корреляции; X— результат по каждому заданию; У— балл (результат) по всему тесту; п — количество попарных произведений; Z — сумма. Для того чтобы подсчитать коэффициент корреляции произведения моментов Пирсона, нужны: сумма баллов испытуемых по каждому заданию (LX), сумма баллов, испытуемых по всему тесту (IУ), сумма квадратов баллов испытуемых по каждому заданию (ZY²), сумма квадратов баллов испытуемых по всему опроснику (2У²), сумма произведения баллов по каждому заданию и по всем заданиям (£ХУ). Путем подстановки в формулу значений перечисленных показателей вычисляется коэффициент корреляции. Нижеследующий пример демонстрирует простой способ получения этого коэффициента. Для избежания ошибок рекомендуется повторный подсчет, по каждому заданию.

160 Глава 3. Психометрические основы психодиагностики: основные этапы...

При решении вопроса о включении задания в окончательную версию теста нужно принимать во внимание многие факторы. В дополнение к изучению эффективности и дискриминантности нужно определить то количество заданий, которое потребуется для окончательной версии (не менее 20-30 заданий!) и насколько хорошо они «вписываются» в ранее созданную для теста решетку. Например, можно включить задания с низкой дискриминативностью, если имеется немного заданий по некоторой области измерения. Также иногда имеет смысл включение в окончательный вариант опросника задания с недостаточно высоким показателем эффективности при условии, что оно обладает достаточной дискриминантно-стью. Также важно обеспечить приблизительно равное количество прямых и обратных заданий. Для испытуемых разных полов необходимо выполнить отдельные процедуры анализа заданий.

^ Испытуемые Балл по зада- Балл по зада- Балл по всему Бал по всему Произведение
шло нию в квад- тесту тесту в квадрате баллов по зада-

рате нию и по всему

тесту

п X X²Y Y²XY

1	1	1	30	900	30
2	3	9	57	3249	171
3	5	25	94	8836	470
4	4	16	76	5776	304
5	3	9	80	6400	240
6	1	1	33	1089	33
7	2	4	54	2916	108
8	2	4	58	3364	116
9	5	25	83	6889	415
10	4	6	76	5776	304
n=10	2X=30	2X>=110	27=641	2P = 4519!	5 2X7=2191

10(2191)-(ЗОХ641)

V[HO-(30)²][10(45195) -(641)²]

Способы улучшения заданий выясняются как раз на этой стадии конструирования теста. Например, изменение формулировки ответа в задании с «иногда» на «всегда» может повысить показатель эффективности. Однако эти изменения во всех вопросах (утверждениях) могут повлиять на надежность и валидность теста. Процедура анализа заданий дает необходимую информацию относительно параметров каждого задания. Тем не менее только исследователь может вынести решение о том, какой из критериев наиболее важен для реализации цели создаваемого теста.

В начале 1980-х гг., помимо традиционных процедур анализа заданий, появляются более сложные, использование которых невозможно без достаточно мощного компьютерного обеспечения. К таковым прежде всего относится теория -«задание—ответ» (item response theory, IRT). Технические приемы этой теории, несмотря на продолжающиеся дискуссии, сегодня включаются во вновь создаваемые

3.6. Определение надежности теста 1 S1

тесты. Однако речь идет прежде всего о тестирований способностей. Наиболее сложные проблемы возникают в связи с попытками приложения ITR к тестам личности. Безусловно, нельзя утверждать, что процедуры из /77? неприменимы в оценке личности, однако требуется решение многих задач, прежде чем эта теория замениг традиционные процедуры анализа заданий (подробнее об этой теории см. в работах П. Клайна, 1994; А. Анастази и С. Урбина, 2001; и др.).

^ 3.6. Определение надежности теста

Тест обычно считается надежным, если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании.

В психометрике термин надежность имеет два значения. На одном из них — надежности по внутренней согласованности — мы не будем останавливаться подробно, отсылая читателя к соответствующим справочникам и руководствам¹, отметив только, что требование к внутренней согласованности теста не случайно. Вполне естественно считать, что если некоторая переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое. Для того чтобы быть валидным, тест должен быть согласованным. Существует несколько способов определения надежности.

Надежность ретестовая — предполагает повторное предъявление того же самого теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных. При использовании этого способа определения надежности нужно отдавать себе отчет в том, что испытуемые могут запомнить свои ответы и воспроизвести их во второй раз, поэтому повторное тестирование должно быть отделено от первого более-менее значительным временным интервалом, обычно не менее месяца. Некоторые психологи настаивают на интервале между тестированиями не менее 6 месяцев (Клайн, 1994).

Мы не считаем требование П. Клайна об обязательном 6 месячном интервале между тестированиями безусловным. В подтверждение сошлемся на результаты . исследования канадских психологов. С помощью личностного опросника были обследованы 302 студента с интервалом в 3 недели. Условия повторного тестирования варьировались. Стандартный коэффициент ретестовой надежности, равный 0,872, не отличался от коэффициентов надежности, полученных в трех группах испытуемых, получавших одну из трех специфических инструкций: 1) продумывать ответы; 2) использовать воспоминания о прошлых ответах; 3) выполнять параллельную форму теста. Было обнаружено, что стандартный коэффициент надежности выше коэффициента, полученного при инструкции воспроизводить прошлые ответы.

Наименьшим удовлетворительным значением для ретестовой надежности является коэффициент корреляции, равный 0,7. Правда, для некоторых тестов этот показатель может быть несколько ниже.

¹ Изданный под нашей редакцией перевод с английского книги П. Клайна «Справочное руководство по конструированию тестов» (Киев, 1994), пока, к сожалению, единственная на русском языке достаточно подробная работа по конструированию тестов, может удовлетворить интерес читателя к этой проблеме.

^ 162 Глава 3. Психометрические основы психодиагностики: основные этапы...

Надежность параллельных форм предусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Основная проблема, препятствующая широкому распространению этого способа определения надежности, — необходимость подготовки двух наборов заданий, что чрезвычайно сложно, поскольку требуются убедительные доказательства их эквивалентности.