Psy служит акмеология комплексная наука о достижении вершин в профессиональной и иных видов деятельности
Вид материала | Документы |
Содержание2.2 Статистические основы поиска надежности и валидности |
- Психология профессиональной деятельности, 21.5kb.
- Реферат по предмету "методика преподавания вокала" Тема: "Роль резонанса в достижении, 495.94kb.
- Резонансная, 689.58kb.
- Приказ от 6 марта 2007 г. N 07-21/пз-н об утверждении порядка лицензирования видов, 448.79kb.
- Рабочая программа производственной практики по профилю специальности пм 04 «Осуществление, 71.1kb.
- Ития современного социума служит глобализация всех видов человеческой деятельности,, 113.87kb.
- Международно–правовые проблемы борьбы с терроризмом проф., д ю. н. Э. А. Иванов,, 264.22kb.
- 1. Общая цель всякого стремления. Частные цели отдельных видов человеческой деятельности, 30.59kb.
- 1. Наука как элемент культуры. Функции научного знания в обществе в экономике. Специфика, 1421.27kb.
- Психологические особенности развития самопонимания преподавателей вуза в период адаптации, 436.76kb.
Шкала станайнов (9 балльная шкала):
- - - - - - - - - - - - - - - - - - - - - - - - -
станайны 1 2 3 4 5 6 7 8 9
проценты 4% 7% 12 17 20 17 12 7% 4%
- - - - - - - - - - - - - - - - - - - - - - - - -
. . . . . . . . .
Шкала процентилей:
- - - - - - - - - - - - - - - - - - - - - - - - -
1 5 10 203040 607080 90 95 99
50
- - - - - - - - - - - - - - - - - - - - - - - - -
i 0,001 0,022 0,136 0,341 0,341 0,136 0,022 0,001
i
i___________________________________________________
-4G -3G -2G -1G M 1G 2G 3G 4G
. . . . . . . . .
Шкала IQ, при G = 15:
. . . . . . . . .
40 55 70 85 100 115 130 145 160
Шкала Т-показателей:
. . . . . . . . .
10 20 30 40 50 60 70 80 90
Шкала SAT-показателей:
. . . . . . . . .
100 200 300 400 500 600 700 800 900
. . . . . . . . .
Шкала Z-показателей:
-4 -3 -2 -1 0 1 2 3 4
. . . . . . . . .
Шкала AGST-показателей:
20 40 60 80 100 120 140 160 180
. . . . . . . . .
Шкала Векслера:
1 4 7 10 13 16 19
. . . . . . . . .
5-балльная шкала:
- - - - - - - - - - - - - - - - - - - - - - - - - -
Балл 1 2 3 4 5
Процент: 7% 24% 38% 24% 7%
- - - - - - - - - - - - - - - - - - - - - - - - - -
10-балльная шкала стэнов:
Стэн: 1 2 3 4 5 6 7 8 9 10
Процент: 2 7 16 31 50 69 84 93 98 100
Данные шкалы наиболее распространены в психологических
исследованиях. И почти все отработанные тесты построены на
применении стандартных шкал. Однако в разных тестах применя-
ются несколько разные шкалы. Это объясняется разными причина-
ми. Так, бессмысленно применять шкалу Т-баллов там, где она
включает небольшое количество сырых баллов. Семантически не-
корректно IQ-шкалу применять при диагностике личностных ка-
честв, хотя соизмерить как отклоняются от среднего уровня ин-
теллектуальные и личностные качества различных условных групп
обследуемых плодотворно с научной точки зрения. Поэтому подоб-
ная "связь" шкал между собой (через величину стандартного от-
клонения) позволяет соизмеримо переходить от одной шкалы к
другой, обоснованно сопоставлять результаты тестирования раз-
личными тестами. Существуют специальные таблицы перехода, до-
пустим, от шкалы процентилей к Z-оценкам, Т-баллам (см.: Кула-
гин Б.В. Основы профессиональной психодиагностики.- Л., Меди-
цина, 1984, с.189-195) и др. Однако для практических целей
достаточно точности, которую можно достичь графически с по-
мощью приведенных зависимостей.
Когда происходит перевод одной шкалы в другую, важно что-
бы результаты тестирования были соизмеримы по своей статисти-
ческой структуре, то есть чтобы имели нормальный закон распре-
деления, примерно одинаковые стандартные отклонения и т.д.
Иначе можно "упустить", не заметить, "сгладить" результаты
тестирования до неприемлемого уровня. Это принципиально важно,
когда речь идет о создании экспертных систем в психологии (не
путать с экспертной оценкой, методом дельфийских аракулов: в
данном случае под экспертными системами понимается прообраз
искусственного интеллекта в психологии). Эти психодиагности-
ческие системы построены на основе большого количества ста-
тистического, логического материала. Здесь должны быть соизме-
римы результаты тестирования различными тестами до тончайших
зависимостей, иначе итоговый прогноз, диагноз будет неточен.
Примером такой гибридной экспертной системы служит система
PSY.
2.2 СТАТИСТИЧЕСКИЕ ОСНОВЫ ПОИСКА НАДЕЖНОСТИ И ВАЛИДНОСТИ
ТЕСТА И ТЕСТОВЫХ БАТАРЕЙ
Метод тестов заключающийся в диагностике (психопрогностике)
личности, ее психических состояний, функций, качеств на основе
выполнения какого-либо стандартизированного задания с заранее
определенной валидность и надежностью.
Нами уже рассмотрено понятия надежность и валидность.
Остановимся более подробно на анализе валидности теста, ста-
тистических основ ее вычисления.
Валидность теста - мера достоверности измерения того пси-
хического свойства, качества, явления, которое хотят измерить
с помощью данного теста. Различают несколько видов валидности:
валидность теста по содержанию, валидность теста по критерию,
конструктивная валидность, прогностическая валидность теста и
др.
Валидность теста по содержанию показывает насколько полно
тест охватывает исследуемую выборку по совокупности измеряемых
параметров. Допустим, если мы хотим с помощью теста проверить
математическую подготовку абитуриентов вуза, то в предлагаемый
тест должны быть включены задания, которые равномерно охваты-
вают все разделы математики, проходимой в средней школе. Сте-
пень соответствия структуры теста структуре курса математики
средней школы и будет называться валидностью теста по содержа-
нию. Однако, если мы применим разработанные для поступления в
вуз тесты по определению математических знаний, навыков, уме-
ний бывших школьников при приеме, допустим, в Российскую ака-
демию управления, то это будет некорректно с научной точки
зрения, так как валидность по содержанию будет мала: не учиты-
ваются знания математики, полученные в вузе. И может полу-
читься, что кто-то блестяще владея высшей математикой, теорией
вероятности, но основательно подзабыв школьный курс, получит
более низкий балл, чем тот, кто еще не успел его забыть, но кто
не способен ни на что большее в математике как воспроизвести
его. Для этой цели должны быть разработаны свои тесты.
Валидность теста по критерию - мера достоверности, с ко-
торой можно судить об интересующем нас аспекте поведения инди-
вида в настоящем и будущем, об интересующем нас психологи-
ческом качестве. Для ее определения необходимо сопоставить ре-
зультаты тестирования с уровнем развития изменяемого признака
на практике, в действительности, проявляющегося в деятель-
ности. Допустим, для теста на математические способности кри-
терием точности теста (нередко называют внешним критерием) бу-
дут выступать результаты деятельности по решению математи-
ческих задач, проблем, по освоению курса математики. При этом
ищется коэффициент корреляции между результатами тестирования
при поступлении в вуз и внешним критерием, сформированном на
старших курсах. В лучших тестах валидность по критерию, изме-
ренная коэффициентом корреляции, составляет от 0,3 до 0,8. Но
применение теста оправдано порой и когда валидность несколько
меньше 0,3. При валидности, равной 0, количество ошибок и точ-
ных прогнозов примерно одинаково. При отрицательной валидности
прогноз верен по принципу "все наоборот". Нередко длительное
применение тестов в процессе профессионального отбора сталки-
вается с проблемной ситуацией, когда валидность тестовых бата-
рей на практическую деятельность оказывается ничтожно мала.
Увы, тестов, диагностирующих предрасположенность к той или
иной профессиональной деятельности с достаточной степенью точ-
ности мало, очень мало. Но даже точность этих тестов, объеди-
няя их с менее валидными и тем самым снижая в целом валидность
тестовых батарей, оказывается нередко сниженной за счет не-
достаточно грамотного их применения.
Валидность теста конструктивная - мера измерения како-
го-либо сложного психического феномена, имеющего иерархическую
структуру, измерить которую невозможно при одном акте тестиро-
вания. Допустим, диагностика интеллекта невозможна без како-
го-либо предварительного понимания сути, структуры самого ин-
теллекта, на измерение которого может быть направлена целая
серия тестов. Степень соответствия нашего предварительного по-
нимания интеллекта и реальной возможности данной серии тестов
(батареи тестов) и есть валидность тестов конструктивная. Ва-
лидность теста конструктивная - исключительно плодотворное по-
нятие при определении профессиональной пригодности обследуе-
мых, которая исследуется в рамках профессиологии, акмеологии.
Некоторое время назад в отечественной психологии шли бур-
ные дискуссии о правомерности применения тестов в интересах
профессионального психологического отбора. Приводились факты
за и против. По-видимому, вопрос следует конкретизировать:
высоконадежные и высоковалидные тесты можно и нужно применять
в интересах отбора, тесты же с невысокой валидностью и
надежностью - нет. К сожалению есть случаи, когда тесты приме-
няются без определения их надежности и валидности. И в ре-
зультате оказывается, что они бесполезны или даже вредны
(если валидность отрицательная). Валидность теста - это сте-
пень его эффективности, она, естественно, меняется в зависи-
мости от контингента людей, которые подвергаются исследованию,
и характера их будущей деятельности. Один и тот же тест может
быть высоковалидным при отборе на одну профессию, бесполезным
при отборе на другую и даже вредным при отборе на третью. В
настоящее время экспериментально установлен факт вариации ва-
лидности теста даже при отборе на однотипные профессии, но в
разных местах: валидность зависит и от системы обучения, под-
готовки будущих специалистов (в одном случае более высокие
оценки получают более творческие, самостоятельные личности, в
другом - более дисциплинированные и исполнительные), от среды
в которую они попадают. В связи с этим возникает немало проб-
лем: как формировать внешний критерий, на какую выборку можно
распространить полученную валидность и т.д.
Как же реально определить валидность теста?
Корректное определение надежности и валидности теста зависит
от его исходной структуры, его составных компонентов. В самом
общем виде тесты или относятся к трем группам (L-date, Q-date,
Т-date), или содержат в себе аналогичные три компонента: а)
данные жизненного пути, социально-демографические, биографи-
ческие данные; б) вопросы, ответы на которые варьируют в за-
висимости от настроения, мотивации испытуемого (Q-date); в) за-
дания, выполнение которых требуют реальных умственных, психи-
ческих, физических усилий, действий (Т-date). Эти разнокачест-
венные данные по-разному связаны с внешним критерием в прог-
ностическом плане. Социально-демографические, биографические
данные наиболее устойчивы и менее зависят от настроения, дина-
мичной мотивации обследуемых. Поэтому для проверки валидности
данных тестов достаточно взять специалистов данного профиля,
оценить в шкале порядка, экспертной оценкой уровень развития
их профессионального мастерства, профессионально важных ка-
честв личности и найти статистические зависимости между
биографическими данными и внешним критерием. Высокий уровень
валидности дает нам право применять данные тесты при исходной
оценке личности: отбор в вузы, подбор на профессии, которые
ранее были деятельностно не знакомы личности и т.д.
Подобный способ проверки валидности тестов, построенных
по принципу Q-date, оказывается недостаточным. Дело в том, что
ответы на данные тесты варьируют в зависимости от мотивации,
психического состояния обследуемого. Поэтому в ситуации отбора
большая часть обследуемых будет отвечать "как надо", а не как
есть на самом деле. В этой ситуации будут активнейше срабаты-
вать защитные механизмы, прикрываться все недостатки и выпячи-
ваться достоинства. Так, например, при отборе на высокооплачи-
ваемую работу обследуемые в момент отбора будут отвечать
совсем не так, как после поступления на работу и успешного ут-
верждения в организации. И чтобы перепроверить валидность
тестов, применяемых в интересах отбора, при оценке лиц в судь-
боносные моменты их биографии, следует дождаться, когда про-
тестированные всесторонне адаптируются в должности, новой про-
фессии, когда они всесторонне проявятся как профессионалы (а
для этого нужны порой годы), когда можно будет сформировать
достаточно точный и объективный внешний критерий и только ког-
да и можно будет проверить реальную валидность теста.
В третьем случае (когда требуется определить валидность
теста на выполнение реальных действий - решение арифметических
задач, работа на ключе при отборе на профессию радиотелегра-
фиста, работа на тренажере и т.д.) важно при определении ва-
лидности методики не допустить смешения навыков и способ-
ностей. Так при работе "на ключе" обследуемые, до этого зани-
мавшиеся радиоделом и работавшие при передаче текста с помощью
"ключа", резко выйдут вперед. В то же время ранее отставшие
от них в дальнейшем могут показать все же более высокие ре-
зультаты за счет своей мотивации, желания, трудолюбия, рабо-
тоспособности. Поэтому чтобы сформировать достаточно объектив-
ный и надежный критерий следует дождаться выравнивания исход-
ных навыков и умений у обследуемых в процессе их профессио-
нальной деятельности. Для различных профессий, для различных
ситуаций это может быть различный срок. Внешний критерий при
этом следует формировать после достаточно надежного определе-
ния реального уровня развития способностей обследуемых к дан-
ному виду деятельности, после реального проявления их про-
фессиональной предрасположенности в ней.
При формировании внешнего критерия чаще используется мне-
ние экспертов. Если выбираются высококвалифицированные экспер-
ты, то они нередко не соглашаются с первоначально предложенной
схемой оценки профессионального мастерства личности, предлагая
свои критерии. Так например, при оценке эффективности инженер-
ной деятельности эксперты могут подсказать, что качества
обеспечивающие успех исследовательской инженерной работы и ра-
боту инженера-организатора несколько иные. В этом случае про-
фессию инженера подразделяют на две подгруппы и т.д. Чаще все-
го сложные виды деятельностей как бы состоят из ряда произ-
водственных функций, нередко между которыми существует проти-
воречие. В этом случае внешний критерий должен быть разнока-
чественным, структурированным, и каждый структурный компонент
входить в профессиональную пригодность личности с различным
весовым коэффициентом.
В конечном счете при поиске валидности теста получается по
крайней мере одна колонка цифр, отражающая результаты тести-
рования, и по крайней мере одна колонка цифр - формализованный
внешний критерий. Между этими колонками цифр ищется коэффици-
ент корреляции. Если результаты тестирования и внешний крите-
рий выражены в шкалах интервалов и отношений, то возможно
применение линейного коэффициента корреляции. Если же хотя бы
одна из этих величин выражена в шкале порядка, то применимы
ранговые коэффициенты корреляции. При этом одна из более высо-
ких шкал переводится в шкалу порядка, так чтобы две шкалы были
шкалами порядка. Если же одна из шкал является номинальной, то
валидность находится с помощью процентных зависимостей, не бо-
лее. Приведем пример.
В колледже готовились специалисты по ремонту вычислитель-
ной техники. Оценка ставилась по 10 предметам по специально
отработанной батарее тестов. Через год работы на одной фирме
было выбрано 20 человек, выполнявших однотипные, наиболее
сложные ремонты. За внешний критерий была взята норма их выра-
ботки. Она колебалась от 95 до 118%. Попробуем найти валид-
ность примененной батареи тестов.
-------------------------------------------------------------
N п/п Фамилия Сумма баллов по Норма выработки
10 тестам
Х Y
-------------------------------------------------------------
1 Махарев И. 33 95%
2 Жмонов А. 31 100%
3 Тихонов И. 35 100%
4 Труфанова Е. 38 102%
5 Мартов А. 41 103%
6 Иванов И. 37 105%
7 Дмитриев М. 37 106%
8 Аркашин П. 39 106%
9 Матвеев В. 43 106%
10 Чекарев В. 40 109%
11 Вологдин Т. 41 110%
12 Макашов А. 44 110%
13 Сидоров Ф. 40 111%
14 Капустин М. 45 112%
15 Криворуков О. 48 112%
16 Бирюков Е. 45 114%
17 Яковлев Р. 49 114%
18 Григорьев А. 47 115%
19 Павлов А. 43 117%
20 Иволгин О. 48 118%
---------------------------------------------------------------
В данном случае для поиска валидности батареи тестов можно
применить линейный коэффициент корреляции Пирсона. Он нахо-
дится по формуле:
_ _ _
n > Xi Yi - ( > Xi ) ( > Yi)
R xy = ------------------------------------------------
_ 2 _ 2 _ 2 _ 2
[ n > Xi - ( > Xi )] [n > Yi - ( > Yi) ]
Проведем промежуточные вычисления.
_
> Y = 2 165
_
> X = 824
_ 2
> Y = 235 091
_ 2
> X = 34 442
_
> X Y = 89 715
n = 20
20 x 89 715 - 824 x 2 165
R xy = --------------------------------------------- =
2 2
[ 20 x 34 442 - 824 ] x [ 20 x 235 091 - 2 165]
= 0,861.
По своей величине коэффициент корреляции Пирсона (линей-
ный коэффициент корреляции) меняется в диапазоне от -1 до +1.
Смысловая интерпретация значений коэффициентов корреляции
зависит от характера связи между собой X и Y. Если за критерий
истинности, верности взять линейную связь (при поиске валид-
ности это оправдано), то графически эта интерпретация может
быть таковой (см.: Гласс Дж., Стэнли Дж. Статистические мето-
ды в педагогике и психологии. - М.: Прогресс, 1976, с.110.).
Интерпретация значений Rxy
--------------------------------------------------------------
Величина Rxy Характер линейной Графическое распределение
зависимости х y
--------------------------------------------------------------
y i .
i .
+ 1,0 строгая прямая связь i .
i .
i .
i .
i .
i----------------------------
x
y i . . .
i . . . . .
+ 0,5 слабая прямая связь i . . . . .
i . . . . .
i . . .
i .
i
i----------------------------
x
.
y i . . .
i . . . . .
0,0 нет линейной связи i . . . . . .
i . . . . .
i . . .
i .
i
i----------------------------
x
y i
i . . .
- 0,5 слабая обратная связь i . . . .
i . . . .
i . . .
i . . .
i .
i----------------------------
x
y i .
i .
- 1,0 строгая обратная связь i .
i .
i .
i .
i .
i----------------------------
x
Сразу же следует оговориться, что в психологических, акмеоло-
гических исследованиях крайне редко встречается линейная
связь. Чаще всего коэффициент корреляции колеблется вокруг ве-
личин 0,2-0,6. Это тот диапазон, где реально работают боль-
шинство лучших тестов. Неотработанные же тесты нередко дают
нулевое, а иногда и отрицательное значение коэффициента корре-
ляции. При этом не всегда нулевое значение коэффициента корре-
ляции означает отсутствие какой-то связи между двумя парамет-
рами. Просто эта связь может носить нелинейный характер и по-
росту не отражаться однозначным значением коэффициента корре-