Купер, А
Вид материала | Краткое содержание |
Типы валидности |
- Сэр Эстли Купер (Sir Astley Cooper), 25.75kb.
- Книга эскизов". Д. Ф. Купер. Пенталогия о Кожаном Чулке. Э. А. По. Рассказы и стихи., 8.44kb.
- Жить с человеком на его лугах, 2157.66kb.
- Стивена Фрирза «Неотразимая Тамара», 763.14kb.
- Купер, А, 4004.49kb.
- Р. Л. Стайн Собаки-призраки, 633.33kb.
- Книга была издана с предисловием некоего г-на В. Купера, которое также предлагается, 1279.24kb.
иска кандидатов на должность генерального директора решено было воспользоваться услугами компании по подбору руководящих кадров. Для облегчения процедуры первоначального отбора персонала был разработан подробный профессионально-ориентированный опросник (см. главу 8), который, как было уже известно, был надежным и валидным способом прогнозирования качества выполнения работы и уровня текучести кадров. Затем были выбраны батареи психологических тестов (см. главу 8), позволяющие определить кандидатов, подходящих для замещения руководящих должностей различного уровня. Было решено использовать упражнение по выбору профессиональных задач (Job Choice Exercise, Stahl, 1983), позволяющее определить, достаточно ли хорошо кандидаты выполняют свои обязанности. Кроме того, выбор этого упражнения определялся тем, что оно позволяет справедливо оценить кандидатов независимо от их половой и расовой принадлежности, а также тем, что на выполнение теста требуется всего 20 минут. Также был выбран и личностный опросник «Шкала управленческого потенциала» (Management potential scale) из Калифорнийского психологического опросника (California Psychology Inventory) (Gough, 1984), поскольку он помогает выявить социально компетентных менеджеров, способных работать продуктивно, ориентируясь на достижение цели, а также тех, кто обречен на провал, поскольку склонен действовать хаотично и легко поддаваться переменам настроения. Также для отбора кандидатов решено было использовать упражнения на анализ документов (in-tray exercises) (см. главу 7), чтобы оценить умение руководить, планировать и принимать решения. В качестве средства для отсева неподходящих кандидатов использовался биографический опросник. Пятьдесят кандидатов были приглашены для отбора на руководящие должности. Каждый из них выполнил комплекс тестов и упражнений на анализ документов. После прохождения этого этапа были отсеяны двадцать человек. Оставшиеся тридцать прошли серию формализованных собеседований (см. главу 6), которые проводили независимо друг от друга пять специалистов. Была произведена проверка надежности оценок разных специалистов, проводивших собеседование, которая позволила прийти к решению об отборе кандидатов, не вызывающему разногласий. Согласие оценивающих между собой достигло 88%, что является достаточно высоким показателем. Затем на работу приняли двадцать пять человек из числа кандидатов. Оценка работы руководящей группы, проведенная годом позднее, доказала, что применение различных методов отбора было эффективным. Производительность оказалась на 25% выше, чем на аналогичных заводах в Канаде. Кроме того, проведенные опросы показали высокую степень мотивированности сотрудников и их удовлетворение от выполняемой работы. Последующая оценка достижений, проведенная через два года, а затем через пять лет показала рост производительности на 15% и увеличение доли компании на рынке на 3%.
В вышеприведенном примере видно, что компании «Грейтплей» удалось удовлетворить свои потребности, поскольку кадровые специалисты посвятили необходимое время оцениванию методов отбора
64 ■ Глава 4. Оценочные стандарты для методов отбора персонала
с точки зрения четырех оценочных стандартов. Тем самым они обеспечили рассмотрение возможных кандидатур исключительно с точки зрения их способности выполнять данную работу и профессионально необходимых характеристик личности. Последующая оценка работы отобранных кандидатов показала, что такой вдумчивый подход был весьма выгоден для организации, поскольку год за годом продолжали расти и производительность предприятия, и его доля на рынке. Компания достигла этой цели, выбрав методы отбора, соответствующие каждой профессиональной функции и надежно выявляющие пригодность кандидата, и в то же время прогнозируя результаты профессиональной деятельности в будущем.
Для наиболее удачного выбора различных методов отбора или тестов желательно заранее установить требования, предъявляемые к процедуре кадрового отбора, с целью обеспечить прием на конкретную должность наиболее подходящих кандидатов (см. главу 5). На практике независимо от того, какие методы решено использовать для систематического отбора кадров, требуется, чтобы эти методы соответствовали некоторым стандартам, в особенности тем, которые связаны с надежностью, валпдностыо, интерпретируемостью и практичностью. Также следует подчеркнуть, что, поскольку эти стандарты относятся к любой системе измерения, методы, использующиеся для оценки профессиональной деятельности кандидатов в будущем, также должны обладать этими характеристиками, поскольку иначе валидация процедуры отбора теряет всякий смысл.
Надежность
Очевидно, что совершенно необходимо иметь надежные инструменты измерения, поскольку иначе специалисты по персоналу не могут даже в малейшей степени доверять результатам процедуры отбора. Непротиворечивость измерений является фундаментальной основой самой концепции надежности, и следовательно, важнейшим стандартом при оценке любого метода отбора. Если тест или метод отбора ненадежен, то специалисты по персоналу получают результаты ничуть не лучше, чем если бы они выбирали сотрудников «методом тыка» или вытягивали из шляпы бумажки с именами. Принципиально надежность любой системы измерения может быть определена путем многократного измерения характеристик одного и того же объекта в одних
Надежность ■ 65
и тех же условиях. Это объясняется тем, что средний результат, полученный по итогам проведения ста испытаний, более надежен, чем любой отдельный результат, поскольку нетипичные обстоятельства (например, похмельный синдром) могут влиять на результат какого-либо одного теста, по при усреднении данных эти отклонения компенсируются; также сглаживаются различия, возникшие по причине неудачной, непонятной формулировки вопроса. По сути, чем более согласованы результаты друге другом, тем более надежна система измерения. Предположим, что компания «Грейтплей» перед кадровыми собеседованиями провела для ста человек предварительное испытание двух метов: структурированного собеседования, когда каждому кандидату задаются одни и те же вопросы в одном и том же порядке, и традиционное собеседование в свободной форме, в ходе которого кадровые специалисты могут задавать любые вопросы, которые сочтут нужными. Предположим, что согласие между сотрудниками, проводившими собеседование, по поводу решения об отборе кандидатов составило 95% в случае структурированных собеседований и 37% для собеседований в свободной форме. Это явно указывало бы па то, что более надежным является структурированное собеседование, поскольку при его проведении постоянно наблюдался более высокий уровень согласия между сотрудниками, проводившими собеседование.
Типы надежности
В большинстве случаев дорого и непрактично выявлять надежность метода отбора кадров путем его многократного проведения, и поэтому часто требуется другая стратегия. Например, перед тем как применить на практике упражнения на анализ документов, компания «Грейтплей» могла бы определить их надежность, проведя тестирование одной и той же группы своих сотрудников с помощью этих тестов два раза в разное время. В этом случае надежность метода определялась бы путём анализа корреляции между двумя группами результатов. Поскольку надежный метод измерения должен для каждого из испытуемых давать очень близкие показатели, корреляция результатов используется в качестве показателя стабильности. Чем выше уровень корреляции, тем ближе соответствие баллов, полученных каждым отдельным кандидатом при повторном проведении процедуры отбора, и тем надежнее, следовательно, окажется метод. Приведенная здесь стратегия, использованная для оценки надежности упражнения на анализ документов, называется «тест-ретестовая надежность»,
3 -294
66 ■ Глава 4. Оценочные стандарты для методов отбора персонала
и главной ее целью является определение стабильности измерений по прошествии времени (см. Curelon, 1971). По сути, при помощи конкретного метода получают результаты для некоторого числа кандидатов, а затем, по прошествии определенного времени, тех же самых кандидатов просят повторно выполнить течт. Основным недостатком данного подхода является то, что кандидаты во время первого испытания могут чему-то научиться и, таким образом, показать лучшие результаты при проведении повторного тестирования, за счет чего снизится коэффициент надежности. Можно сделать вывод, что огромную роль играет то, какой отрезок времени прошел с момента первого проведения теста. В целом чем меньше прошло времени, тем вероятнее, что сыграет свою роль эффект обучения, которое происходит при первом тестировании. Аналогичным образом при слишком большом промежутке времени могут оказывать влияние другие факторы, например приобретение опыта, который опять же снизит показатель надежности измерения. Оптимальный промежуток времени назвать сложно, но в большинстве тест-ретсстовых исследований он составляет от одного до трех месяцев.
В случаях, когда существуют две различных версии одного и того же теста пли процедуры отбора, коэффициент надежности может определяться путем корреляции результатов, полученных при помощи разных вариантов теста. Такой вид надежности называется «надежность параллельных форм» (parallel fonn reliability), но в большинстве случаев его применение считается нецелесообразным из-за того, что разработка двух отдельных форм измерения является дорогостоящей и требует больших временных затрат. Поэтому метод параллельных форм используется почти исключительно в тех случаях, когда по каким-либо причинам уже существуют две версии теста. Необходимо обеспечить соответствие тематики, сложности и типов заданий в обеих версиях. В противном случае подученный коэффициент надежности будет просто отражать уровень менее удачного варианта теста, скрывая достоинства более удачной версии. В результате обе версии могут быть признаны непригодными для отбора кадров, несмотря на то что лучшая версия может быть весьма и весьма надежной. Кроме того, могут возникнуть проблемы, связанные с проведен нем этих двух измерений. Если выполнение заданий кандидатами не будет одинаковым в обоих случаях (если, например, испытуемые не отнесутся к обеим версиям одинаково вдумчиво и внимательно), надежность метода, вероятнее всего, останется недооценена. Аналогичным образом
Надежность ■ 67
если испытуемые выполняют версии теста, находясь в различном настроении, то оценка надежности может быть завышена.
Более часто используется другой метод, логически основанный на параллельных формах, — метод внутренней непротиворечивости. В этом случае не требуется разрабатывать двух вариантов одного и того же теста; тест делится на две части (например, на задания с четными и нечетными номерами). Затем выявляется корреляция результатов, полученных при выполнении каждой половины теста, между собой. Основным преимуществом этой формы оценки надежности является удобство ее проведения, позволяющее снизить общую сумму затрат. Однако важно учитывать и то, что такая форма оценки надежности имеет свои минусы. Говоря простым языком, деление на два пункта, используемых для определения показателей на любой шкале, снижает надежность оценки, поскольку короткая шкала менее надежна, чем длинная. Такие отклонения при оценивании могут быть скорректированы по формуле Спермана— Брауна (см. Smith and Robertson, 1993). Однако на практике применение таких компьютерных программ, как SPSS (« Пакет статистических программ для применения в сфере социальных наук», Statistical Package for Social Sciences) позволяет избавиться от необходимости использовать эту формулу, поскольку оценку надежности можно получить с помощью операций, в которых учитываются все задания теста. Наиболее распространенными показателями внутренней непротиворечивости являются альфа Кронбаха (Cronbach, 1951), использующаяся в случаях, когда элементы теста оцениваются при помощи какой-либо рейтинговой шкалы, а также индекс Кулера-Ричардсона (Knder-Richardson, 1937), который используется, если оценивание производится но принципу «да или нет». В действительности оба метода позволяют подсчитать среднее значение для любого возможного показателя надежности средства оценивания при помощи разделения результатов задания на две равные части, хотя получаем ый в 11тоге результат несколько завышений (приблизительно на 3%) указывает общую надежность метода. Метод внутренней непротиворечивости, включающий использование альфы Кронбаха или показателя Кудера-Ричардсона, является наиболее распространенным из всех методов оценки надежности, применяемых издателями тестов.
Другой важной формой оценки надежности, которую мы видели на примере компании «Грейтплей», является_межэкспертная надежность (inter-rater reliability); она показывает степень согласия оценивающих
3'
68 ■ Глава 4. Оценочные стандарты для методов отбора персонала
между собой. Способ в основном применяется для определения надежности собеседований или других методов отбора, в основе которых лежит субъективная оценка. Как правило, оценщики проходят обучение тому, как следует применять какую-либо систему однозначного оценивания. Затем двое оценщиков определяют баллы для небольшой репрезентативной выборки результатов прохождения процедуры отбора. Любые возникшие расхождения обсуждаются, и в итоге оба оценщика приходят к единому мнению по поводу проведения балльной оценки конкретных аспектов. Затем оба оценщика независимо друг от друга проводят оценивание всех кандидатов, после чего осуществляется корреляция результатов, полученных одним из оценщиков, с результатами, полученными другим. Желательно, чтобы коэффициент межзкеиертпой надежности оказался более 0,8, т. е. согласие оценщиков составило 80%. Если выявлен показатель ниже этой отметки, это говорит о наличии некоторых проблем. Очевидно, что чем ниже коэффициент надежности, тем о более серьезных проблемах это свидетельствует. Наиболее вероятная причина несоответствий бывает вызвана тем, что, несмотря на первоначальную договоренность по поводу того, как, оценивая качества кандидата, начислять баллы по конкретным аспектам, разные люди, занимающиеся отбором персонала, при определении своих оценок полагаются на слегка различные критерии. Например, для одного из оценщиков более важным окажется наличие определенного уровня образования, а для других — практически опыт реальной работы. В других случаях может оказаться, что один из оценщиков будет более снисходителен при оценке кандидатов, чем остальные. Вследствие этого очень важно выявить проблемы, возникшие при оценивании и снижающие коэффициент надежности, и принять меры в соответствующем направлении. Использование ненадежных методов измерения может привести к ошибкам, которые дорого обойдутся организации.
Валидность
Не менее важно понятие валидности, под которым подразумевается точность измерения. Любой системе измерения, для того чтобы быть точной, необходимо измерять именно то, для чего она предназначена. Если обнаруживается, что система измерения имеет высокую надежность, но не обеспечивает точности результатов, то такая система имеет низкую валидность и, несмотря на надежность, является не-
Валидность ■ 69
качественной. Валидность теста является чрезвычайно важным оценочным стандартом. До того как любой конкретный тест будет использоваться при отборе, специалист по кадрам должен убедиться, что тест валиден для достижения поставленной цели, т. е. обеспечивает точное измерение исследуемого качества или качеств. Этот этан имеет решающее значение, поскольку на результаты тестов будут полагаться при прогнозировании профессиональной деятельности кандидата. В виде примера приведем использование детектора лжи в качестве способа отбора кандидатов но признаку их честности. В 1986 году врачи провели испытания детектора лжи на 1000 человек, при этом 500 испытуемых получили задание говорить правду, а 500 остальных — лгать. Детектор лжи показал, что 185 человек, говоривших правду, — лжецы, а 120 человек лжецов признал правдивыми. Эти результаты показывают, что детектор лжи не является вполне валидным способом измерения честности. Возможно, он является совершенно надежным и дает одинаковые результаты в каждом случае своего применения по отношению к одному п тому же человеку. Поданный метод не валиден, поскольку дает неверные результаты и недостаточно точно измеряет честность.
Строго говоря, валидацпя имеет в основном отношение к интерпретации результатов, происходящей после применения какого-либо конкретного теста или метода, а не самих процедур тестирования. Это особенно важно, поскольку тест может быть валиден для измерения одного явления и не валиден для другого. Например, в тестах, предназначенных для отбора программистов-стажеров, составители обычно считают показателем будущих профессиональных достижений математические способности. Однако современное программирование требует высокого уровня не столько математического, сколько вербального мышления (Penney and Lazzarini, 1979), следовательно, эти тесты не являются валидными для отбора программистов. При этом они могут, например, быть валидны для оценки кандидатов на должности, где важны способности к математике. Следовательно, ва-лидация может проводиться только но отношению к той цели, с которой будет применяться тест.
Типы валидности
Наиболее важные определения валидности связаны с понятиями содержательной, конструктнои и критериальной валидности; каждое из этих трех понятий само по себе является оценочным стандартом.
70 ■ Глава 4. Оценочные стандарты для методов отбора персонала
При этом необходимо иметь в виду, что тест или метод отбора должен обладать всеми тремя типами валидности. Содержательная валпд ность, часто делится на два самостоятельных аспекта: очевидную и собственно содержательную валидпость. Очевидная валидпость показывает мнение людей по поводу того, насколько хорошо тест измеряет показатели, для оценки которых он предназначен; таким образом, очевидная валидпость вообще не является видом валидности как таковой. Хотя некоторые высказывают мнение, что очевидная валидпость не имеет значения (подробное обсуждение этого вопроса можно найти в работе Мosier, 1947), в действительности она приобретает иногда огромное практическое значение, поскольку из-за нее тест может быть отвергнут организацией или кандидатами. Считается, что, несмотря на недостаточную степень их валидности, собеседования, проводимые в форме, особой для каждого конкретного случая, получили наибольшее распространение именно в связи с очевидной валпд-ностью. Содержательная валидпость как паковая представляет собой в основном вопросы выборки и связана с процессом разработки способа измерения. Содержание любого способа измерения может быть представлено в виде выборки вопросов, заданий или поведения, отражающих измеряемый конструкт. Обеспечение содержательной валидности осуществляется в два этапа. На первом из них основное внимание уделяется тому, чтобы метод отбора отражал все известные характеристики, относящиеся к соответствующей должности (например, навыки межличностного общения, экстравертированность и т. п.). Это обеспечивается, как правило, путем сравнения инструмента измерения с квалификационными характеристиками должности и квалификационными требованиями к исполнителям определенной работы (personnel and job characteristics), полученными при проведении анализа профессиональной деятельности. На втором этапе оценивается, насколько точно все задания, применяемые в рамках данного инструмента измерения, отражают качества измеряемого явления. Например, если в тесте, предназначенном для измерения общих математических способностей, отсутствуют какие-либо задания на сложение или вычитание, содержательная валидпость является низкой. Однако, если тот же тест создавался только для оценки навыков умножения или деления, содержательная валидпость вполне может быть высокой.
Конструктная (концептуальная) валидпость является потенциаль-но наиболее важным, хотя и самым трудным для учета, самым слож-
Валидность
71
нооргаппзованным видом валидпости. Кронбах п Миль (Cronbach and М eohl, 1955) определяют этот конструкт следующим образом: «какое-либо постулированное качество людей, которое, как предполагается, отражается и результатах выполнения теста». По своем сути этот тип валидпости пытается дать ответ на вопрос, в чем заключается психологический смысл полученных результатов и каким образом они связаны с другими критериями. Таким образом, конетруктпая валидность обозначает в первую очередь степень соответствия рассматриваемого конструкта и реальности. Возьмем в качество примера упражнение по выбору профессиональных задач {Job Choke Exercise), разработанное Майклом Слалом в l!J8.'i году, которое использовалось компанией «Грептплей» в качестве показателя управленческой мотивации. Управленческая мотивация не является реальной физической сущностью, это всего лишь обозначение, используемое при описании силы и направленности чьего-либо поведения; понятие подразделяется па два конструкта: потребность власти {NPow) описательное обозначение, отражающее потребность оказывать влияние на других, и потребность в достижениях {NArli) — описательное обозначение отражающее потребность устанавливать и достигать цели. Для валпдн-зацпи зтих конструктов Сталь провел проверку гипотезы о том, что люди, которым присуща высокая управленческая мотивация, получат высокие баллы и по шкале Nlhic, и по шкале \'/\ch и, верно также, обратное. Он протестировал зтот критерии на 1417 респондентах, принадлежащих к самым различным профессиям -- как рабочим, так и руководящим, при этом были охвачены многие отрасли промышленности. Сталь обнаружил, что те, кто получал высокие баллы с точки зрения этих двух конструктов, продвигались по службе быстрее тех, кто получал низкие результаты; обладатели высоких баллов также более вероятно добивались положения лидера и становились руководителями. Эти результаты заставляю!' признать, что конструкту, называемому управленческой мотивацией, можно в значительной степени доверять. Таким образом, по существу Сталь протестировал конструктивную валидность скорее