Выделяют пять общих требований к тестам контроля знаний: валидность; определенность (общепонятность)
Вид материала | Документы |
- Фролова Е. В., Санжаровская, 148.22kb.
- Общих требований к ответу «5», 129.55kb.
- Система контроля знаний в преподавании русского языка и литературы, 101.79kb.
- Различные формы и методы контроля знаний учащихся Различные формы и методы контроля, 114.33kb.
- Общие рекомендации к составлению тестов компоновка тестов > Требования к тестам, 451.26kb.
- Методика преподавания иностранных языков располагает значительным теоретическим багажом, 63.9kb.
- Государственный университет Высшая школа экономики, 45.29kb.
- Положение о балльно-рейтинговой системе контроля знаний студентов Общие положения, 84.83kb.
- Конспекты лекций Тесты для контроля качества знаний Слайд-презентации, 36.6kb.
- Для многоуровневого контроля знаний студентов, 37.36kb.
Метод наибольшего правдоподобия
Данный метод основывается на использовании функции правдоподобия [6,8]. В применении к тестированию функция правдоподобия L дискретной случайной величины балла aij будет функцией аргументов
![](images/148245-nomer-6a6b06fd.gif)
![](images/148245-nomer-2ea2aaa9.gif)
![](images/148245-nomer-3f50dffe.gif)
![](images/148245-nomer-77d767b8.gif)
В качестве точечных оценок латентных параметров принимают такие значения
![](images/148245-nomer-m231e555d.gif)
![](images/148245-nomer-m7d3efd73.gif)
![](images/148245-nomer-8f2a0dc.gif)
![](images/148245-nomer-8f2a0dc.gif)
![](images/148245-nomer-m51e2cd83.gif)
![](images/148245-nomer-m51e2cd83.gif)
![](images/148245-nomer-m63308998.gif)
где
![](images/148245-nomer-366e99e5.gif)
![](images/148245-nomer-m3ba6f255.gif)
Логарифмическая функция правдоподобия зависит только от первичных баллов
![](images/148245-nomer-m4b1e6f5e.gif)
![](images/148245-nomer-med719c4.gif)
![](images/148245-nomer-3add3aa7.gif)
![](images/148245-nomer-511e8854.gif)
Данная система нелинейных уравнений называется системой уравнений правдоподобия и содержит (N+K) уравнений с (N+K) неизвестными латентными параметрами
![](images/148245-nomer-m159942b9.gif)
Метод наибольшего правдоподобия обладает следующими свойствами:
Получаемые оценки являются состоятельными, несмещенными и эффективными.
Оценки подчиняются нормальному распределению с параметрами:
![](images/148245-nomer-m1097dd58.gif)
![](images/148245-nomer-m12ab4f6c.gif)
![](images/148245-nomer-4ba0922c.gif)
![](images/148245-nomer-72c0d50e.gif)
и имеют наименьшую дисперсию по сравнению с другими нормальными оценками. Дифференцирование по представленным формулам позволяет оценить в рамках модели Раша нижние границы дисперсий оценок латентных параметров:
![](images/148245-nomer-m469f0e96.gif)
![](images/148245-nomer-2feb44fa.gif)
3) Если эффективные оценки существуют, то метод наибольшего правдоподобия дает именно эти оценки.
4) Метод наибольшего правдоподобия наиболее полно использует данные выборки об оцениваемом параметре и позволяет найти достаточные оценки, если они существуют. Однако, несмотря на 40-летний опыт применения этой модели во многих областях, прежде всего в образовании и психологии, до сих пор продолжаются дискуссии об истинной ценности и эффективности модели Раша. До сих пор существуют две крайние точки зрения на эту модель.
Наиболее убежденные сторонники модели Раша утверждают: "Можно ли собрать или построить или сформулировать данные так, чтобы они соответствовали определению измерения (модели Раша)? Если нет, — то такие данные бесполезны".
Их наиболее последовательные оппоненты утверждают следующее: "Данные — это данные, а модель — это конструкция исследователя, которая подвержена ошибкам". Например, при построении регрессии, выбрасывая те или иные данные, можно получить любую зависимость, но мы тем самым ограничиваем реальный мир данных. Таким образом, создается искусственная переменная, о которой мало что известно.
Для практики одним из наиболее важных критериев является точность оценивания. Чем больше точность, тем лучше работает модель. В случае отсутствия ошибок измерения любая модель в смысле точности измерения работает идеально. Но на практике ошибки всегда есть и поэтому важно знать, насколько точные оценки позволяет получать та или иная модель.
На основе имитационного моделирования можно исследовать точность оценивания уровня знаний и трудностей заданий. А также число итераций, требуемых для вычисления этих оценок (методом наибольшего правдоподобия) в многофакторной ситуации в зависимости от:
- диапазона уровней знаний испытуемых;
- диапазона трудностей заданий;
- степени соответствия диапазонов уровней знаний испытуемых и трудностей заданий;
- числа испытуемых;
- числа заданий;
- степени соответствия данных модели;
- доли пропущенных данных.
Для статистической обработки результатов моделирования используется многофакторный дисперсионный анализ.
Анализ точности оценивания параметров функции успеха
Точность исходных измерений
При диагностике знаний исходными величинами в модели Раша являются вероятности (
![](images/148245-nomer-443be965.gif)
![](images/148245-nomer-m557d2b7.gif)
![](images/148245-nomer-5e695540.gif)
![](images/148245-nomer-me79160d.gif)
Однако последняя оценка является смещенной, поскольку
![](images/148245-nomer-m522d192c.gif)
Символ M обозначает математическое ожидание.
![](images/148245-nomer-m53570cf8.gif)
где
![](images/148245-nomer-m27312f4.gif)
Поэтому:
![](images/148245-nomer-4c1363bc.gif)
несмещенная оценка дисперсии относительной частоты
![](images/148245-nomer-1c6f9cec.gif)
![](images/148245-nomer-4af8040d.gif)
где
![](images/148245-nomer-20fb4ab0.gif)
![](images/148245-nomer-57ed4945.gif)
![](images/148245-nomer-6f672a13.gif)
![](images/148245-nomer-4f5b91f3.gif)
Оценим дисперсию оценки функции успеха (
![](images/148245-nomer-230d3bf4.gif)
![](images/148245-nomer-m6150d241.gif)
После дифференцирования данного уравнения получим:
![](images/148245-nomer-m7e3093bd.gif)
Дифференциалы можно заменить средними квадратичными ошибками (корень квадратный из дисперсии):
![](images/148245-nomer-2b7038.gif)
![](images/148245-nomer-3555c210.gif)
![](images/148245-nomer-m55428fe0.gif)
Величина
![](images/148245-nomer-m6d1b8938.gif)
![](images/148245-nomer-m6d1b8938.gif)
![](images/148245-nomer-m53cda1f.gif)
![](images/148245-nomer-m2a2feb65.gif)
![](images/148245-nomer-49595a5c.gif)
и поэтому оценка
![](images/148245-nomer-m6a1d81e7.gif)
![](images/148245-nomer-m377dd8cd.gif)
Следовательно, (N+1)/(b+1) является асимптотически несмещенной оценкой для 1/p. Поэтому, выражение:
![](images/148245-nomer-75342fbd.gif)
является (по N) асимптотически несмещенной оценкой для
![](images/148245-nomer-m2a2feb65.gif)
![](images/148245-nomer-31cf7e8c.gif)
где
![](images/148245-nomer-20fb4ab0.gif)
![](images/148245-nomer-m7a8fb34c.gif)
![](images/148245-nomer-m38c6f77e.gif)
![](images/148245-nomer-m4d57c810.gif)
Легко заметить, что заметное отличие
![](images/148245-nomer-31cf7e8c.gif)
от
![](images/148245-nomer-2b7038.gif)
наблюдаются только при малых значениях
![](images/148245-nomer-m7a8fb34c.gif)
![](images/148245-nomer-29d295cc.gif)
![](images/148245-nomer-3275672d.gif)
![](images/148245-nomer-m3e5e1073.gif)
![](images/148245-nomer-m70ebee71.gif)
Последняя формула получена без учета ковариации между
![](images/148245-nomer-m1ecb665f.gif)
![](images/148245-nomer-m34a8c440.gif)
![](images/148245-nomer-m6d1b8938.gif)
![](images/148245-nomer-m6d1b8938.gif)
Проверка адекватности модели Раша с помощью χ2 - критерия Пирсона
Если предположить справедливость модели Раша то разности
![](images/148245-nomer-m3ad20823.gif)
![](images/148245-nomer-m325d774a.gif)
![](images/148245-nomer-m7f33cbb1.gif)
Первичные баллы делят всех N испытуемых на K+1 группу в зависимости от числа правильно выполненных заданий в тесте, причем уровень подготовленности
![](images/148245-nomer-m623dba5e.gif)
![](images/148245-nomer-2806d019.gif)
Для каждого значения b и j экспериментальное и теоретическое значение вероятностей будут соответственно равны:
![](images/148245-nomer-1366caa6.gif)
![](images/148245-nomer-1e658245.gif)
Возникает вопрос, насколько значимы различия между экспериментальными и теоретическими значениями вероятностей? Какие расхождения связанны со случайными отклонениями и ограниченностью данных, позволяющими считать, что модель Раша не противоречит исходной матрице ответов, а какие противоречат модели Раша.
Необходимо проверить при определенном уровне значимости α следующую нулевую статистическую гипотезу Ho: генеральная совокупность участников испытания и тестовых заданий такова, что вероятность
![](images/148245-nomer-m325d774a.gif)
![](images/148245-nomer-m7f33cbb1.gif)
В качестве меры согласия теоретической и экспериментальной величины вероятности выбирают χ2 – критерий Пирсона:
![](images/148245-nomer-327deb22.gif)
Число степеней свободы (ν) χ2 – распределения равно g-1, где g – количество групп, на которые разбиваются участники испытания в зависимости от набранного балла (g=K+1), таким образом, ν=K. Следует учесть, что число участников тестирования должно быть относительно велико. Статистика
![](images/148245-nomer-m1bd18e54.gif)
Поскольку в условиях нулевой гипотезы статистика χ2 должна иметь определенное конкретное вероятностное распределение, то появляется возможность сравнить наблюдаемое значение
![](images/148245-nomer-m5a9758d9.gif)
![](images/148245-nomer-50ce5763.gif)
Если
![](images/148245-nomer-m5a9758d9.gif)
![](images/148245-nomer-50ce5763.gif)
Если
![](images/148245-nomer-m5a9758d9.gif)
![](images/148245-nomer-50ce5763.gif)
При проведении тестирования возникает необходимость обработки матрицы ответов, состоящей из элементов аij принимающих случайные значения 0 (неправильно) или 1(правильно). Математическое ожидание и дисперсия будут соответственно равны:
![](images/148245-nomer-709caf3b.gif)
![](images/148245-nomer-735d4e73.gif)
где i=1, 2, 3, ……..N (N-число участников тестирования), j=1, 2, 3, …….K (К-число заданий в тесте),
![](images/148245-nomer-m325d774a.gif)
![](images/148245-nomer-6a6b06fd.gif)
![](images/148245-nomer-2ea2aaa9.gif)
![](images/148245-nomer-2c09ebc4.gif)
![](images/148245-nomer-m1c2075c3.gif)
Статистические оценки
![](images/148245-nomer-m231e555d.gif)
![](images/148245-nomer-m7d3efd73.gif)
![](images/148245-nomer-m2f18c632.gif)
Согласно модели Раша для
![](images/148245-nomer-e1d84c0.gif)
![](images/148245-nomer-m2d543f06.gif)
![](images/148245-nomer-m6cc5e382.gif)
![](images/148245-nomer-m170ffc0f.gif)
![](images/148245-nomer-10458a67.gif)
Если сумма квадратов указанных нормированных уклонений для всех значений аij матрицы ответов составляющих единую строку (ответы i- участника на все задания) или единый столбец (ответы всех участников на j-задание) подчиняются распределению χ2 , то модель Раша применима к результатам данного тестирования. Иными словами должны выполняться следующие равенства:
![](images/148245-nomer-m4d6f63f9.gif)
![](images/148245-nomer-m63b79c6a.gif)
где K-1 и N-1 соответствующее число степеней свободы нормированного уклонения. На практике
![](images/148245-nomer-m50e53363.gif)
![](images/148245-nomer-6c673408.gif)
![](images/148245-nomer-mf4898e8.gif)
![](images/148245-nomer-m6c5b341.gif)
Если вычисления значения критерия
![](images/148245-nomer-m50e53363.gif)
![](images/148245-nomer-6c673408.gif)
Проверка равномерности распределения дистракторов и эффективности их работы
Дистракторы являются очень важным элементом тестовых заданий в закрытой форме, с выбором одного или нескольких правильных ответов. При этом остальные ответы не являясь правильными должны выглядеть правдоподобными (их принято называть дистракторами). Оказывается, что при удачном подборе дистракторов, испытуемые, неправильно отвечающие на задание выбирают их с одинаковой частотой. Равномерность распределения дистракторов является показателем надежности и валидности задания. Рассмотрим следующий пример расчета равномерности распределения дистракторов [6]. Пусть, на какое то из заданий теста, содержащее 5 вариантов ответов, 642 человека дали неправильные ответы. Теоретическая частота выбора каждого из дистракторов составляет 642/4=160,5. Составим следующую таблицу 1:
Таблица 1
-
Частоты
Номер дистрактора
Σ
1
2
3
4
Экспериментальная частота выбора (n)
140
179
180
143
642
Теоретическая частота выбора (n*)
160,5
160,5
160,5
160,5
642
(n-n*)
-20,5
18,5
19,5
-17,5
0
Для
![](images/148245-nomer-m5a9758d9.gif)
![](images/148245-nomer-5c082490.gif)
![](images/148245-nomer-6fab7337.gif)
![](images/148245-nomer-5bee906d.gif)
![](images/148245-nomer-47f2f681.gif)
Анализ выбора дистракторов данным испытуемым может представлять не менее важную задачу, чем анализ равномерности распределения. Поскольку, он позволяет в ряде случаев выявить характер “незнания” тестируемого и составить представления о мере эклектичности его знаний.
Для оценки равномерности распределения дистракторов, а по существу определения эффективности их работы могут быть использованы отличные от определения
![](images/148245-nomer-m61f9ebd4.gif)
![](images/148245-nomer-m325d774a.gif)
![](images/148245-nomer-6a6b06fd.gif)
![](images/148245-nomer-2ea2aaa9.gif)
![](images/148245-nomer-153bd7fe.gif)
а вероятность неправильного ответа
![](images/148245-nomer-4d152cbe.gif)
![](images/148245-nomer-5b607e98.gif)
Предположим, что вероятность выбора одного из r – дистракторов (
![](images/148245-nomer-m7b20511f.gif)
![](images/148245-nomer-4d152cbe.gif)
![](images/148245-nomer-2a861d12.gif)
где
![](images/148245-nomer-m7dde10f3.gif)
![](images/148245-nomer-m7dde10f3.gif)
![](images/148245-nomer-m7dde10f3.gif)
![](images/148245-nomer-m7dde10f3.gif)
![](images/148245-nomer-m7dde10f3.gif)
Влияние числа дистракторов на точность оценивания уровня знаний
При проведении педагогических измерений очень важным является вопрос о выборе оптимального числа дистракторов и их влиянии на точность оценки латентных параметров. Для решения этого вопроса, можно, например, использовать имитационное моделирование [15]. При котором результаты тестирования можно задать в рамках модели Бирнбаума, приписав всем заданиям дифференцирующую способность равную 1,7, а трудность заданий и подготовленность испытуемых разделить на 17 уровней от -4,0 до +4,0 логита с шагом 0,5. В зависимости от числа ответов на задание, вероятность угадывания может составлять от 0,5 (два варианта) до 0,1 (десять вариантов ответов с одним правильным). Точность оценивания уровня знаний в данном случае определяется по числу пар, внутри которых уровни значимо отличаются друг от друга, и по ширине 95%-ого доверительного интервала для моделируемых уровней знаний. Результаты имитационного моделирования показывают, что оптимальным является 5-6 вариантов ответов на задание теста, т.к. точность оценки уровня знаний повышается незначительно, при использовании более 5 дистракторов, а при использовании менее 4 резко снижается.
Дифференцирующая (разрешающая) способность теста
Разрешающая способность теста является одним из ключевых понятий современной теории тестирования, поскольку разделение испытуемых по рейтингу или по группам, при аттестации, является основной задачей любого тестирования. В связи с этим вводится понятие коэффициента дискриминации (или различающей способности), который может характеризовать как весь тест в целом, так и отдельные тестовые задания, и рассчитывается на основании полученных результатов. Основное влияние при вычислении разрешающей способности теста оказывает число заданий – К, поскольку число заданий, как правило, меньше числа участников – N. При заданном конечном числе заданий – К, первичные баллы
![](images/148245-nomer-m4b1e6f5e.gif)
Если
![](images/148245-nomer-m6bcf36cf.gif)
Продифференцируем
![](images/148245-nomer-m4b1e6f5e.gif)
![](images/148245-nomer-6a6b06fd.gif)
![](images/148245-nomer-mcd2398c.gif)
![](images/148245-nomer-450de040.gif)
![](images/148245-nomer-m5198c426.gif)
Принимая dbi=1 получим:
![](images/148245-nomer-27e3cf46.gif)
Разрешающая способность теста в окрестности балла bi будет тем больше, чем больше информации содержится в i- строке матрицы ответов. Минимальное значение ξ (ξmin) ξmin=4/K достигается при
![](images/148245-nomer-mab4b971.gif)
![](images/148245-nomer-4353dce2.gif)
![](images/148245-nomer-m6f7c9a2f.gif)
![](images/148245-nomer-m694a4e43.gif)
Соотношение
![](images/148245-nomer-m17cb3a60.gif)
![](images/148245-nomer-m35d0d2ac.gif)
![](images/148245-nomer-m1378286b.gif)
![](images/148245-nomer-19faaf24.gif)
Таким образом, для среднеквадратичной ошибки оценки уровня подготовленности i- участника, можно получить, что
![](images/148245-nomer-2ceb77d6.gif)
![](images/148245-nomer-7cf0e532.gif)
![](images/148245-nomer-7351eafc.gif)
![](images/148245-nomer-m325d774a.gif)
![](images/148245-nomer-7351eafc.gif)
![](images/148245-nomer-1cfdf04e.gif)
В диапазоне от 0 до 1 коэффициент различающей способности имеет следующую интерпретацию [2]:
- больше 0,40(задание является эффективным);
- от 0,30 до 0,39 (задание является удовлетворительным);
- от 0,20 до 0,29 (задание требует переработки);
- менее 0,20 (задание необходимо полностью заменить).
Оценка различающей способности тестовых заданий с помощью точечно-бисериального коэффициента
Очень часто для оценки различающей способности заданий используют так называемый точечно-бисериальный коэффициент корреляции
![](images/148245-nomer-25518149.gif)
![](images/148245-nomer-m6643a62a.gif)
где
![](images/148245-nomer-m17ab25e0.gif)
![](images/148245-nomer-43a28cab.gif)
![](images/148245-nomer-72432a0.gif)
![](images/148245-nomer-277a366e.gif)
![](images/148245-nomer-m7cc0f75.gif)
Точечно-бисериальная корреляция является значимой, если:
![](images/148245-nomer-4cbe738b.gif)
При практических вычислениях считается приемлемым, если коэффициент точечно-бисериальной корреляции имеет значение больше или равное 0,3 [16].
Для исследования показателей качества тестовых заданий необходима достаточно большая выборка испытуемых, порядка 200-300 человек. В реальных условиях эта задача бывает трудно реализуемой, что существенно осложняет работу по разработке качественных заданий.
Шкалы оценок в диагностическом тестировании
С математической точки зрения, процесс измерения уровня подготовленности должен являться отображением реальных состояний системы на некоторое множество действительных чисел, называемых шкалой. Причем, между ее элементами должен наблюдаться содержательный смысл, позволяющий проводить разумное объяснение результатов.
Порядковые шкалы применяются для сравнения результатов между собой по типу: лучше – хуже. Примером такой шкалы может служить лингвистическая оценка знаний: неудовлетворительно (2)-удовлетворительно (3)-хорошо (4)-отлично (5). При таком типе оценивания бессмысленно говорить о том, что знания на “3” отличаются от знаний на “2” так же как знания на “5” и “4” (т.е. “3”-“2”≠”5”-“4”). Преимуществом данной шкалы является традиционность ее использования, а существенным недостатком субъективизм измерения. Один и тот же студент может получить у разных преподавателей за одни и те же знания существенно различные оценки. Арифметические операции с оценками типа: “неудовлетворительно - удовлетворительно-хорошо-отлично” являются не корректными и имеют размытые качественные экспертные значения.
Метрические или интервальные шкалы имеют метрики и являются шкалами более высокого уровня. В данном случае содержательный смысл имеет не только сравнение элементов (меньше, больше, равно), но и разность, трактуемая, как “расстояние” между двумя элементами. Однако отсутствие начала отсчета делает эту шкалу непригодной для абсолютных измерений.
Метрические или интервальные шкалы, в которых определено начало отсчета, называются нормированными. Такая шкала является наиболее привлекательной, и ее построение позволяет преодолеть зависимость оценок от используемого теста и выборки испытуемых.
Номинальные шкалы основаны на использовании качественных переменных, не поддающихся количественному измерению (например, пол испытуемых и т.д.). При использовании таких шкал имеет смысл только равенство или неравенство элементов между собой, а разность между ними не имеет никакого смысла.
Использование любой из рассмотренных шкал подразумевает использование определенных математических методов. Например, для переменных, измеряемых метрической шкалой, где возможны количественные оценки, можно использовать регрессионный или корреляционный анализ.
Шкала первичных баллов
В отличие от шкал измерения физических величин (длина, масса, время и т.д.) первичные баллы, полученные при диагностике знаний не имеют для интерпретации решающего значения, поскольку тестирование, как правило, ориентируется на получение либо критериально-ориентированных, либо нормативно-ориентированных результатов 2,6,17]. Необработанные (первичные) баллы показывают количество правильно выполненных заданий без учета коррекции на случайное угадывание в закрытых формах тестовых заданий. Для коррекции первичных баллов используют следующую формулу [18]:
![](images/148245-nomer-m13a12205.gif)
где
![](images/148245-nomer-m5690086a.gif)
![](images/148245-nomer-m2210f4f9.gif)
![](images/148245-nomer-m66cd47b1.gif)
Шкала первичных баллов является порядковой шкалой и позволяет ранжировать испытуемых только по отношению к выполнению данного теста. Первичный балл при необходимости может быть переведен в 100 – бальную или процентную шкалу следующим образом:
![](images/148245-nomer-m1046bca3.gif)
![](images/148245-nomer-m67c2f92b.gif)
![](images/148245-nomer-m57dd845b.gif)
Дробная и политомическая оценка результатов тестирования
Введение дробной оценки результатов тестирования является весьма продуктивным и интересным, поскольку позволяет провести более селективное распределение участников тестирования по баллам, чем использование целочисленных шкал, в которых число возможных значений рейтинга равно максимальному баллу.
Простая алгебраическая модель оценивания результатов тестирования [19,20] предполагает, что каждое из заданий может быть оценено в некоторой дробной шкале
![](images/148245-nomer-5cf3b252.gif)
![](images/148245-nomer-m3cb7c41e.gif)
![](images/148245-nomer-158bf518.gif)
Необходимо ввести некоторые обозначения:
N-число участников тестирования;
К-количество заданий в тесте;
Пусть в результате тестирования получена матрица первичных баллов
![](images/148245-nomer-138ae3a7.gif)
![](images/148245-nomer-m3cb336b4.gif)
![](images/148245-nomer-m445f3a9d.gif)
![](images/148245-nomer-5cf3b252.gif)
![](images/148245-nomer-m45381b89.gif)
![](images/148245-nomer-5cf3b252.gif)
![](images/148245-nomer-5638bfa7.gif)
![](images/148245-nomer-5cf3b252.gif)
![](images/148245-nomer-7548557.gif)
![](images/148245-nomer-m6b348a61.gif)
![](images/148245-nomer-7548557.gif)
![](images/148245-nomer-5638bfa7.gif)
![](images/148245-nomer-3d998e8d.gif)
![](images/148245-nomer-6b091e3c.gif)
Модель дробной оценки результатов тестирования основывается на следующих предположениях:
трудность заданий является экспериментально определяемой величиной;
окончательный (сертификационный) балл (
![](images/148245-nomer-m7cf34274.gif)
![](images/148245-nomer-m2d7a7a5d.gif)
![](images/148245-nomer-m15895714.gif)
![](images/148245-nomer-m356dc546.gif)
основной балл тестируемого
![](images/148245-nomer-3e52695e.gif)
трудность заданий теста пропорциональна сумме ненабранных на этом задании тестовых баллов с учетом основных баллов испытуемых
![](images/148245-nomer-m4835e82a.gif)
призовой балл тестируемого
![](images/148245-nomer-m15895714.gif)
![](images/148245-nomer-7cf35c62.gif)
![](images/148245-nomer-3ed4aef5.gif)
На основании изложенных предположений для вектора – столбца трудности заданий
![](images/148245-nomer-2ea2aaa9.gif)
![](images/148245-nomer-6f11c9a6.gif)
где
![](images/148245-nomer-mec65bc9.gif)
![](images/148245-nomer-56c526e4.gif)
Вектор – столбец трудности заданий
![](images/148245-nomer-2ea2aaa9.gif)
![](images/148245-nomer-m246671a2.gif)
![](images/148245-nomer-2ea2aaa9.gif)
![](images/148245-nomer-m246671a2.gif)
![](images/148245-nomer-7c19118c.gif)
основной балл (
![](images/148245-nomer-m792c01f7.gif)
![](images/148245-nomer-m50c28bf5.gif)
призовой балл (
![](images/148245-nomer-33df6f4b.gif)
![](images/148245-nomer-705030d.gif)
для окончательного (сертификационного) балла (
![](images/148245-nomer-m7cf34274.gif)
![](images/148245-nomer-m8eff7f5.gif)
Близкий по идеологии подход может быть реализован, если оценивать выполнение не всего тестового задания в целом (0 или 1), а результат выполнения каждого шага j –задания i –участником тестирования дихотомической оценкой. При этом все задание получит политомическую оценку, величина которой будет находиться в интервале от 0 до
![](images/148245-nomer-236f7274.gif)
![](images/148245-nomer-236f7274.gif)
![](images/148245-nomer-236f7274.gif)
![](images/148245-nomer-236f7274.gif)
Однако, наиболее адекватные результаты, в случае политомической оценки заданий, дает модель Partial Credit [22-24]. Которую можно рассматривать как обобщение модели Раша. Элементы матрицы ответов при тестировании с использованием политомически оцениваемых заданий принимают значения от 0 до
![](images/148245-nomer-236f7274.gif)
![](images/148245-nomer-236f7274.gif)
![](images/148245-nomer-709568fa.gif)
![](images/148245-nomer-m187d22d9.gif)
![](images/148245-nomer-3655af1c.gif)
![](images/148245-nomer-m2f92a3cf.gif)
а дисперсия величины
![](images/148245-nomer-3655af1c.gif)
![](images/148245-nomer-5cddd903.gif)
Математическое ожидание и дисперсия величины
![](images/148245-nomer-3655af1c.gif)
![](images/148245-nomer-m71e90b4d.gif)
![](images/148245-nomer-m4638ec45.gif)
Если модель Partial Credit является адекватной полученным при тестировании данным (для данного задания j), то величина
![](images/148245-nomer-m71e90b4d.gif)
![](images/148245-nomer-692d7137.gif)
Нормативная шкала
Более приемлемыми для оценки достижений учащихся являются нормативные шкалы. Нормативная шкала разрабатывается на основе предположения о нормальном законе распределения баллов. Одной из причин применения нормативной шкалы является то, что линейная трансформация первичных (необработанных) баллов зависит от характеристик заданий в тесте. Перевод в нормативную шкалу предполагает, что знания испытуемых в их произвольной выборке подчиняются нормальному закону распределения, и равные отрезки под кривой распределения соответствуют равному количеству правильных ответов. При данном подходе используется следующая процедура. Сначала, на случайной выборке из генеральной совокупности проводится тест. Далее строится распределение первичных баллов, при этом стараются добиться их нормального распределения. Соответствие закона распределения экспериментально полученных первичных баллов нормальному закону распределения можно проверить методами статистической проверки гипотез распределения. В данном случае окончательный балл выставляется в зависимости от относительных успехов данного испытуемого в сравнении с остальными участниками. В результате тестирования получается экспериментальная функция распределения (F(x)) вероятности (p(x)) наблюдения тех или иных первичных баллов
![](images/148245-nomer-m4b1e6f5e.gif)
![](images/148245-nomer-m4b1e6f5e.gif)
![](images/148245-nomer-m4b1e6f5e.gif)
![](images/148245-nomer-4a23ed55.gif)
![](images/148245-nomer-661b3855.gif)
![](images/148245-nomer-9db828a.gif)
Если получаемое экспериментально распределение баллов отличается от нормального закона распределения, то его подвергают принудительной нормализации [53], однако отклонение от нормального закона говорит об неудачно подобранных тестовых заданиях. Если принудительной нормализации не требуется, то достаточно выполнить центрирование и нормирование экспериментально полученного распределения первичных баллов по формуле:
![](images/148245-nomer-69715bf2.gif)
где
![](images/148245-nomer-6a59c09d.gif)
![](images/148245-nomer-m166511dc.gif)
![](images/148245-nomer-m3999afb2.gif)
![](images/148245-nomer-m6896538d.gif)
где
![](images/148245-nomer-m1ff5917.gif)
![](images/148245-nomer-m22e16953.gif)
![](images/148245-nomer-390f0141.gif)
![](images/148245-nomer-e564bb9.gif)
![](images/148245-nomer-m6d88038.gif)
где r- коэффициент надежности теста.
На основании первичного балла возможно построение следующих нормативных шкал:
-процентная шкала (выставляемый балл прямо пропорционален первичному баллу);
-шкала первичных процентилей (выставляемый балл соответствует квантилям экспериментально полученного распределения частот первичных баллов);
-нормализованные шкалы (экспериментально полученное распределение первичных баллов подвергается нормализации и преобразованию к модельному распределению вида
![](images/148245-nomer-m6896538d.gif)
-шкалы нормализованных процентилей (выставляемый балл соответствует квантилям модельного распределения вида
![](images/148245-nomer-m6896538d.gif)
-нормализованные шкалы с постоянным шагом (индексы шкалы выставляемого балла соответствуют равноудаленным значениям стандартной переменной Z).
При оценивании результатов с использованием нормативной шкалы в ряде случаев целесообразно использовать задания с заранее известным распределением уровней трудности, отличным от нормального закона. Например, при аттестационном тестировании предпочтительнее, чтобы распределение трудности заданий имело “крутое левое крыло” и растянутое “правое крыло” (см. рис.2). Данный характер распределения может быть обеспечен за счет повышения доли простых заданий (и/или повышении оценок простых заданий) в тесте, чего можно добиться предварительной нормировкой.
![](images/148245-nomer-65bf1bca.png)
Рис.2. Кривая распределения результатов аттестационного тестирования с растянутым “правым крылом”
Метрическая шкала
Основным достоинством теории Раша является возможность построить не порядковую, а метрическую шкалу выставляемых баллов, т.е. произвести измерение уровня их подготовленности, а не ранжирование участников [6,27,28].
Пусть имеется матрица ответов N участников тестирования на К заданий теста, и полученные результаты полностью описываются моделью Раша. Тогда пересчет окончательного балла в 100 бальную шкалу можно осуществить линейным преобразованием, например, приравняв самый маленький уровень подготовленности
![](images/148245-nomer-6a6b06fd.gif)
![](images/148245-nomer-6a6b06fd.gif)
![](images/148245-nomer-78ae195e.gif)
где
![](images/148245-nomer-m463d853e.gif)
![](images/148245-nomer-m78444f59.gif)
![](images/148245-nomer-6a6b06fd.gif)
![](images/148245-nomer-m2aaa57f6.gif)
![](images/148245-nomer-m2e291fb7.gif)
![](images/148245-nomer-193ed960.gif)
![](images/148245-nomer-683a177b.gif)