Выделяют пять общих требований к тестам контроля знаний: валидность; определенность (общепонятность)

Вид материалаДокументы

Содержание


Построение единой метрической шкалы в модели Бирнбаума при использовании параллельных вариантов теста
Подобный материал:
1   2   3   4   5   6   7   8   9   10   11

Построение единой метрической шкалы в модели Бирнбаума при использовании параллельных вариантов теста



Двухпараметрическая модель Бирнбаума в ряде случаев оказывается более адекватной, чем однопараметрическая модель Раша. Однако шкалы для различных вариантов теста будут иметь не только разные начала отсчета, но в общем случае и разные масштабы. Поэтому при использовании параллельных вариантов необходимо иметь возможность сведения результатов к единой метрической шкале. С математической точки зрения это означает, что для каждого варианта теста необходимо определить параметры линейного преобразования, позволяющего перенести соответствующие оценки латентных параметров на единую метрическую шкалу [27,28]. Вероятность верного выполнения того или иного задания j некоторым участником i, имеющая вид:




должна быть, инвариантна, например, относительно линейного преобразования вида:


, , .


Легко проверить, что:


.


Рассмотрим случай, когда N участников тестирования выполняют M различных вариантов теста, состоящего из К заданий. Пусть участников выполняли задание - го варианта:


.


Таким образом, в результате тестирования будет получено М различных матриц ответов , каждая из которых имеет размерность . После обработки результатов тестирования, можно получить оценку латентных параметров уровней подготовленности участников , уровней трудности и значений дифференцирующей способности заданий . Однако для сопоставления результатов необходимо, чтобы варианты имели между собой перекрытие по некоторым заданиям (называемым узловыми или якорными), или некоторые участники выполнили несколько различных вариантов. В качестве единой шкалы, как правило, выбирается шкала параметров какого либо из вариантов, либо вводится промежуточная шкала. Рассмотрим в качестве примера перенос результатов тестирования по - му варианту на шкалу 1-ого варианта [28]. Для этого необходимо определить соответствующие параметры и линейного преобразования, являющиеся решением системы уравнений:






. .

. .

. .

. .





где t обозначает количество якорных заданий, а , …….., и , …….., соответственно трудности и дифференцирующие способности якорных заданий с номерами j=1, 2, 3, …….., t, полученные по результатам тестирования, соответственно по 1, 2, 3, ….., - му варианту теста. Причем, 2, …….., , то, возможно, ее решение методом линейной регрессии [6].

Другой подход заключается в том, чтобы путем нелинейного математического преобразования добиться равенства математических ожиданий, дисперсий и других моментов распределений (вплоть до четвертого, например асимметрии (скос) и эксцесса см. “Увеличение дифференциации результатов тестирования”) [32]. для первичного балла испытуемых по всем заданиям. Для этого необходимо не менее четырех якорных заданий, а их избыток повышает точность и надежность метода. При оценивании латентных параметров (трудность задания и уровень подготовленности) в рамках модели Раша относительные частоты верного решения j –задания участниками, набравшими экстремальные баллы 0 или К (максимально возможный), корректируются на небольшую положительную константу Δ (например, Δ=1/150). При этом нарушается баланс между характеристиками заданий в группах с плохими параметрами и близкими к ним. Для решения данного вопроса можно, при оценке трудности задания, использовать не выражение:


, где - количество неверных ответов на j –задание, - число


участников тестирования, а формулу [32]:


.


Предложенный метод основан на методе сглаживания редких данных (additive smoothing). Согласно которому всем наблюдаемым частотам, включая нулевую частоту незафиксированных, но возможных событий, прибавляется некоторая постоянная величина. Поскольку корректируется не только нулевая, но и абсолютная степень трудности, то в знаменателе формулы для к N прибавляется 2, т.е. формально выборка испытуемых увеличивается на два человека, один из которых отвечает на все задания верно, а другой отвечает на все задания неправильно. Данный метод позволяет сравнивать характеристики заданий, откалиброванных на выборках тестируемых разного размера.