Выделяют пять общих требований к тестам контроля знаний: валидность; определенность (общепонятность)

Вид материалаДокументы

Содержание


Требование простоты теста
Основные формы и виды тестов
Составление тестов и определение их области содержания
Модели и методы диагностики знаний
Однопараметрическая модель Раша
Метод моментов
Метод наибольшего правдоподобия
Точность исходных измерений
Проверка адекватности модели Раша с помощью χ2 - критерия Пирсона
Проверка равномерности распределения дистракторов и эффективности их работы
Влияние числа дистракторов на точность оценивания уровня знаний
Дифференцирующая (разрешающая) способность теста
Оценка различающей способности тестовых заданий с помощью точечно-бисериального коэффициента
Шкалы оценок в диагностическом тестировании
Шкала первичных баллов
Дробная и политомическая оценка результатов тестирования
Нормативная шкала
Метрическая шкала
Перенос результатов тестирования различных выборок испытуемых на метрическую шкалу
Использование перекрытия вариантов тестов
...
Полное содержание
Подобный материал:
  1   2   3   4   5   6   7   8   9   10   11



Требования к диагностическим тестам


Выделяют пять общих требований к тестам контроля знаний:
  • валидность;
  • определенность (общепонятность);
  • простота;
  • однозначность;
  • надежность.

Валидность теста – это адекватность. Различают содержательную и критериальную (функциональную) валидность: первая – это соответствие теста содержанию контролируемого учебного материала, вторая – соответствие теста оцениваемому уровню деятельности.

Выполнение требования определенности (общедоступности) теста необходимо не только для понимания каждым учеником того, что он должен выполнить, но и для исключения правильных ответов, отличающихся от эталона.

Требование простоты теста означает, что тест должен иметь все задания примерно одного уровня сложности, т.е. он не должен быть комплексным и состоять из заданий разного уровня сложности.

Однозначность определяют как одинаковость оценки качества теста разными экспертами. Для выполнения этого требования тест должен иметь эталон.

Требование надежности заключается в обеспечении устойчивости результатов многократного тестирования одного и того же испытуемого.

При реализации систем компьютерного тестирования необходимо придерживаться именно этих пяти требований к создаваемым тестам. Однако реализация описанных выше условий к тестам еще не означает того, что созданный комплекс будет отвечать всем требованиям, предъявляемым к системам тестирования.


Основные формы и виды тестов


Следует различать два основных подхода к разработке тестов для конкурсного (профессионального отбора) и для аттестации учащихся [1,2]: нормативно-ориентированный и критериально – ориентированный. Первый подход позволяет сравнивать учебные достижения (уровень знаний и умений) отдельных испытуемых друг с другом на основе распределения баллов. А критериально - ориентированный подход позволяет оценивать, в какой степени испытуемый овладел необходимым для профессиональной деятельности учебным материалом. Оба эти подхода в равной степени необходимы для создания диагностических тестов в интеллектуальных обучающих системах.

Между нормативно-ориентированными и критериально-ориентированными тестами существует ряд различий [2], заключающихся не в самих тестовых заданиях, а в интерпретации индивидуальных баллов. Первое различие - цели создания теста. Нормативно-ориентированные тесты позволяют оценить соответствие знаний и умений испытуемого некоторой норме: подходит - не подходит. Критериально - ориентированные тесты дают возможность оценки уровня обученности и эффективности программы обучения. Второе различие – уровень детализации области содержания. От критериально – ориентированных тестов чаще всего требуется большая детализация. Третье различие – статистическая обработка. Обработанные (шкалированные) баллы по результатам нормативно – ориентированного тестирования базируются на статистических данных нормативной группы, то есть специфической достаточно большой выборке испытуемых, для чего применяются специальные нормативные шкалы. Кроме того, существует и ряд других отличий.

В настоящее время наибольшее распространение получили следующие формы тестовых заданий:
  • закрытая, предполагающая выбор одного или более правильных вариантов ответов из числа предложенных;
  • форма на установление соответствия между двумя предложенными множествами;
  • открытая форма с ограничениями на ответ, предполагающая ввод в качестве ответа одного или нескольких чисел, слов или формул;
  • форма на установление правильной последовательности.


Введение в тест заданий с многовариантными ответами развивает потребность в поиске разных путей решения задачи, что необходимо для достижения основной цели обучения умения самостоятельно выбирать способ выполнения поставленной задачи.

Использование компьютеров расширяет возможности в применении различных форм тестов. В частности возможна автоматическая проверка текстовых ответов.


Составление тестов и определение их области содержания


При изучении любой учебной дисциплины есть особенно важные темы, без знания которых невозможно усвоение более сложного материала в процессе учебы или которые будут необходимы в работе по специальности. Важность каких-либо разделов курса можно учесть, увеличив долю вопросов по этим разделам в общем количестве вопросов. Однако наиболее важные разделы не всегда содержат больше всего материала.

При составлении заданий теста следует соблюдать ряд правил, необходимых для создания надежного, сбалансированного инструмента оценки знаний. В первую очередь, необходимо проанализировать содержание заданий с позиции равной представлености в тесте разных учебных тем, понятий, и т.д. Тест не должен быть нагружен второстепенными терминами, несущественными деталями с акцентом на механическую память. Задания теста должны быть сформулированы четко, кратко и недвусмысленно, чтобы все учащиеся понимали смысл того, что у них спрашивается. Важно проследить, чтобы ни одно задание теста не могло служить подсказкой для ответа на другое [3].

Варианты ответов на каждое задание должны подбираться таким образом, чтобы исключались возможности простой догадки или отбрасывания заведомо неподходящего ответа.

Важно выбирать наиболее приемлемую форму ответов на задания. Учитывая, что задаваемый вопрос должен быть сформулирован коротко, желательно также кратко и однозначно формулировать ответы. Например, удобна альтернативная форма ответов, когда учащийся должен подчеркнуть одно из перечисленных решений “да-нет”, “верно-неверно”.

Задачи для тестов должны быть информативными, отрабатывать одно или несколько понятий, определений и т.д. При этом тестовые задачи не должны быть слишком громоздкими или слишком простыми. Вариантов ответов на задачу должно быть, по возможности, не менее пяти, а в качестве неверных ответов желательно использовать наиболее типичные ошибки [4].

Для аттестации студентов можно использовать критериально-ориентированные тесты. При этом необходимо решить задачу измерения уровня обученности для большой области знаний, навыков и умений, с учетом степени важности и объема изучаемого материала в разделах курса. Для этого необходимо:

1) определить область содержания и цель тестирования, провести анализ учебной дисциплины и отобрать материал для теста;

2) задать ограничения и выбрать подходы к процессу разработки, создать план теста и его спецификацию;

3) создать задания и провести их анализ экспертами для оценки конгруэнтности области содержания и целям тестирования;

4) провести пробное тестирование и проанализировать его результаты;

5) выбрать стандарты оценивания;

6) оценить надежность и валидность (критериальной и конструктной) теста;

7)окончательная доработка теста и его параллельных форм.


Модели и методы диагностики знаний


При создании тестов возникают определенные трудности в части формирования шкалы оценок выполнения заданий. Традиционная Российская система оценивания знаний обучаемых основана на лингвистических оценках, по которым проставляются записи в зачетных книжках за период обучения, производится учет успеваемости, устанавливается стипендия и т.д.

Очевидно, что при формировании такой шкалы оценок велика доля субъективизма, поскольку здесь многое зависит от опыта, интуиции, компетентности и профессионализма преподавателя. Кроме того, требования, предъявляемые разными преподавателями к уровню знаний студентов, колеблются в очень широких пределах.

При формировании шкалы оценок довольно часто встречается метод “проб и ошибок”. Поэтому реальные знания учащегося не получают объективного отражения и как негативное последствия - снижается стимулирующее воздействие экзаменационной оценки на познавательную деятельность и качество учебного процесса в целом.

В некоторых моделях тестирования оценивание результатов производится только по факту правильности ответа, т.е. ход решения в задачах не проверяется и не оценивается. Таковы, например, закрытые задания с однозначным числовым ответом или бинарные тесты.

Первичной информацией при тестировании знаний является набранный балл испытуемых или так называемый первичный балл. Достоинством этой оценки является ее простота и наглядность, Действительно, чем больше заданий выполнил испытуемый, тем выше его балл.

Однако проблема заключается в том, что первичный балл является не абсолютной, а относительной оценкой. Он существенно зависит от трудности заданий теста и на другом тесте он может оказаться иным, причем сама трудность теста в свою очередь определяется всем контингентом испытуемых. Желательно иметь объективную оценку уровня подготовленности испытуемых, подтверждаемую на различных тестах, имеющих заранее определенный уровень трудности заданий.

Вторым существенным недостатком первичных баллов является их нелинейность по отношению к тем параметрам, которые они должны характеризовать (уровень подготовленности). В частности, если тест состоит из 100 заданий, то разность в первичных баллах b1-b2=86-82=4 соответствует большему различию в уровне подготовленности участников, чем та же разность для участников имеющих, например 23 и 19 баллов. Сравнивая первичные баллы необходимо понимать, что первичные баллы являются лишь индикатором подготовленности испытуемых, а не ее мерой.

Любая информация для ее последующего применения в заданиях теста должна быть представлена определенным количественным показателем, рассчитанным с использованием условной единицы образовательной информации.


Однопараметрическая модель Раша


Статистическая обработка результатов тестирования на основе модели Раша обладает важными достоинствами, среди которых, необходимо отметить следующие.

Модель Раша превращает измерения, сделанные в дихотомических и порядковых шкалах в линейные измерения, в результате качественные данные анализируются с помощью количественных методов. Это позволяет использовать широкий спектр статистических процедур.

Оценка трудности тестовых заданий не зависит от выборки испытуемых, на которых была получена и оценка уровня знаний испытуемых аналогично не зависит от используемого набора тестовых заданий. Пропуск данных для некоторых комбинаций (испытуемый ÷ тестовое задание) не является критическим. Кроме того, модель Раша характеризуется наименьшим числом параметров: один параметр уровня знаний для каждого испытуемого и только один параметр трудности для каждого задания.

Модель Раша опирается на понятия "трудность задания" и "уровень подготовленности". Так, одно задание считается более трудным, чем другое, если вероятность правильного ответа на первое задание меньше, чем на второе, независимо от того, кто их выполняет. Аналогично, более подготовленный студент имеет большую вероятность правильно ответить на все задания, чем менее подготовленный.

Благодаря простой структуре модели существуют удобные вычислительные процедуры для проверки адекватности модели: для всего набора тестовых результатов, для каждого испытуемого, для каждого задания и для каждого конкретного ответа.

Рассмотрим модель Раша более подробно. Пусть тест состоит из К различных заданий бинарного типа), пытуемый получает 1, если ответил правильно и 0 при неверном ответе) и его выполняют N – студентов. В результате получается матрица ответов An,k состоящая из N- строк (i) и К –столбцов (j).


An,k=(aij)


Число bi равное сумме баллов в i- строке называется первичным баллом i- испытуемого (оно равно числу его правильных ответов):




При необходимости первичный балл можно выразить в процентах (или долях) следующим образом 100%. Уровни подготовленности участников A и B обозначим через Sa и Sb, а трудность заданий через t (на самом деле все задания имеют разный уровень трудности tk). В модели Раша доказывается, что:


(1)





,


где и - вероятность выполнения задания уровня трудности t соответственно участниками A и B, и - вероятности невыполнения задания уровня трудности t соответственно участниками A и B. Из общих соображений выражение (1) должно быть верным для любого уровня трудности заданий и любой пары участников тестирования. Пусть, какое либо задание имеет трудность t=1 и необходимо сравнить трудности двух заданий. В модели Раша уровень трудности определяется, как отношение вероятности () того, что некоторый стандартный участник испытания с единичным уровнем подготовки (S=1) не выполнит данное задание к вероятности () его выполнения:


.


Единичный уровень подготовки и единичная трудность задания в модели Раша связаны между собой. Используя выражение:


,


и предположив, что уровень подготовленности именно участника В является единичным (=1) получим следующее выражение:


(2)


Уравнение (2) связывает уровень трудности некоторого задания и уровень подготовленности некоторого участника с вероятностью правильного выполнения задания и должно быть справедливо для заданий любого уровня трудности. Учитывая общность полученного уравнения (2) можно показать, что вероятность Р(S,t), того, что участник с уровнем подготовки S правильно выполнит задание трудности t, выражается следующей формулой:


(3)


Вероятность Р(S,t) получила название функции успеха. Как видно из выражения (3) функция успеха зависит только от отношения t к S, поэтому модель Раша называется однопараметрической и использует шкалу отношений.

Вводя новые переменные:


, ,


,

Выражение (3) можно переписать в виде:


(4)


Формула (4) является основным уравнением однопараметрической логистической модели Раша, единица измерения δ и θ называется логитом. При одном логите (δ0=1 и θ0=1) вероятность успеха =0,5, т.е. вероятность выполнения стандартного задания стандартным участником должна быть равна 0,5 (см. рис.1). Модель Раша позволяет сделать



Рис.1. Характеристическая кривая трудности задания


один очень важный вывод: чем выше уровень подготовки участника, тем больше вероятность выполнения задания любого уровня трудности. Стоит отметить, что параметры δ и θ называют латентными параметрами, т.к. они не измеряются непосредственно в процессе тестирования.

Функция успеха может быть получена исходя их принципа максимума информации () о системе (минимума энтропии ()) [5]. Для этого введем следующие характеристики:

-среднее значение тестового балла участника тестирования по всей выборке заданий (К - число заданий в тесте), иными словами средняя успешность выполнения всех К заданий i- испытуемым;

- среднее значение балла задания теста по всей выборке испытуемых (N- число участников тестирования), иными словами средняя успешность выполнения j –задания всеми N испытуемыми.

Число bi равное сумме баллов в i- строке называется первичным баллом i- испытуемого (оно равно числу его правильных ответов):


,


а число cj равное сумме баллов в k- столбце называется первичным баллом j- задания (оно равно числу правильных ответов на это задание всеми испытуемыми):


.


Количество различных состояний системы (число способов распределения 0 и 1 в матрице ответов An,k=(aij)), при заданном значении первичного балла j-задания определяется числом сочетаний () по из N:


,

а полное число состояний системы W с учетом изменения j от 1 до К будет равно:


.


Информационная энтропия ,


где .


Используя формулу Стирлинга можно получить следующую формулу:


.


Чтобы найти распределение, соответствующее наибольшему статистическому весу W рассмотрим вариацию , соответствующую максимуму информации () о системе (минимума энтропии ()):





или:


Вариации выбираются произвольно, за исключением некоторого их числа равного числу дополнительных условий (множителей Лагранжа). Все вариации можно рассматривать как независимые друг от друга, а зависящими от них величинами считать множители Лагранжа. Будем полагать одну из вариаций ≠ 0, а остальные равными. Поэтому к выражению надо прибавить проварьированые дополнительные условия. В данном случае имеется всего лишь одно дополнительное условие, которое связывает набранный индивидуальный первичный балл i –испытуемого () с первичным баллом j –задания:


, где - множитель, определяющий успешность выполнения i –испытуемым j –задания.

Индивидуальный балл i –испытуемого является определенным в результате тестирования, поэтому его вариация равна 0.





Таким образом:


.


С учетом того, что находим:


.


Сравнивая полученное выражение с формулой:

можно интерпретировать , как вероятность успеха, т.е. вероятность выполнения i –участником j – задания, а как () разность между трудностью j –задания и уровнем подготовленности i –участника, выраженную в логитах.


Оценивание параметров функции успеха в однопараметрической модели Раша


При любом проведении процесса тестирования результаты вычисления - статистических оценок , где i=1, 2, ……..n, и - статистических оценок , где j=1, 2, ……..k будут отличаться от существующих точных значений , где i=1, 2, ……..n, и, где j=1, 2, ……..k. По своему физическому смыслу оценки являются определенными функциями исходных случайных значений элементов матрицы ответов An,k состоящей из N- строк (i) и К –столбцов (j)


An,k=(aij)


и поэтому сами являются случайными величинами [6]. Таким образом, возникает вопрос о нахождении математических ожиданий и дисперсий этих случайных величин. Необходимо чтобы математическое ожидание соответствующих оценок совпадало с соответствующими точными значениями, а дисперсия оценки была бы минимальной [7,8].

Статистическая оценка уровня подготовленности и уровня трудности будут являться несмещенными оценками, если их математическое ожидание при любом объеме выборки испытуемых будет равно самому оцениваемому параметру, например:.

Смещенные оценки приводят к сдвигу оцениваемых параметров относительно истинных значений, и их следует избегать. Однако на практике бывает трудно установить факт смещения или не удается получить не смещенную оценку, но и смещенная оценка позволяет получить неплохое оценивание, если дисперсия оцениваемого параметра достаточно велика. В реальности дисперсия не может быть меньше определенного предела, обусловленного количеством исходных данных. На практике обычно используют асимптотически не смещенную оценку, математическое ожидание которой стремится к истинному значению оцениваемого параметра, при неограниченном увеличении объема выборки.

Статистическая оценка называется эффективной если при заданной выборке, она имеет возможную наименьшую дисперсию D* при неполной информации, возможно, получить лишь оценку с D>D*. Если отношение D/D*→1, при увеличении выборки, то оценка называется асимптотически эффективной.

Статистическая оценка называется состоятельной, если несмещенная оценка не является эффективной, но при увеличении объема выборки ее дисперсия уменьшается.

Несмещенность, эффективность и состоятельность являются независимыми свойствами, характеризующими оценки с разных сторон. Задача отыскания эффективных несмещенных оценок имеет особо важное значение при обработке результатов малых выборок испытуемых.