Центра Федерации Интернет-образования Морев И. А. М 79 Образовательные информационные технологии. Часть Педагогические измерения: учебное пособие

Вид материалаУчебное пособие

Содержание


Разрешающая способность и объективность измерительных процедур
Саша, никогда не оправдывайтесь!
Систематические ошибки в тестировании
Систематическая ошибка наклона.
Систематическая ошибка интерцепта
При составлении текста параграфа использованы материалы: Михайлычев Е. А. Дидактическая тестология.
Подобный материал:
1   ...   13   14   15   16   17   18   19   20   ...   31

Разрешающая способность и объективность измерительных процедур


Чертеж должен работать!

В. Ф. ЕФИМЕНКО

Под «разрешающей способностью» технологии оценки понимают степень возможности адекватного распределения (дифференцирования, разбиения) с ее помощью всех претендентов на критериально-однородные группы в соответствии с их уровнями знаний, личностными качествами, практической подготовкой и пр.

Обычно подразумевается, что границы между группами учащихся, проведенные процедурой оценки с высокой «разрешающей способностью», легко объяснимы и не вызывают споров. Однако многие из нас сталкивались со случаями логически необъяснимого проведения границ между «пятеркой» и «четверкой» или «четверкой» и «тройкой» не только на устных экзаменах, но и при компьютерных тестированиях.

Чаще всего, когда технологии тестирования разрабатываются неспециалистами, границы определяются волюнтаристски, «с потолка» (здесь очень просится слово «всегда»).

Иногда работодатели предъявляют специфические претензии к вузовской оценке качества, полагая, что принимаемый на работу специалист должен, в первую очередь, грамотно проектировать изделия, а не знать назубок определения и математические теоремы. Требования вузовских приемных комиссий также нередко расходятся с тем, что требуется от выпускников в школах. Эта разница в точках зрения на качество исходящей и входящей «продукции» вполне объяснима и должна учитываться при проведении тестирований.

Разрешающую способность технологии можно и повысить и понизить. Она может быть повышена:
  • во-первых, путем перехода к многобалльным шкалам (например, 100-балльные или 1000-балльные);
  • во-вторых, путем использования многомерных оценок (например, когда оценивание каждой составляющей образованности специалиста ведется по-отдельности и вычисление интегральной оценки осуществляется с применением методик факторного анализа).

Разрешающая способность зависит от свойств не только каждого из применяемых тестовых заданий, но и всей совокупности ТЗ в целом.

Лучшим следует признавать тот массив ТЗ, который:
  • во-первых, «равномерно покрывает» весь учебный материал (т. е. в заданиях нашла равное отражение учебная информация из подобных по информационному весу и важности разделов дисциплины);
  • во-вторых, вопросы и ответы самих заданий не вызывают нареканий с точки зрения грамотности, взаимного соответствия и т. п.;
  • в-третьих, веса оценок, которые учащиеся получают в свою «копилку» в процессе тестирования, объективно соответствуют соотношениям сложности и важности ТЗ;
  • в-четвертых, задания нельзя выполнить путем простого логического заключения либо простого узнавания исходя из каких-либо примет.

Тестовые задания описывают многими характеристиками, например;

величиной приписываемых им эмпирических параметров:
  • весом;
  • сложностью;
  • трудностью;
  • трудоемкостью;

содержанием:
  • информационно-отражающие;
  • проблемно-эвристические;
  • развивающие.

шкалой (логикой) оценивания:
  • ТЗ с двузначной шкалой оценивания (верно – не верно);
  • ТЗ с трехзначной шкалой оценивания (верно – не совсем верно – не верно);
  • ТЗ с четырехзначной шкалой оценивания (верно – не полно – не точно – не верно).

Большей различающей способностью обладают тесты с большим разбросом весов заданий, с многозначной шкалой оценивания, построенные на основе развивающего метода.

Принципиального повышения уровня объективности оценки знаний (именно – знаний, а не умений) можно достичь лишь при полном устранении человеческого фактора из процедуры оценки и переходе к автоматизированному контролю. Все чаще и чаще педагоги выражают положительное отношение к автоматизации рутинных опросов, ибо понятно, что только компьютеру под силу задать несколько десятков вопросов типа «Назовите дату сражения при Ватерлоо» каждому из сотни учащихся и оценить их ответы за 15 минут. Такие «зачетные» тестирования для нас уже стали привычны.

Саша, никогда не оправдывайтесь!

Это вызывает подозрения

Эммануил ВИТОРГАН (в одном из сериалов)

Считается, что процедуры измерения и оценивания умений учащихся, за исключением простых и поддающихся формализации случаев, пока автоматизировать не представляется возможным. Эта область деятельности пока подвластна только человеку, и педагоги здесь правы, отстаивая здесь свой человеческий приоритет перед машиной.
    1. Систематические ошибки в тестировании


Не верю!

К. С. СТАНИСЛАВСКИЙ

Систематическая ошибка называется систематической потому, что она присутствует в результате всегда, систематически, при наступлении определенных условий. Она не является случайной, вызванной неконтролируемыми изменениями внешних параметров. Это – характеристика теста, которую можно контролировать и учитывать.

Иногда бывает так, что проще определить и учесть величину систематической ошибки, возникающей в конкретных ситуациях, чем исправить тест. Ведь исправленный тест тоже может характеризоваться систематическими ошибками, которые еще не определены.

Систематическая ошибка теста – это важная его ха­рактеристика, связанная, например, с:
  • различием валидности теста, измеренной для разных групп претендентов (ошибка наклона) и
  • соотношением между групповыми значениями измеренных характеристик по тесту и по критерию (ошибка интерцепта).

Эти понятия используются для ак­центирования того, что заложено в тесте, – в противопо­ложность возможной случайной ошибке. Это в значи­тельной степени связано со спецификой выборки, на ко­торой адаптируется тест. Рассмотрим эти понятия более подробно.
  • Систематическая ошибка наклона. Различие коэффициента валидности теста для двух групп обследуе­мых может быть связано с использованием в роли крите­рия субъективных оценок. Систематическая ошибка на­клона теста может возникать и при сравнении выводов об эффективности его применения на представителях раз­ных этнокультурных, социальных и профессиональных групп. Зависит она и от величины их выборки. Необходимо устанавливать различия между коэффициентами валидности для разных выборок. Если такие разли­чия существенны (например, в тесте по химии в русскоязычных и национальных груп­пах), то лучше всего проверить тест еще раз на двух неза­висимых выборках, для того чтобы выяснить, действи­тельно ли эти различия столь существенны. Если откло­нения вызваны спецификой данного контингента обсле­дуемых, то следует, просчитав эту систематическую ошибку наклона, учитывать ее при анализе полученных тестовых данных и при принятии педагогами решений об отсеве, распределении учащихся.
  • Систематическая ошибка интерцепта означает, что тест систематически завышает или занижает значения критерия для части претендентов. Обнаружить ее можно, когда результаты анализируются по подгруппам обследованного контингента, что особенно необходимо на стадии выверки нового теста. Возможно, что она будет обнаружена даже при одинаковой валидности теста для двух групп. Следствием бывают разные прогностические значе­ния теста для этих групп (например, этнического боль­шинства и меньшинства). Если к этим группам мы нач­нем применять единый нормальный показатель, одна из них может оказаться в более, а другая в менее благопри­ятных условиях. Требуется расчет систематической ошибки интерцеп­та для тестов, ориентированных на обследование групп с существенными различиями по образовательному и социоэкономическому уровням.

Причиной систематической ошибки интерцепта мо­жет быть не только содержание знаний и умений, заложен­ных в заданиях теста, но и семантика теста – степень при­вычности или сложности формулировки его заданий. Для различий в национальных группах могут быть существен­ны этнопсихологические факторы, особенно в тестах, свя­занных с гуманитарными ценностями и знаниями.

Могут сказаться и демографические, биогра­фические различия учащихся. Так, для выпускников городских школ, в которых тестирование применялось в старших классах, сама форма предъявления теста при вступительных экзаменах в вуз привычна. Это делает те­стирование для них операцией знакомой, рутинной. В то же время для абитуриентов из отдаленного села, кото­рые тесты ранее не видели никогда, уже сама ситуация тестирования связана со стрессовыми дополнительными факторами.

Возможна и другая, семантическая ситуация: нечёт­ко сформулированное задание во вступительном тесте. Не исключено, что в худшем положении окажутся как раз лучшие выпускники престижных школ, привыкшие к более строгим и точным формулировкам задания. Поду­мав, что за «простотой» в задании скрываются ловушки, они могут начать искать в нём его «второй смысл», осо­бенно в ситуации отбора при высоком конкурсе. Потратив на выполнение задания много времени и сил, не найдя яв­ного подвоха, эти хорошо подготовленные выпускники в ситуации, когда задания построены с выборочным вари­антом ответа (а так строится большинство стандартизиро­ванных тестов), могут остановиться не на более очевид­ном и правильном варианте, а на том, что «похитрее», – и ошибиться. А троечники думать не будут – выберут бо­лее очевидный вариант и получат свой балл.

При составлении текста параграфа использованы материалы: Михайлычев Е. А. Дидактическая тестология. М.: Народное образование, 2001. 432 с.