Центра Федерации Интернет-образования Морев И. А. М 79 Образовательные информационные технологии. Часть Педагогические измерения: учебное пособие
Вид материала | Учебное пособие |
- Центра Федерации Интернет-образования Боровкова Т. И., Морев И. А. М 79 Мониторинг, 2998.84kb.
- Центра Федерации Интернет-образования Боровкова Т. И., Морев И. А. М 79 Мониторинг, 2598.77kb.
- Учебное пособие для учащихся педагогических специальностей вузов и слушателей курсов, 2543.24kb.
- М. Н. Машкин Информационные технологии Учебное пособие, 2701.91kb.
- В. П. Дьяконов, А. Н. Черничин Новые информационные технологии Часть Основы и аппаратное, 2695.36kb.
- Учебное пособие Санкт-Петербург 2007 удк алексеева С. Ф., Большаков В. И. Информационные, 1372.56kb.
- О. В. Шатунова информационные технологии учебное пособие, 1418.45kb.
- Учебный мультимедийный комплекс «Основы физической культуры в вузе» (Электронное учебное, 5127.54kb.
- Сейчас почти ни у кого не возникает вопрос: "Зачем нам нужны информационные технологии?", 164.15kb.
- Информационные технологии управления, 3933.39kb.
Разрешающая способность и объективность измерительных процедур
Чертеж должен работать!
В. Ф. ЕФИМЕНКО
Под «разрешающей способностью» технологии оценки понимают степень возможности адекватного распределения (дифференцирования, разбиения) с ее помощью всех претендентов на критериально-однородные группы в соответствии с их уровнями знаний, личностными качествами, практической подготовкой и пр.
Обычно подразумевается, что границы между группами учащихся, проведенные процедурой оценки с высокой «разрешающей способностью», легко объяснимы и не вызывают споров. Однако многие из нас сталкивались со случаями логически необъяснимого проведения границ между «пятеркой» и «четверкой» или «четверкой» и «тройкой» не только на устных экзаменах, но и при компьютерных тестированиях.
Чаще всего, когда технологии тестирования разрабатываются неспециалистами, границы определяются волюнтаристски, «с потолка» (здесь очень просится слово «всегда»).
Иногда работодатели предъявляют специфические претензии к вузовской оценке качества, полагая, что принимаемый на работу специалист должен, в первую очередь, грамотно проектировать изделия, а не знать назубок определения и математические теоремы. Требования вузовских приемных комиссий также нередко расходятся с тем, что требуется от выпускников в школах. Эта разница в точках зрения на качество исходящей и входящей «продукции» вполне объяснима и должна учитываться при проведении тестирований.
Разрешающую способность технологии можно и повысить и понизить. Она может быть повышена:
- во-первых, путем перехода к многобалльным шкалам (например, 100-балльные или 1000-балльные);
- во-вторых, путем использования многомерных оценок (например, когда оценивание каждой составляющей образованности специалиста ведется по-отдельности и вычисление интегральной оценки осуществляется с применением методик факторного анализа).
Разрешающая способность зависит от свойств не только каждого из применяемых тестовых заданий, но и всей совокупности ТЗ в целом.
Лучшим следует признавать тот массив ТЗ, который:
- во-первых, «равномерно покрывает» весь учебный материал (т. е. в заданиях нашла равное отражение учебная информация из подобных по информационному весу и важности разделов дисциплины);
- во-вторых, вопросы и ответы самих заданий не вызывают нареканий с точки зрения грамотности, взаимного соответствия и т. п.;
- в-третьих, веса оценок, которые учащиеся получают в свою «копилку» в процессе тестирования, объективно соответствуют соотношениям сложности и важности ТЗ;
- в-четвертых, задания нельзя выполнить путем простого логического заключения либо простого узнавания исходя из каких-либо примет.
Тестовые задания описывают многими характеристиками, например;
величиной приписываемых им эмпирических параметров:
- весом;
- сложностью;
- трудностью;
- трудоемкостью;
содержанием:
- информационно-отражающие;
- проблемно-эвристические;
- развивающие.
шкалой (логикой) оценивания:
- ТЗ с двузначной шкалой оценивания (верно – не верно);
- ТЗ с трехзначной шкалой оценивания (верно – не совсем верно – не верно);
- ТЗ с четырехзначной шкалой оценивания (верно – не полно – не точно – не верно).
Большей различающей способностью обладают тесты с большим разбросом весов заданий, с многозначной шкалой оценивания, построенные на основе развивающего метода.
Принципиального повышения уровня объективности оценки знаний (именно – знаний, а не умений) можно достичь лишь при полном устранении человеческого фактора из процедуры оценки и переходе к автоматизированному контролю. Все чаще и чаще педагоги выражают положительное отношение к автоматизации рутинных опросов, ибо понятно, что только компьютеру под силу задать несколько десятков вопросов типа «Назовите дату сражения при Ватерлоо» каждому из сотни учащихся и оценить их ответы за 15 минут. Такие «зачетные» тестирования для нас уже стали привычны.
Саша, никогда не оправдывайтесь!
Это вызывает подозрения
Эммануил ВИТОРГАН (в одном из сериалов)
Считается, что процедуры измерения и оценивания умений учащихся, за исключением простых и поддающихся формализации случаев, пока автоматизировать не представляется возможным. Эта область деятельности пока подвластна только человеку, и педагоги здесь правы, отстаивая здесь свой человеческий приоритет перед машиной.
-
Систематические ошибки в тестировании
Не верю!
К. С. СТАНИСЛАВСКИЙ
Систематическая ошибка называется систематической потому, что она присутствует в результате всегда, систематически, при наступлении определенных условий. Она не является случайной, вызванной неконтролируемыми изменениями внешних параметров. Это – характеристика теста, которую можно контролировать и учитывать.
Иногда бывает так, что проще определить и учесть величину систематической ошибки, возникающей в конкретных ситуациях, чем исправить тест. Ведь исправленный тест тоже может характеризоваться систематическими ошибками, которые еще не определены.
Систематическая ошибка теста – это важная его характеристика, связанная, например, с:
- различием валидности теста, измеренной для разных групп претендентов (ошибка наклона) и
- соотношением между групповыми значениями измеренных характеристик по тесту и по критерию (ошибка интерцепта).
Эти понятия используются для акцентирования того, что заложено в тесте, – в противоположность возможной случайной ошибке. Это в значительной степени связано со спецификой выборки, на которой адаптируется тест. Рассмотрим эти понятия более подробно.
- Систематическая ошибка наклона. Различие коэффициента валидности теста для двух групп обследуемых может быть связано с использованием в роли критерия субъективных оценок. Систематическая ошибка наклона теста может возникать и при сравнении выводов об эффективности его применения на представителях разных этнокультурных, социальных и профессиональных групп. Зависит она и от величины их выборки. Необходимо устанавливать различия между коэффициентами валидности для разных выборок. Если такие различия существенны (например, в тесте по химии в русскоязычных и национальных группах), то лучше всего проверить тест еще раз на двух независимых выборках, для того чтобы выяснить, действительно ли эти различия столь существенны. Если отклонения вызваны спецификой данного контингента обследуемых, то следует, просчитав эту систематическую ошибку наклона, учитывать ее при анализе полученных тестовых данных и при принятии педагогами решений об отсеве, распределении учащихся.
- Систематическая ошибка интерцепта означает, что тест систематически завышает или занижает значения критерия для части претендентов. Обнаружить ее можно, когда результаты анализируются по подгруппам обследованного контингента, что особенно необходимо на стадии выверки нового теста. Возможно, что она будет обнаружена даже при одинаковой валидности теста для двух групп. Следствием бывают разные прогностические значения теста для этих групп (например, этнического большинства и меньшинства). Если к этим группам мы начнем применять единый нормальный показатель, одна из них может оказаться в более, а другая в менее благоприятных условиях. Требуется расчет систематической ошибки интерцепта для тестов, ориентированных на обследование групп с существенными различиями по образовательному и социоэкономическому уровням.
Причиной систематической ошибки интерцепта может быть не только содержание знаний и умений, заложенных в заданиях теста, но и семантика теста – степень привычности или сложности формулировки его заданий. Для различий в национальных группах могут быть существенны этнопсихологические факторы, особенно в тестах, связанных с гуманитарными ценностями и знаниями.
Могут сказаться и демографические, биографические различия учащихся. Так, для выпускников городских школ, в которых тестирование применялось в старших классах, сама форма предъявления теста при вступительных экзаменах в вуз привычна. Это делает тестирование для них операцией знакомой, рутинной. В то же время для абитуриентов из отдаленного села, которые тесты ранее не видели никогда, уже сама ситуация тестирования связана со стрессовыми дополнительными факторами.
Возможна и другая, семантическая ситуация: нечётко сформулированное задание во вступительном тесте. Не исключено, что в худшем положении окажутся как раз лучшие выпускники престижных школ, привыкшие к более строгим и точным формулировкам задания. Подумав, что за «простотой» в задании скрываются ловушки, они могут начать искать в нём его «второй смысл», особенно в ситуации отбора при высоком конкурсе. Потратив на выполнение задания много времени и сил, не найдя явного подвоха, эти хорошо подготовленные выпускники в ситуации, когда задания построены с выборочным вариантом ответа (а так строится большинство стандартизированных тестов), могут остановиться не на более очевидном и правильном варианте, а на том, что «похитрее», – и ошибиться. А троечники думать не будут – выберут более очевидный вариант и получат свой балл.
При составлении текста параграфа использованы материалы: Михайлычев Е. А. Дидактическая тестология. – М.: Народное образование, 2001. – 432 с.