Выделяют пять общих требований к тестам контроля знаний: валидность; определенность (общепонятность)
Вид материала | Документы |
СодержаниеТесты интеллекта Тесты способностей Тесты достижений Критериально-ориентированные тесты |
- Фролова Е. В., Санжаровская, 148.22kb.
- Общих требований к ответу «5», 129.55kb.
- Система контроля знаний в преподавании русского языка и литературы, 101.79kb.
- Различные формы и методы контроля знаний учащихся Различные формы и методы контроля, 114.33kb.
- Общие рекомендации к составлению тестов компоновка тестов > Требования к тестам, 451.26kb.
- Методика преподавания иностранных языков располагает значительным теоретическим багажом, 63.9kb.
- Государственный университет Высшая школа экономики, 45.29kb.
- Положение о балльно-рейтинговой системе контроля знаний студентов Общие положения, 84.83kb.
- Конспекты лекций Тесты для контроля качества знаний Слайд-презентации, 36.6kb.
- Для многоуровневого контроля знаний студентов, 37.36kb.
Надежность
О высокой надежности метода говорят в том случае, когда метод точно измеряет то свойство, для измерения которого он предназначен [26]. В качестве критериев точности можно отметить следующие:
При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований не должны существенно различаться между собой.
Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры.
При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.
Существуют различные методы оценки надежности:
Ретестовый метод – повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.
ТЕСТ ИНТЕРВАЛ РЕТЕСТ
За индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.
Надежность взаимозаменяемых форм – повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.
ТЕСТ А ИНТЕРВАЛ ТЕСТ А'
За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о высокой надежности теста.
Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не должны оказывать особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то имеет место эффект переноса принципа заданий. Эффект переноса следует учитывать при построении параллельных форм.
Требования к построению параллельных форм:
- параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;
- должны содержать одинаковое количество заданий со сходной степенью трудности;
- эквивалентность параллельных форм необходимо проверять ретестовым методом.
Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).
За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста.
Валидность и надежность. Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно – остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.
Психологические тесты, имеющие связь с диагностикой знаний
Тесты интеллекта
Тесты интеллекта, или тесты общих способностей, предназначены для измерения уровня интеллектуального развития человека [52].
Полученные с помощью этих тестов результаты выражаются количественно в виде коэффициента интеллекта (IQ).
Под интеллектом как объектом измерения в психодиагностике понимается структура познавательных свойств человека, возникающая на основе наследственно закрепленных задатков, формирующаяся во взаимодействии с ними.
Тесты интеллекта состоят из нескольких субтестов, направленных на измерение интеллектуальных функций (логического мышления, смысловой и ассоциативной памяти, др.) [26]. Например, в Гамбургской версии теста Векслера для исследования интеллекта у детей (версия 1983 года), его результаты представляются в виде 11-балльных значений, по одному значению на каждый субтест (11 субтестов). Количественная информация по тесту представляется в виде профиля результатов, по каждому субтесту, выраженных в балльных значениях. Мерой оценки теста в целом является сумма этих значений или среднее значение данных всех субтестов. Как правило, ограничиваются тем, что представляют результаты субтестов в виде баллов. Векслер предложил общий результат представить в виде количественного показателя интеллектуального развития IQ:
Применение математико-статистического аппарата для анализа интеллектуальных тестов позволяет ввести количественный показатель IQ на основе шкалы Векслера стандартных IQ.
При интерпретации общего результата нельзя целиком полагаться на соответствующий общий показатель IQ. Существенную информацию дает интерпретация профиля результатов по субтестам.
Следует отметить тот факт, что область средних значений шкалы IQ не дает представления о том, в каких субтестах результаты выше среднего, а в каких – ниже. Так, например, показатель IQ в 100 баллов может быть получен и в случае однородного профиля достижений (когда по всем субтестам результаты выше среднего значения), и в случае, когда по одним субтестам могут быть получены результаты выше среднего, а по другим – ниже среднего.
IQ или любой другой показатель следует всегда приводить вместе с названием теста, в котором они получены. Тестовые показатели нельзя интерпретировать в отрыве от конкретного теста. Согласно А. Анастази: "IQ не является постоянной величиной и изменяется под воздействием окружающей среды. IQ является отражением как предшествующих, так и последующих достижений в обучении. Интеллект не есть единая и однообразная способность, он складывается из нескольких функций и обозначает комплекс способностей, необходимых для выживания и достижения успехов в определенной культуре".
Двухфакторная и многофакторная теории интеллекта. [26] В исследованиях Ч.Спирмана (автора двухфакторной теории интеллекта) было установлено, что между любыми тестами интеллекта существуют положительные корреляции. Ч.Спирман считал, что эти положительные корреляции обусловлены тем, что всякая интеллектуальная деятельность содержит единый общий фактор. Этот фактор он назвал генеральным, или фактором "G". Он полагал также существование других факторов, свойственных только одному виду деятельности (S-факторы).
В исследованиях Л. Терстоуна (автора многофакторной теории) было установлено, что корреляции между тестами не могут быть объяснены наличием в них только одного фактора ("G"). Им было выделено 12 факторов, которые он назвал "первичные умственные способности", существующие помимо генерального.
Именно Л. Терстоун доказывал, что нет оснований для использования коэффициента интеллекта. Интеллект, считал он, необходимо представлять в виде профиля оценок по первичным факторам, в чем и состоит суть многофакторной теории интеллекта.
Тесты способностей
Способностями называют индивидуально-психологические особенности человека, которые способствуют его успеху в какой-либо деятельности. Способности проявляются и формируются в результате определенной деятельности. Можно выделить общие и частные способности, которые делятся на элементарные и сложные [26] (см. таблицу 7).
Таблица 7.
СПОСОБНОСТИ | ЭЛЕМЕНТАРНЫЕ | СЛОЖНЫЕ |
ОБЩИЕ | присущие всем людям основные способности форм психического отражения: ощущать воспринимать запоминать переживать мыслить | в большей или меньшей степени присущие всем людям способности к общечеловеческим видам деятельности: игре учению труду общению |
ЧАСТНЫЕ | способности присущие не всем людям: музыкальный слух точный глазомер настойчивость смысловая память | способности присущие не всем людям: профессиональные специфические особенные |
Критерием наличия способностей можно считать уровень успешности в какой-либо деятельности по сравнению с другими, например, меньшая затрата сил или быстрота. Если уровень успешности в какой-либо деятельности одинаков у двух людей, то более способным к этой деятельности можно считать того, кто обладает большей оригинальностью приемов или своеобразием способов действий.
Способность характеризуется успешностью в приобретении знаний, умений и навыков и их переносе с одного класса задач на другой. Она не есть одно единственное качество, а составляет целостный комплекс качеств. Например, изобразительную способность составляют хорошая зрительная память, острота зрительного восприятия и т.д.
При тестировании способностей выделяют тесты специальных способностей, тесты общих способностей (тесты интеллекта) и комплексные батареи способностей.
Тесты специальных способностей направлены на измерение предрасположенности к определенным видам деятельности. Они используются при решении задач в области профотбора и профориентации.
Специальные способности принято квалифицировать по двум основаниям:
по видам психических функций (моторные, сенсорные),
по видам деятельности (технические и профессионализированные, то есть соответствующие той или иной профессии: артистические, художественные). В соответствии с этими группами разрабатываются методы диагностики.
Комплексные батареи способностей направлены на измерение относительно независимых способностей. Они используются при решении задач в области образования и профориентации, особенно при консультировании по вопросам выбора специализации или профессии.
Тесты достижений
Тесты достижений, в отличие от тестов способностей дают конечную оценку по завершении обучения [26].
Выделяют две группы тестов достижений: широко ориентированные тесты достижений и тесты достижений по конкретным учебным предметам.
Широко ориентированные тесты достижений ориентированы на оценку навыков по основным целям обучения (например, тесты на понимание научных принципов).
Тесты достижений по конкретным предметам (например, достижения в чтении и математике) ориентированы на оценку усвоения элементов учебных программ, конкретных тем, уровня владения навыками (например, счетными).
Такие тесты выполняют несколько функций:
- выступают как средство оценки знаний,
- выявляют недостатки обучения,
- подсказывают направление последующего обучения,
- обеспечивают мотивацию учащегося,
- помогают приспособить обучение к потребностям индивида,
- дают информацию об уровне знаний, усвоенных учащимися.
Критериально-ориентированные тесты
Критериально-ориентированные тесты (КОТ) отличаются от традиционных тестов тем, что в традиционных оценка осуществляется путем соотнесения индивидуальных результатов с групповыми (ориентация на статистическую норму), а в критериально-ориентированных – оценка осуществляется путем соотнесения индивидуальных результатов с некоторым критерием. В качестве такого критерия выступает уровень владения навыком, умениями, знаниями [26].
КОТ используются в образовании. Цель тестирования с помощью КОТ – оценка владения навыком. Итоговый показатель фиксирует степень владения навыком и не включает в себя индивидуальные различия, что является слабым местом КОТ. Поэтому их использование возможно для оценки элементарных навыков.
Литература
- Аванесов В.С. Композиция тестовых заданий. – М.: Из-во Центра тестирования Минобразования РФ, 2002, - 239С.
- Переверзев В.Ю. Критериально - ориентированные педагогические тесты для итоговой аттестации студентов. М.: Из-во НМЦ СПО Минобразования РФ, 1998, -152 С.
- Смирнов С.Д. Педагогика и психология высшего образования: От деятельности к личности. Учебное пособие. – М.: Высшая школа, 1995, -271 С.
- Тыркова Н.П. Методика преподавания теории вероятностей и математической статистики с использованием персональных компьютеров. // Материалы научно-методической конференции: “Повышение эффективности учебно-воспитательного процесса: Новые идеи, формы, методы”. - Омск, 1998, С.156.
- Соколов В.М. Вывод функции успеха из принципа максимальности информации о системе. // Тезисы докладов Всероссийской научно-методической конференции «Развитие системы тестирования в России». - Москва, 2002, С.250-251.
- Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. - М.: Прометей, 2000, - 168 С.
- Герасимович А.И., Матвеева Я.И. Математическая статистика. – Минск.: Высшая школа, 1978. – 200 .
- Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: Высшая школа, 1997, -480 С.
- Рао С.Р. Линейные статистические методы и их применение. Под ред. Ю.В. Линника. - М.: Наука, 1968, -547 С.
- Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen, Denmark: Danish Institute for Educational Research, 1960.
- Wright B.D., Stone M.H. Best test design, Chicago: Mesa Press, 1979. -220 P.
- Кендалл М.Дж., Стьюарт А. Теория распределений. - М.: Наука, 1966. -587 С.
- Уилкс С. Математическая статистика. Под ред. Ю.В. Ленника, М.: Наука, 1967, -632 С.
- Березин Н.В. Выбор дистракторов в заданиях в закрытой форме. Анализ и моделирование в рамках IRT. // Тезисы докладов Всероссийской научно-методической конференции «Развитие системы тестирования в России», - Москва, 2002, С. 229-230.
- Маслак А.А., Бобрышев Е.А., Анисимова Т.С., Пушечкин Н.П. Исследование влияния числа дистракторов на точность оценивания уровня знаний. // Тезисы докладов III Всероссийской научно-методической конференции «Развитие системы тестирования в России». - Москва, 2001, С.204.
- Thorndike R.L. (ed.) Educational measurement ( 2nd ed.) Washington, DC: American Council of Education, 1971.
- Челышкова М.Б. Теория и практика конструирования педагогических тестов. Учебное пособие. –М.: Логос, 2002, - 432 С.
- Angoff W.N. Scales, norms and equivalent scores. In Thorndike R.L. (Ed.) Educational measurement (2-nd ed.). Washington, DC: American Council of Education, 1971, pp 508-600.
- Власова Е.А. Модель оценивания результатов тестирования по дробной шкале. // Тезисы докладов Всероссийской научно-методической конференции «Развитие системы тестирования в России». - Москва, 2002, С. 231-232.
- Янченко С.И. Математическая модель оценки результатов тестирования. // Тезисы докладов Всероссийской конференции «Развитие системы тестирования в России». - Москва, 2000, ч. 4, С. 54-56.
- Елисеев И.Н., Елисеев И.И., Гладилин А.Н. Программный модуль ANALIZATOR для расчета параметров тестовых заданий с несколькими верными ответами. // Тезисы докладов Всероссийской научно-методической конференции «Развитие системы тестирования в России». - Москва, 2002, С. 293-234.
- Овчинников В.В. Анализ внутренней валидности тестовых заданий аттестационного тестирования 2002 года. // Тезисы докладов Всероссийской научно-методической конференции «Развитие системы тестирования в России». - Москва, 2002, С. 243-244.
- Нейман Ю.М. Как оценивается уровень подготовленности учащихся по результатам единого государственного экзамена. – М.: Из-во Центра тестирования Минобразования РФ, 2002, -24С.
- Wright B.D., Masters G.N. Rating scale analysis. Chicago, 1982.
- Анастази А. Психологическое тестирование. Т.1,2. – М.: Педагогика, 1982.
- Словарь справочник по психологической диагностике. / Бурлачук Л.Ф., Морозов С.М., Под. ред. С.Б.Крымский. – Киев.: Наукова думка, 1989, - 267 С.
- Овчинников В.В. Оценивание учебных достижений учащихся при проведении централизованного тестирования. – М.: Из-во Век книги, 2001. -27 С.
- Нейман Ю.М. О шкалировании результатов централизованного тестирования в 2001 году. // Вопросы тестирования в образовании, № 1, 2001, С. 94-106.
- Журкин И.Г., Нейман Ю.М. Методы вычислений в геодезии, М.: Недра, 1988, -304 С.
- Hambelton R.K., Swaminathan H., Rogers H.J. Fundamentals of Item Response Theory, Sage publications, 1991.
- Linden W.J., Hambelton R.K. Handbook of modern item response theory, New York, 1997.
- Кромер В.В. Единое шкалирование разновариантных тестов. // Тезисы докладов Всероссийской научно-методической конференции «Развитие системы тестирования в России». - Москва, 2002, С. 239-240.
- Mislevy R.J., Bock R.D. Introduction to Item Response Theory. 1990.
- Stocking M.L., Lord F.M. Developing a common metric in Item Response Theory. Applied Psychological Measurement, vol. 7, 1983.
- Аванесов В.С. Основы научной организации педагогического контроля в высшей школе, Учебное пособие, М.: Исследовательский центр, 1989, - 167 С.
- Люсин Д.В. Основы разработки и применения критериально-ориентированных педагогических тестов. М.: Исследовательский центр, 1993, - 51 С.
- Educational measurement (Ed. by Linn R.) N.Y.Macmillan, 1989, - 610 P.
- Keeves J.P. (Ed.) Educational Reserch, Methodology and Measurement: An International Handbook. Oxford, Pergamon Press, 1988.
- Millan, J. Reliabity and validity of criterion-referensed test scores. In R.E.Traub (Ed.) New directions of testing and measurement, №4, Methodological developments, San Francisco: Jossey-Bass. 1979. pp. 75-92.
- Feltd S.N., Brennan, R.L. Reliability In R.L. Linn. Educational measurement (3rd ed.) New York, Macmillan, 1989, pp.105-146.
- Переверзев В.Ю. Зарубежный опыт массового педагогического тестирования абитуриентов. // Тезисы докладов шестого симпозиума “Квалиметрия человека и образования: методология и практика”, Книга II, Ч.2, -Москва, 1997, С.167.
- Millman Jason, Criterion-referenced measurement. In W.J. Popham (Ed.) Evaluation in Education: Current applications. Barkley CA.: McCutchan, 1974 pp.311-397.
- Berk R.A. Criterion- referenced measurement. The state of art Baltimor, MD: Jons Hopkins University Press, 1980.
- Hambelton R.K., and others. Criterion-Referenced Measurement: a Review of Technical Issues and Development / Review of Education Research, vol. 48, № 1(Winter 1978), pp.1-48.
- Гласс Дж., СтенлиДж. Стастические методы в педагогике и психологии. М.: Прогресс, 1976. - 495 С.
- Educational Testing Service. Standarts for quality and fairness. Prinston, NJ, 1987.
- Messick S. Validity In R.L.Linn Educational Measurement (3rd ed.), New-York, Macmillan, 1989, pp. 13-105.
- Weiss D.J. (Ed.) New Horizons in Testing: Latent Trait Test Theory and Computerized Adaptive Testing. New-York, Academic Press, 1983. – 345 P.
- Lord F.M. Application of Item Response Theory to Practical Testing Problems. Hillsdale N-J. Lawrence Erlbaum Ass., Publ., 1980, -266 P.
- Общая психодиагностика. / Под ред. А.А. Бодалева, В.В.Столина. – М.: Из-во МГУ, 1987,- 234 С.
- Практикум по психодиагностике: дифференциальная психометрика. / Под ред. В.В.Столина. – М.: Из-во МГУ, 1984, С.16-17.
- Шваниара Й. Диагностика психического развития. - Прага.: Из-во Авиценум, 1978, С.46.