Статистические методы анализа результатов психолого-педагогических исследований
Информация - Математика и статистика
Другие материалы по предмету Математика и статистика
° том или ином уровне значимости следует только тогда, когда она подтверждается несколькими различными методами.
Опишем теперь подробнее предлагаемую процедуру исследования и используемые математические методы.
Подготовка данных к анализу.
Прежде чем приступать к анализу, необходомо выполнить следующие действия: 1) проверить данные на наличие существенных ошибок; 2) выбрать метод работы с пропущенными значениями; 3) при необходимости сгладить выбросы. Рассмотрим каждый из этих моментов.
1) Ошибки ввода можно условно разбить на две категории. Первая - это незначительные (на уровне 20%) ошибки при наборе или шкалировании. Будучи случайным фактором, такие ошибки в силу равной вероятности отклонений в ту или другую сторону не смещают оценки для выборочных средних и не искажают принципиально распределение соответствующих переменных. Ошибки второго рода - это существенные ошибки (>50%), влияющие на распределение (выбросы). Задачей электронной проверки базы данных является полное устранение существенных ошибок. Для этого по каждой из переменных рекомендуется просмотреть диаграмму рассеяния на так называемой "нормальной вероятностной бумаге", отметить выбросы и, проанализировав их, исправить ошибочные значения, либо, если выброс имеет объективную природу, решить вопрос о сглаживании (см. ниже). При этом одновременно решается вопрос о близости выборочного распределения к нормальному. (При детальном анализе и проверке гипотез нормальность распределения необходимо подтверждать критериями согласия).
2) Существует три основных варианта работы с пропущенными значениями. Первый - игнорировать при конкретных вычислениях соответствующие случаи. Однако при этом не используется часть полезной информации и снижается валидность выборки, так что этот способ можно использовать при значительном объеме выборки (>100 человек) и небольшом (0-10%) числе пропусков. Второй способ заключается в замене пропущенных значений переменных их средними значениями. Такая процедура не изменяет валидность и выборочное среднее и незначительно уменьшает дисперсию. К её недостаткам можно отнести смещение оценок элементов ковариационной и корреляционной матриц, что, отражается на результатах корреляционного и факторного анализа. Тем не менее этот способ является самым распространенным при средних объёмах выборки и не слишком большом числе пропусков. Третий вариант работы с пропущенными значениями заключается в их экстраполяции по имеющимся данным. Это осуществляется средствами корреляционно - регрессионного или кластерного анализа. В первом случае по имеющимся данным определяется уравнение множественной регрессии заданных переменных на рассматриваемую, и пропущенные данные заполняются как значения этого уравнения. Второй подход основан на использовании расстояния между парами объектов (случаев) в некоторой метрике, определяемого по значениям переменных, измеренных у этих объектов. Предполагается, что если два случая близки в пространстве измеренных переменных (попадают в один кластер), то из этого следует и их близость по неизвестным переменным. Эти методы технически достаточно сложны и их целесообразно использовать только при небольшом объеме выборки, значительном числе пропусков и высокой значимости проводимого исследования.
3) Иногда выброс - не следствие ошибки, а обьективный результат исследования. Но в любом случае он существенно искажает распределение переменной, поэтому если выброс имеет случайный характер и не отражает некоторую закономерность, рекомендуется сгладить его путем замены соответствующего значения на среднее или экстраполированное одним из перечисленных выше способов.
Описательная статистика.
Результаты проведенного исследования интерпретируются как матрица данных T размера n? р, строки которой соответствуют участникам исследования (случаи), а столбцы - значениям переменных или параметров. Пусть X - количественная переменная с набором значений xi, i=1,2,...n. Тогда основными параметрами её распределения являются:
Показатели положения. К ним относятся выборочное среднее Xср=(? xi)/n, минимальный и максимальный элементы, верхний и нижний квартили (они определяют границы зоны, в которую попадает 50% выборки), выборочная медиана (квантиль, соответствующая значению p=0.5).
Показатели разброса и ассимметрии. Это в первую очередь исправленное выборочное отклонение s, дисперсия D, коэффициент вариации Квар, размах (разность между максимальным и минимальным элементами), межквартильный размах (разность между верхней и нижней квартилью), центральные отклонения ? i, ассимметрия Ass(X), эксцесс Eks(X), вычисляемые по формулам
D = 1/(n-1) ( ? (xi - Xср)2)1/2, s = ? D, (1)
? k = ( ? (xi - Xср)k) / n , Ass( X)= ? 3 / s3, Eks(X)= ? 4/s4 - 3. (2)
Отметим, что ? 1=0, ? 2=? 2, и для нормально распределенной случайной переменной Х справедливы равенства Ass(X)=Eks(X)=0 (значительные отклонения этих параметров от нуля свидетельствуют о ненормальности распределения).
Показатели, описывающие закон распределения. Эта группа показателей включает диаграммы рассеяния, графики гистограммы и эмпирической функции распределения, таблицы частот.
Для двух случайных переменных X, Y параметрами их совместного распределения служат корреляционный момент ? xy (или коэффициент ковариации), коэффициент линейной корреляции r, корреляционные отношения ? xy , ? yx, определяемые следующим образом:
? xy = 1/ n (( ? (xi - Xср) (yi -Yср) = (XY) ср - Xср Yср, (3)
r = ? xy /(sxsy) = ( ? nxy xy - n Xср Yср)/(n sxsy ), (4)
?