Статистические методы анализа результатов психолого-педагогических исследований

Информация - Математика и статистика

Другие материалы по предмету Математика и статистика

?нение связи Y = f(X1, X2,...Xk , ? ) + ? (7), где f - n-мерная вектор-функция от k переменных Xi и ? - параметра связи; ? -n-мерный случайный параметр, отражающий отклонение от функциональной зависимости (вектор остатков или ошибок). В классической модели предполагается, что координаты ? независимы и одинаково распределены по нормальному закону N(0,? 2). Рассматрим ситуацию, когда f линейно зависит от ? , т.е. задачу линейного регрессионного анализа (с методами нелинейного анализа можно ознакомиться в [4]). Тогда уравнение (7) можно представить в виде Y = ? 1 + ? 2X1 + ? 3X2 +...+ ? k+1Xk + ? , (8) или в матричной форме Y = A? + ? . Здесь А={ai,j} - матрица размера n? (k+1) , называемая регрессионной матрицей, в которой ai,1=1, ai,j =хi,j-1 - компоненты вектора Xj-1 при j>1. Одним из основных методов получения оценки ? является метод наименьших квадратов, заключающийся в минимизации остаточной суммы квадратов (RSS) = ? ? i2 по отношению к ? . Применяя его, мы получим значения (? 2 ,... ? k+1)= M-1CyX, ? 1=Yср - ? 2X1 - ? 3X2 -...- ? k+1Xk , где М - матрица ковариаций для Xi, CyX = ( ? Y,Xi , i=1,..k) - вектор оценок ковариаций между Y и Xi. Оценкой для остатка будет е =Y- A? , a RSS= |e|. Доверительный интервал для ? i на уровне значимости ? определяется как ? i + (D(? i)t1-? /2(? ))1/2, где t1-? /2(? ) - квантиль для t-распределения с ? = n-k степенями свободы. Определим квадрат коэффициента множественной корреляции между Y и Xi как R2 = CyXT M-1CyX = (? CyX ) / ? Y2. Его статистический смысл можно объяснить, рассмотрев дисперсию условного распределения Y при заданных Xi: (? yXi)2 =? Y2 (1- R2). Таким образом, величина R2 есть доля дисперсии Y, объясненная переменными Xi. Параметры R2, RSS, доверительные интервалы для ? и оценки для дисперсий ошибок ? и коэффициентов регрессии ([5, 7.1.3]) определяют качество приближения Y уравнением регрессии и являются важными параметрами анализа.

Наряду с изложенным выше параметрическим подходом существуют непараметрические методы построения уравнений регрессии. Их преимуществом является отсутствие предположений относительно нормальности распределения предикторов и ошибок, а недостатком - меньшая мощность критериев. Одни из таких методов используют идею кластерного группирования переменных относительно заданной метрики в пространстве предикторов [5, 7.1.9], другие основаны на ранжировании переменных и используют ранговые коэффициенты корреляции Спирмена и Кендалла [9, 8.5]. Выбор того или иного метода зависит от типа анализируемых переменных и в каждой ситуации решается отдельно.

Дисперсионный анализ (ДА). Предположим, что в уравнении линейной регрессии (8) параметры ? i могут принимать значения только 0 или 1. Тогда мы получим модель, в которой учитывается не степень влияния переменных Хi на Y, а сам факт этого влияния - модель дисперсионного анализа. Переменные Хi в этой модели назывются факторами, Y - откликом. В зависимости от числа факторов различают однофакторный, двухфакторный, мультифакторный виды анализа. Предполагается, что остатки ? i независимы и одинаково распределены по закону N(0,? 2). Второе существенное условие - переменная Y должна быть нормально распределена. Общая идеология ДА заключается в том, чтобы представить общую дисперсию Y в виде суммы дисперсий, обусловленных влиянием факторов Хi и остаточного случайного параметра ? , и, оценивая дисперсионные отношения, определить наличие и степень влияния факторов Хi на Y. Рассмотрим самую простую, и в то же время достаточно распространенную модель однофакторного анализа. Сгруппируем значения Y в k групп, параметризованных значениями фактора Х, обозначим через nj объемы соответствующих групп, через yi,j - i-е значение переменной Y в j-й группе, а yj ср - среднее в j-й группе. Тогда уравнение (8) можно представить в виде yi,j = aj + ? i,j, j=1,..,k, i =1,..,n, где аj - неизвестные константы (генеральные средние по группам), ? i,j независимы с распределением N(0,? 2). Будет проверяться гипотеза Н0: а1=...=аk. Для этого рассмотрим две оценки дисперсии ? 2. Первая имеет вид: ? * 2 = (? ? (yi,j - yj ср)2 )/(n-k). Она не зависит от гипотезы и ассимптотически стремится к ? 2. Вторая оценка получается через разбиение на группы, определяемые значениями фактора: ? ? 2 =(? nj (yj ср - Y ср )2)/(k-1). Она зависит от Н0 и при её нарушении имеет тенденцию к возрастанию. Отношение этих оценок F = ? ? 2 / ? *2 имеет F - распределение с ( k-1, n-k) степенями свободы и не зависит от ? . Таким образом, при наблюдаемом значении F большем, чем соответствующая ? - процентная точка распределения F ( (1- ? ) - квантиль F) гипотеза Н0 отвергается и принимается предположение о влиянии фактора Х на Y. Тогда можно ставить вопрос о доверительных интервалах для аi. Ответ следующий: |yj ср-aj | < ? t1-? /? nj с доверительной вероятностью 1-2? , где t1-? - квантиль уровня (1-? ) распределения Стьюдента с n-k степенями свободы.

Отметим, что выводы ДА о равенстве или неравенстве сj довольно устойчивы даже при нарушении основных предположений о нормальном распределении и равенстве дисперсий остатков ? i,j. Если же распределение переменной Y сильно отличается от нормального, или Y - ординальная переменная, лучше использовать непараметрические критерии связи, такие, как ранговый критерий Фридмана или критерий Пейджа для двухфакторного анализа (см. [8, 7.4.9]), а также ранговые критерии Краскела-Уоллеса и Джонхиера для однофакторного анализа ([8, 6.2]).

Факторный анализ (ФА). Рассмотрим набор нормированных случайных переменных Х1,..,Хk как векторов в n-мерном пространстве V. Задача ФА состоит в том, чтобы представить Хi в виде линейных комбинаций небольшого числа общих факторов Fj , т.е. в виде Хi = ? ai,j Fj + Ei (9), где i= 1,..,k, p < k. Переменные Ei называются ос