Дисперсионный анализ

Вид материалаСеминар

Содержание


1.2Процедура Factorial ANOVA.
On-way ANOVA (однофакторный дисперсионный анализ)
Main effects ANOVA (дисперсионный анализ главный эффектов)
Factorial ANOVA (многофакторный дисперсионный анализ)
Repeat measures ANOVA (дисперсионный анализ с повторениями)
Width, weight
1.3Дисперсионный анализ с повторениями.
Width, catwidth.
Spine, width1
Факторный анализ
Рисунок 1. Поиск первого основного фактора.
Подобный материал:
Материалы семинара по программе Statistika

Дисперсионный анализ

1.1Теоретическая часть.


Данные в дисперсионном анализе представляются в виде таблицы

Фактор

Значения переменной

Группа1

x11

x12



x1n

Группа2

x11






X2n

…………..











Группа m

xm1

xm2



Xmn

Строки и столбцы этой таблицы отображают различные уровни фактора, а в ячейках таблицы расположены значения анализируемого признака (зависимой переменной). Такая таблица называется планом эксперимента. В терминологии факторного анализа группы переменных или категории называют факторами.

Однофакторная дисперсионная модель имеет следующий вид:

,

где xij – значение исследуемой переменной, соответствующей i-й группе (i-му уровню фактора) с j-м порядковым номером (i=1, … ,m; j=1, …, n),

µ – общая средняя,

Fi – эффект, обусловленный влиянием i-го уровня фактора,

εij – случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменных внутри отдельного уровня факторов.

Предположим, что элементы строк таблицы — реализации случайных величин Х1 Х2... ,Хт, имеющих нормальный закон распределения с математическими ожи­даниями ар а2,…, аm и одинаковыми дисперсиями о2 Тогда задача сравнения сред­них в группах сведется к проверке нулевой гипотезы



Обозначим слагаемые в правой части равенства, соответственно Θ1 и Θ2. Получим соотношение. Θ= Θ1 + Θ2 .Здесь Θ – общая, или полная, сумма квадратов отклонений, Θ1 – межгрупповая (факторная) сумма квадратов отклонений, Θ2 – внутригрупповая (остаточная) сумма квадратов отклонений. Полученное равенство показывает, что общая изменчивость признака, измеренная величиной Θ состоит из двух компонент, одна из которых характеризует изменчивость признака между группами (Θ1), вторая — изменчивость внутри групп (Θ2). В дисперсионном анализе используются не сами суммы квадратов отклонений Θ1 и Θ2, а усредненные квадраты отклонений S1, S2 получающиеся делением последних на число степеней свободы.

Число степеней свободы определится как общее число наблюдений минус число связывающих их уравнений.

Для Θ1 число степеней свободы равно l1=m-1, для Θ2 равно l2=m*n-m.

В терминах модуля ANOVA (анализ вариаций или дисперсионный анализ) Θ1 называется эффектом, а Θ2 называют ошибкой.

1.2Процедура Factorial ANOVA.


Используем файл Crabs (крабы) из библиотеки Examples. В файле приведены данные по количеству спутников (SATELLTS) — особей мужского пола у особей женского пола в зависи­мости от их цвета (COLOR), состояния клешней (SPINE), размеров (CATWIDTH, WIDTH - ширина) и веса (WEGHT). Если число спутников больше 0, то переменная Y в первом столбце принимает значение 1, в противном случае - 0. Общее число наблюдений (крабов) равно 173.

On-way ANOVA (однофакторный дисперсионный анализ) позволяет оценить эффект одной группирующей перемен­ной (одного межгруппового фактора) на одну или более зависимых переменных.

Для анализа Main effects ANOVA (дисперсионный анализ главный эффектов) в диалоге Quick Specs Dialog можно задать до четырех категориальных предикторов. Затем программа произведет оценку модели главных эффектов. Данный тип планов часто используется в анализе и планировании промышленных экспериментов для оценки большого набора факторов в сильно раздробленных планах. Также данный тип планов использует­ся при анализе сбалансированных неполных планов.

В отличие от рассмотренных типов анализа, в Factorial ANOVA (многофакторный дисперсионный анализ) учитывается еще один возможный источник изменчивости – взаимодействие факторов. Пла­ны содержат переменные, которые представляют комбинации различных уров­ней двух или более категориальных предикторов. В частности, полные фактор­ные планы представляют все возможные комбинации уровней категориальных предикторов. Полный факторный план с двумя категориальными предикторами A и B, каждый из которых имеет по два уровня, будет являться 2 х 2 полным фак­торным планом. В диалоге Quick Specs Dialog также можно задать до четырех ка­тегориальных предикторов. Данные планы часто используются в анализе и пла­нировании промышленных экспериментов.

В Repeat measures ANOVA (дисперсионный анализ с повторениями) зависимые переменные содержат значения одного фактора повторных измерений. В диалоге Quick Specs Dialog также можно за­дать до четырех категориальных предикторов и две или более зависимые пере­менные, которые будут проинтерпретированы программой как повторные изме­рения одного фактора.

Выберите группирующие переменные COLOR и SPINE, зависимые WIDTH, WEIGHT. Различные цвета и состояния клешней крабов являются межгрупповыми факторами. Если число зависимых переменных – более 1, то программа осуществит многомерный дисперсионный анализ. Чтобы вручную задавать коды для межгрупповых факто­ров, нажмите кнопку Factor Codes (коды факторов). Необязательно коды задавать вручную, так как программа задаст по умолчанию все коды выбранных перемен­ных. Кодами предиктора COLOR являются цвета крабов: medium (серый), lightmed (светло-серый), dark (темный), darkmed (темно-серый). Кодами предиктора SPINE являются состояния клешней крабов: bothgood (обе клешни целые), oneworn (одна клешня повреждена), bоthwоrn (обе клешни повреждены).

- щелкните здесь, чтобы просмотреть презентацию работы в программе Statistika.

1.3Дисперсионный анализ с повторениями.


Предположим, что зависимая переменная CATWIDTH является результатом повторного измерения переменной WIDTH, и рассмотрим дисперсионный анализ с повторными измерениями. На стартовой панели General ANQVA/MANOVA в списке Type of analysis выделите Repeat measures ANOVА; в списке Specification method выберите Quick Specs Dialog. Щелкните no OK, откроется окно диалога ANOVA/MANOVA Repeat measures ANOVA.

На вкладке Quick нажмите кнопку Variables. В появившемся окне выберите группирующие переменные COLOR и SPINE, зависимые WIDTH, CATWIDTH. Если нажать на кнопку ОК, то появятся результаты многомерного дисперсионно-. го анализа без учета повторных измерений, т.е. переменные WIDTH, CATWIDTH будут проинтерпретированы как зависимые переменные. Но, согласно нашему предположению, эти переменные рассматриваются как двухуровневый фактор повторных измерений. Чтобы ввести в программу фактор повторных измерений, нажмите кнопку Within effects (внутригрупповые эффекты). Откроется окно Specify within-subjects factor (задайте фактор повторных измерений). Данная процедура позволяет ввести только один фактор (переменную, много­кратно измеренную).

При необходимости проведения анализа с большим числом факторов необходимо воспользоваться модулем GLM. Число уровней (No. of levels) соответствует количеству повторных измерений. Можно изменить число уровней и задать имя фактора, например, в поле Factor Name введите имя WIDTH1. Нажмите кнопку ОК. При помощи кнопки Factor codes в диалоге ANOVA/MANOVA Repeat measures ANOVA задайте коды уровней категориальных предикторов. Нажмите ОК. Появится уже знакомое нам окно ANOVA Results 1. На вкладке Quick на­жмите кнопку All effects. Из появившейся таблицы Table of All Effects видно, что гипотеза о неравенстве средних верна для эффектов SPINE, WIDTH15COLOR, WIDTH1* SPINE.

- щелкните здесь, чтобы просмотреть презентацию работы в программе Statistika.

Факторный анализ


Главными целями факторного анализа являются сокращение числа перемен­ных (редукция данных) и определение структуры взаимосвязей между перемен­ными, т.е. классификация переменных. Поэтому факторный анализ использу­ется или как метод сокращения данных, или как мегод классификации переменных.

Сокращение достигается путем выделения скрытых общих факторов, объяс­няющих связи между наблюдаемыми признаками (переменными) объекта, т.е. вместо исходного набора переменных появится возможность анализировать дан­ные по выделенным факторам, число которых значительно меньше исходного числа взаимосвязанных переменных.

Совокупность точек, отображающих наблюдения в переменных эксперимента, представляет собой так называемую диаграмму рассеяния. Её центр координат можно изменять посредством преобразования матриц, т.е. с помощью линейных преобразований. Для достижения следующей цели – поиска наилучшего подпространства в общем виде – необхо­димо определить лишь еще одно важное свойство пространств, в которых мы собираемся работать. Это евклидовы пространства, поскольку их базисные векторы являются ортонормированными, т.е. ортогональны и их норма равна единице.

Рисунок 1. Поиск первого основного фактора.



Рисунок 2. Представление связи между критериями минимизации и максимизации.



В основном процедура выделения факторов подобна вращению, максимизи­рующему дисперсию исходного пространства переменных. Исходные переменные могут быть зависимы друг от друга. Если так, то для каждой пары исходных переменных можно найти линию линейной регрессии. Если теперь определить новые координаты пространства, лежащего на найденных линиях регрессии, то общее количество переменных можно сократить на одну переменную, так как она будет связана зависимостью с другими. Вот нам удалось уменьшить число переменных на одну.

Линию регрессии на диаграмме рассеяния можно рассматривать как ось X, повернув эту ось так, чтобы она совпала с прямой регрессии. Этот тип вращения называется враще­нием, максимизирующим дисперсию (варимакс), так как цель вращения заклю­чается в максимизации изменчивости новой переменной (фактора) и минимиза­ции разброса исходных переменных. Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся слож­нее, однако основной принцип представления двух или более зависимых пере­менных одним фактором остается в силе.

Число наблюдаемых объектов может быть большим и взаимосвязи между ними чрезвычайно сложными. Однако наблюдая объект, выдвигаем гипотезу, что существует небольшое число факторов, которые влияют на измеряемые парамет­ры. Естественно желание выделить как можно меньшее число скрытых общих факторов и чтобы выделенные факторы как можно точнее приближали наблю­даемые параметры, описывали связи между ними.

Выделяемые таким образом факторы называют общими, так как они воздейст­вуют на все признаки (параметры) объекта, а не на какой-то один признак или группу признаков. Эти факторы являются гипотетическими, скрытыми, их нельзя измерить непосредственно, однако существуют статистические методы их выделения.

Исходные переменные выражаются через факторы следующим образом:

,

где

ajr – весовой коэффициент j-й переменной на r-м общем факторе;

fri значение r-го общего фактора на i-м объекте исследования;

dj – весовой коэффициент j-й переменной на j-м факторе;

vji – значение j-го характерного фактора на i-м объекте исследования;

j=1,…,n; i=1,…,N; r=1,…,m; m<