Книги по разным темам Pages:     | 1 |   ...   | 16 | 17 | 18 | 19 | 20 |   ...   | 82 |

FI(J) = FI(J)+IK (J). (4.3) Действительно, поскольку вслед за NI(J) I(J) = I(J)+I(J), (4.4) J 132 Глава 4. Введение в анализ связей то FI(J) = I = I (J)+I(J) = (J) I (J) I(J) I (J) I(J) J = I (J)+I (J)= FI(J)+IK (J).

I (J) I(J) I (J) IK(J) Кроме того, fI(J) = fI(J)+I(J)I(J), (4.5) J т.к. I =I(J)I(J).

Действительно:

I(J)+I(J) fI(J)+I(J)I(J) = I(J) = I(J)+I(J) = fI(J).

I(J)I(J) I(J) J J J Крайним случаем предельных распределений являются распределения частот отдельных признаков (см. п. 2.1), которые получаются, если множества J включают лишь один элемент (признак) из j = 1,..., n. Для таких распределений I (J) ij (j).

В частном, но достаточно важном случае при n = 2 частоты распределения обычно представляют в таблице сопряженности, иликорреляционной таблице:

1 i2 k2 Y 1 N11 N1i2 N1k2 N1(1).....

..

.......

..

.....

i1 Ni11 Ni1i2 Ni1k2 Ni1(1).....

..

.......

..

.....

k1 Nk11 Nk1i2 Nk1k2 Nk1(1) Y N1(2) Ni2(2) Nk2(2) N 4.1. Совместные распределения частот количественных признаков В этом случае существует только два маргинальных распределения частот Ч отдельно для 1-го признака (итоговый столбец таблицы сопряженности) и для 2-го признака (итоговая строка). Для частот и других параметров этих распределений удобнее и нагляднее 1-й способ обозначения: вместо Ni1(1) и N12(2) используется, соответственно, Ni1 и Ni2. Этот способ обозначений удобен, если n мало, но описать общий случай, как это сделано выше, с его помощью весьма затруднительно. Формулы (4.3) в случае двух признаков принимают вид (после запятой эти же формулы даются в обозначениях 1-го способа):

Fi1(1) = Fi1k2, Fi1 = Fi1k2;

Fi2(2) = Fk1i2, Fi2 = Fk1i2.

Аналогично, для формул (4.5):

k2 k fi1(1) = fi1i2i2(2), fi1 = fi1i2i2;

i2=1 i2=k1 k fi2(2) = fi1i2i1(1), fi2 = fi1i2i1.

i1=1 i1=Если в таблице сопряженности разместить не частоты, а плотности относительных частот, и на каждой клетке таблицы построить параллелепипед высотой, равной соответствующему значению плотности, то получится трехмерный аналог гистограммы, который иногда называют стереограммой. Ее верхнюю поверхность называют поверхностью двухмерного распределения.

Если предположить, что N, k1, k2, допуская при этом, что z01, z02 -,а zk11, zk22,то f и F станут гладкими функциями f(x1, x2) и F (x1, x2), соответственно, распределения плотности вероятности и распределения вероятности. Это Ч теоретические функции распределения. Формулы (4.1Ц4.3, 4.5) записываются для них следующим образом:

f (x1, x2) dx1dx2 =1, - x1 x F (x1, x2) = f x, x dx dx, 1 2 1 - F (x1) =F (x1, ), F (x2) =F (, x2), f (x1) = f (x1, x2) dx2, f (x2) = f (x1, x2) dx1.

- 134 Глава 4. Введение в анализ связей Легко представить возможные обобщения таблицы сопряженности на случай n > 2. Ее аналогом является n-мерный прямоугольный параллелепипед, в итоговых гранях которого (в таблице сопряженности таких граней две Ч итоговые столбец и строка) даны все возможные маргинальные распределения частот. Итоговые грани Ч крайние, предельные, маргинальные части параллелепипеда. Это дает еще одно объяснение используемому термину Ч маргинальные распределения.

Исходное распределение и любое маргинальное распределение частот строятся по всей совокупности. Однако важное значение имеют и распределения, построенные по отдельным частям выборки. Так, наряду с рассмотренным распределением частот признаков J по группам класса J, можно говорить о распределении частот признаков J (всех оставшихся признаков) по конечным группам в каждой отдельной группе класса J. Это Ч условные распределения частот. Они показывают распределения частот признаков J при условии, что все остальные признаки J зафиксированы на определенных уровнях I(J). В таблице сопряженности таковыми являются распределения 1-го признака в каждом отдельном столбце, если J =2, и распределения 2-го признака в каждой отдельной строке, если J =1.

NI(J)+I(J) I(J) | I(J) = Ч относительные частоты условного распределения NI(J) признаков J по I(J). Если числитель и знаменатель правой части этой формулы поделить на N, то получится I(J)+I(J) I(J) | I(J) = или I(J) I(J) | I(J)I(J) = I(J)+I(J). (4.6) I(J) | I(J) fI(J) | I(J) = Ч плотности относительных частот условного распре I(J) деления. Если левую часть равенства (4.6) разделить на I(J)I(J), а правуюЧ на I (оба этих делителя, как отмечено выше, равны), то получится аналогичное (4.6) равенство для плотностей:

fI(J) | I(J)fI(J) = fI(J)+I(J). (4.7) В случае двух признаков и при использовании 1-го способа индексации:

Ni1i2 1 Ni1i2 fi1 | i2 =, fi2 | i1 =, Ni2 i1 Ni1 ii1 и i2Ч результат использования первого способа индексации для i1(1) и i2(2);

fi1 | i2fi2 = fi1i2, fi2 | i1fi1 = fi1i2.

4.1. Совместные распределения частот количественных признаков В результате объединения двух последних равенств и перехода к непрерывному случаю получаются известные формулы математической статистики об условных распределениях:

f (x1 | x2) f (x2) =f (x1, x2) =f (x2 | x1) f (x1), из которых, в частности, следует тождество теоремы Байеса:

f (x1 | x2) f (x2) =f (x2 | x1) f (x1).

Далее, по определению, FI(J) | I(J) = I (J) | I(J) I (J) I(J) Ч накопленные относительные частоты условного распределения. Правую часть этого равенства можно преобразовать:

NI(J)+I (J) N NI(J)+I (J) FI(J)+I(J) FI(J) | I(J) = = =, NI(J) NI(J) I (J) I(J) N FI(J) I (J) I(J) т.е. для накопленных относительных частот получается соотношение такое же, как и для плотностей относительных частот f :

FI(J) | I(J)FI(J) = FI(J)+I(J). (4.8) В непрерывном случае для двух признаков:

F (x1 | x2)F (x2) =F (x1, x2) =F (x2 | x1)F (x1), F (x1 | x2)F (x2) =F (x2 | x1)F (x1).

Количество параметров относительной частоты (также как и плотности относительной частоты и накопленной относительной частоты) I(J) | I(J) условного распределения признаков J по I(J) равно KJ = kj Ч числу всех возмож J ных сочетаний уровней признаков J. Таких условных распределений признаков J имеется KJ Ч для каждого возможного сочетания уровней факторов J. Так, при n = 2 в таблице сопряженности структура каждого столбца (результат деления элементов столбца на итоговый Ч сумму элементов) показывает относительные частоты условного распределения 1-го признака по уровням 2-го признака (если J =2). Количество параметров относительной частоты каждого такого условного 136 Глава 4. Введение в анализ связей распределения Ч k1, а число столбцов Ч условных распределений Ч k2. Аналогично Ч для строк таблицы сопряженности (если J =1).

Маргинальное распределение признаков J может быть получено из этой совокупности условных распределений (для плотностей относительных частот):

fI(J) = fI(J) | I(J)I(J) (4.9) J или fI(J) = fI(J) | I(J)fI(J)I(J).

J Действительно, в соответствии с (4.5) fI(J) = fI(J)+I(J)I(J), J а, учитывая (4.7), fI(J)+I(J)I(J) = fI(J) | I(J)I(J).

J J Соотношение, аналогичное (4.9), выполняется и для самих относительных частот:

I(J) = I(J) | I(J)I(J) (4.10) J (оно получается умножением обеих частей соотношения (4.9) на I(J)), а вследза ним и для накопленных относительных частот:

FI(J) = FI(J) | I(J)I(J). (4.11) J Такая связь условных и маргинального распределений наглядно иллюстрируется таблицей сопряженности (для относительных частот). Очевидно, что средневзвешенный, по весам итоговой строки, вектор структур столбцов этой матрицы алгебраически есть вектор структуры итогового столбца. Аналогично Ч для строк этой матрицы (для условных и маргинального распределений 2-го признака).

В непрерывном случае при n =2 соотношение (4.9) имеет вид:

f (x1) = f (x1 | x2) f (x2) dx2, f (x2) = f (x2 | x1) f (x1) dx1.

- 4.1. Совместные распределения частот количественных признаков Если итоговые грани n-мерного прямоугольного параллелепипеда параметров распределения (обобщения таблицы сопряженности), как отмечалось выше, дают все возможные маргинальные распределения, то ортогональные срезы этого параллелепипеда (как строки и столбцы таблицы сопряженности) представляют все возможные условные распределения.

Условные распределения, сопоставляющие в определенном смысле вариации признаков двух разных групп J и J, используются в анализе связей между этими двумя группами признаков. При этом чрезвычайно важно понимать следующее.

Речь в данном случае не идет об анализе причинно-следственных связей, хотя фор мально изучается поведение признаков J при условии, что признаки J принимают разные значения, т.е. признаки J выступают как бы причиной, а признаки J Ч следствием. Направление влияния в таком анализе не может быть определено.

Это Ч предмет более тонких и сложных методов анализа. Более того, содержательно признаки этих групп могут быть не связаны, но, если они одновременно зависят от каких-то других общих факторов, то в таком анализе связь между ними может проявиться. Такие связи в статистике называют ложными корреляциями (или ложными регрессиями). Поэтому всегда желательно, чтобы формальному анализу зависимостей предшествовал содержательный, в котором были бы сформулированы теоретические гипотезы и построены теоретические модели. А результаты формального анализа использовались бы для проверки этих гипотез. То есть из двух задач статистического анализа связей, сформулированных в преамбуле к этому разделу, предпочтительней постановка второй задачи.

Если признаки двух множеств J и J не зависят друг от друга, то очевид но, что условные распределения признаков J не должны меняться при изменении уровней признаков J. Верно и обратное: если условные распределения признаков J одинаковы для всех уровней I(J), то признаки двух множеств J и J не зависят друг от друга. Таким образом, необходимым и достаточным условием независи мости признаков двух множеств J и J является неизменность совместных рас пределений признаков J при вариации уровней признаков J. Это условие можно сформулировать и в симметричной форме: неизменность совместных распределе ний признаков J при вариации уровней признаков J.

Для таблицы сопряженности это условие означает, что структуры всех ее столбцов одинаковы. Одинаковы и структуры всех ее строк.

Итак, в случае независимости данных множеств признаков относительные частоты I(J) | I(J) не зависят от I(J) и их можно обозначить через I(J). Тогд а из соотношения (4.10) следует, что относительные частоты этого распределения совпадают с относительными частотами соответствующего маргинального распре деления: I(J) = I(J), т.к. I(J) =1, и соотношения (4.6) приобретают вид:

J I(J)I(J) = I(J)+I(J). (4.12) 138 Глава 4. Введение в анализ связей В случае двух признаков при использовании первого способа индексации:

i1i2 = i1i2.

Не сложно убедиться в том, что аналогичные соотношения в случае независимости признаков выполняются и для f и F :

fI(J)fI(J) = fI(J)+I(J), (4.13) fi1fi2 = fi1i2, а в непрерывном случае: f(x1)f(x2) =f(x1, x2), FI(J)FI(J) = FI(J)+I(J). (4.14) Fi1Fi2 = Fi1i2, F (x1)F (x2) =F (x1, x2).

юбое из соотношений (4.12), (4.13), (4.14) является необходимым и достаточ ным условием независимости признаков J и J. Необходимость следует из самого вывода этих соотношений. Достаточность легко показать, например, для (4.12).

Так, если выполняется (4.12), то в соответствии с (4.4):

I(J)+I(J) I(J)I(J) I(J) | I(J) = = = I(J), I(J) I(J) т.е. условные распределения признаков J не зависят от уровней, которые занима ют признаки J, а это означает, что признаки J и J не зависят друг от друга.

Можно доказать, что из независимости признаков J и J следует взаимная независимость признаков любого подмножества J с признаками любого подмножества J.

Пусть J = J1 + J2, тогда соотношение (4.12) можно переписать в форме:

I(J)I(J1)+I(J2) = I(J1)+I(J2)+I(J), и, просуммировав обе части этого выражения по J2 (т.е., в соответствии с введен ной операцией, Ч по всем уровням признаков J2), получить следующее:

J (4.4) (4.12) (4.4) I(J)I(J1) = I(J)I(J1)+I(J2) = I(J1)+I(J2)+I(J) = I(J1)+I(J), J2 Jт.е. I(J)I(J1) = I(J1)+I(J), (4.15) что означает независимость признаков J и J1 в рамках маргинального распреде ления признаков J + J1.

Пусть теперь J = J1 + J2. После проведения аналогичных операций с (4.15) (в частности операции суммирования по J2) получается соотношение 4.1. Совместные распределения частот количественных признаков I(J1)I(J1) = I(J1)+I(J1), что означает независимость признаков J1 и J1 в рам ках маргинального распределения J1 + J1. Что и требовалось доказать, т.к. J и J1 Ч любые подмножества J и J.

Пока речь шла о независимости двух множеств признаков. Точно так же можно говорить и о независимости трех множеств.

Пусть G = J + J1 + J2, гд е J = J1 + J2. Необходимым и достаточным условием взаимной независимости этих трех множеств признаков является следующее равенство:

I(J)I(J1)I(J2) = I(J1)+I(J2)+I(J). (4.16) Это соотношение получается, если в левой части (4.12) вместо I(J) записать I(J1)I(J2), т.к. I(J1)I(J2) = I(J1)+I(J2) I(J) Ч известное условие независимости двух множеств признаков в рамках маргинального распределения признаков J.

Необходимым и достаточным условием взаимной независимости всех признаков, входящих в множество J служит следующее соотношение:

I = ij(j). (4.17) J Это соотношение Ч результат завершения процесса дробления множеств признаков, который начат переходом от (4.12) к (4.16).

Соотношения (4.12Ц4.14, 4.16Ц4.17) являются теоретическими. Оцененные по выборочной совокупности параметры совместных распределений, даже если соответствующие множества признаков независимы друг от друга, не могут обеспечить точное выполнение этих соотношений, поскольку они (параметры эмпирических распределений) являются случайными величинами. Критерий независимости строится как определенный показатель (статистика), характеризующий степень нарушения равенств в указанных соотношениях. Использование этого критерия осуществляется как проверка статистической гипотезы (нулевая гипотеза: признаки данных групп не зависимы), логика которой описана в конце пункта 2.4. Данный критерий входит в группу критериев согласия и называется критерием Пирсона, или 2 (критерием хи-квадрат).

c Показатели (статистики) этого критерия Ч 2 (лc Ч calculated, lЧкоl личество множеств признаков),Ч называемые иногда выборочными среднеквадратическими сопряженностями признаков, рассчитываются на основе (4.12), (4.16), (4.17) следующим образом:

I(J)+I(J) - I(J)I(J) c 2 = N, I(J)I(J) J,J 140 Глава 4. Введение в анализ связей I(J1)+I(J2)+I(J) - I(J)I(J1)I(J2) c 2 = N, I(J)I(J1)I(J2) J1,J2,J I - ij(j) c J 2 = N.

Pages:     | 1 |   ...   | 16 | 17 | 18 | 19 | 20 |   ...   | 82 |    Книги по разным темам