Предисловие к русскому изданию постижение через сопряжение

Вид материалаДокументы

Содержание


Глава 4. связь и независимость в многомерных таблицах
4.2. Обозначения для таблицы с тремя входами
4.3. Взаимная независимость
4.4. Условная независимость
4.5. Одновременная независимость с от
4.6. Парадокс симпсона
4.7. Истолкование и определение взаимодействий трех факторов
4.8. Анализ связей в многовходовых таблицах
Подобный материал:
1   ...   4   5   6   7   8   9   10   11   ...   15
ГЛАВА 4. СВЯЗЬ И НЕЗАВИСИМОСТЬ В МНОГОМЕРНЫХ ТАБЛИЦАХ

4.1. ВВЕДЕНИЕ

В этой главе мы распространим наше исследование на задачи, которые возникают при включении в перекрестную классификацию более двух факторов. Сначала введем обозначения для общего случая, а затем приступим к анализу различных путей, какими можно продемонстрировать независимость в многомерных таблицах. Остановимся и на некоторых парадоксальных ситуациях, которые могут возникнуть.

Для простоты будем исследовать случай таблицы с тремя входами, задаваемыми переменными А, В и С, с I, J и К категориями соответственно. А для I, J и K ограничимся примерами, в которых все они равны двум.

4.2. ОБОЗНАЧЕНИЯ ДЛЯ ТАБЛИЦЫ С ТРЕМЯ ВХОДАМИ

Наши данные представляют собой наблюдаемые частоты, объединенные в I X J X К ячейках. Мы пишем fijk для наблюдаемой частоты в ячейке (i ,j,К), которая принадлежит строке I, столбцу jи

[40]

слою k, в таблице с тремя входами. А соответствующую вероятность для отдельного наблюдения, выбранного из совокупности случайно, оказаться в этой ячейке обозначим pijk.

Теперь появились два класса условных сумм. Первый-условные суммы по переменным, которые представляют собой итоги по строкам, столбцам или слоям, например,

(4.1)

с соответствующими условными вероятностями p0jk. Второй класс - условные суммы, представляющие полные срезы таблицы с тремя входами, например,

(4.2)

c вероятностью р00k.

 

 

 


Т а б л и ц а 4.1. Фиктивный набор данных, демонстрирующих взаимную независимость А, В к С

 

C1

C2

B1

B2

Всего

B1

B2

Всего

A1

A2

6

4

18

12

24

16

9

6

27

18

36

24

Всего

10

30

40

15

45

60

Рассмотрим эти фиктивные данные из табл. 4.1. Здесь есть четыре условных итога для переменной В. Вот они: f101=24, f201=16, f102=36, f202=24.. Существуют два двухфакторных условных итога для переменной С, которые равны: f001=40 иf002=60. Соответственные двухфакторные суммы для А видны гораздо лучше при другом способе представления данных, показанном в табл. 4.2, где сразу видно, что f100=60, аf200=40.

Т а б л и ц а 4.2.Иное представление табл. 4.1




А1

А2

В1

В2

Всего

В1

В2

Всего

С1

С2

6

9

18

27

24

36

4

6

12

18

16

24

Всего

15

45

60

10

30

40

[41]

 

4.3. ВЗАИМНАЯ НЕЗАВИСИМОСТЬ A, BИ С

Для таблиц сопряженности с двумя входами определение независимости дается соотношением (3.1). Теперь мы его обобщим естественным образом на случай трех переменных. Это дает:

(4.3)

Если соотношение (4.3) выполняется для вероятностей всех ячеек, то о переменных А, В и С говорят, что они взаимно независимы.

Пример 4.2

Данные из табл. 4.1 (и, конечно, 4.2) точно удовлетворяют соотношениям (4.3). Например, и . Оценки наибольшего правдоподобия для соответствующих вероятностей равны: и аналогично , а Следовательно, из соотношения (4.3) мы получим, что совпадает с


4.4. УСЛОВНАЯ НЕЗАВИСИМОСТЬ

Если мы возьмем двухфакторное сечение трехмерной таблицы, то получится одна из обычных таблиц с двумя входами, такая же, как те, что мы рассматривали в предыдущей главе. Прилагая к такому срезу двухфакторное определение независимости из (3.1), мы обнаружим соотношение:

(4.4)

Когда факторы удовлетворяют соотношению (4.4), мы говорим, что А и В условно независимы друг от друга при заданном значении С.

Когда же А, В и С взаимно независимы, то, понятно, автоматиче-ски выполняется и соотношение (4.4), и любое подобное соотношение для других пар факторов.

Пример 4.3

Т а б л и ц а 4.3. Данные, демонстрирующие условную независимость

 

C1

C2

В1

В2

Всего

В1

В2

Всего

А1

А2

15

15

5

5

20

20

28

42

12

18

40

60

Всего

30

10

40

70

30

100

В табл. 4.3 представлено некоторое множество данных, в которых А и В явно независимы для каждой из категорий переменной С. В левой подтаблице приведена категория С1, а в правой - С2. В левой

[42]

 

Т а б л и ц а 4.4.Перестройка данных табл. 4.3

 

B1

B2

C1

C2

Всего

C1

C2

Всего

А1

А2

15

15

28

42

43

57

5

5

12

18

60

80

Всего

30

70

100

10

30

140

подтаблице независимость бросается в глаза, а в правой она проявля-ется, если заметить, что 40 X 70/100 = 28.

Другой способ удостовериться в независимости связан с вычислением отношения преобладаний. Для С1 таблица дает = (15 Х 5) / (15 X 5) = 1,0, а для С2 -= (28 х 18)/(42 х 12) = 1,0. Значение 1,0 и отвечает, конечно, случаю независимости.

Табл. 4.4, которая представляет из себя просто иной способ представления данных табл. 4.3, иллюстрирует тот факт, что А или В могут быть независимыми между собой, но не независимыми от С. Обе подтаблицы имеют одинаковую структуру, но это отнюдь не структура независимости. Отношения предпочтений в обоих случаях равны 1,5, а вовсе не 1,0.

Т а б л и ц а 4.5.<Сжатие> табл. 4.3 по ответу С


 

B1

B2

Всего

А1

А2

43

57

17

23

60

80

Всего

100

40

140
Точно так же подтаблицы для В против С, разделяющие уровни переменной А, имеют одинаковые отношения предпочтений, равные 9/7.

Один из упомянутых ранее <парадоксов> демонстрирует табл. 4.5, где показано, что случится, если игнорировать С и совместить подтаблицы, образующие табл. 4.3. Несмотря на то что А и В были независимы на любом уровне С, теперь они уже далеко не независимы, как видно из табл. 4.5.

Она иллюстрирует чрезвычайно важный момент: в обычной исследовательской практике распространено сжатие многомерных данных в ряд таблиц с двумя входами, что, как видно, вполне может привести исследователей к ложным выводам.

4.5. ОДНОВРЕМЕННАЯ НЕЗАВИСИМОСТЬ С ОТ А И В

Если у двух переменных, скажем А и В, одинаковые структуры связей с третьей переменной С, то, естественно, переменная С не оказывает воздействия на структуру связи между А и В и мы говорим, что С независимо от (АВ). Алгебраически это выглядит так:

(4.5)

[43]

Пример 4.4

Данные, представленные в табл. 4.6, прекрасно согласуются с уравнением (4.5).

Т а б л и ц а 4.6. Данные, демонстрирующие одновременную независимость

 

C1

C2

 

В1

В2

Всего

В1

В2

Всего

А1

А2

6

4

10

20

16

24

9

6

15

30

24

36

Всего

10

30

40

15

45

60

Этим данным присуща строгая связь между переменными А и В для каждой категории С. Поскольку связь в обеих подтаблицах по форме одинакова - числа в правой подтаблице в полтора раза больше своих аналогов из левой части,-мы можем констатировать, что С независимо от (АВ). Отношение преобладаний в каждой подтаблице равно 3,0.

4.6. ПАРАДОКС СИМПСОНА

В параграфе 4.4 мы были свидетелями <замечательных> вещей, которые могут случиться, если многомерную таблицу сжать по категориям какой-нибудь одной переменной. Наиболее впечатляющие возможности такого рода были впервые отмечены Симпсоном [Simpson E.H., 1951]. Потом они обсуждались Берчем [Birch М. W., 1963] и Блайтом [Blyth С. R., 1972]. Иллюстрацией служит табл. 4.7.

Т а б л и ц а 4.7. Иллюстрация парадокса Симпсона

 

C1

C2

 

В1

В2

Всего

В1

В2

Всего

А1

А2

95

5

800

100

895

105

400

400

5

195

405

595

 

Всего

100

900

1000

800

200

1000

В левой подтаблице табл. 4.7 переменные А и В имеют положительную связь с отношением преобладаний (95 X 100)/(800 Х 5) = 19/8, что существенно больше, чем единица, говорящая о незави-

[44]

симости. В правой подтаблице связь, еще более резко выраженная, положительная с отношением преобладаний, равным 19,0. Объединение этих двух таблиц, исключающее из трехмерной таблицы категории фактора С, дает табл. 4.8.

Т а б л и ц а 4.8.Сжатый вариант табл. 4.7


 

В1

В2

Всего

А1

А2

495

405

805

295

1300

700

Всего

900

1100

2000
Как видно из табл. 4.8, связь между А и В теперь отрицательная (отношение преобладаний = (495 Х 295)/ (805 + 405) = 0,45, что существенно меньше, чем 1), тогда как обе исходные таблицы демонстрировали положительную связь!

4.7. ИСТОЛКОВАНИЕ И ОПРЕДЕЛЕНИЕ ВЗАИМОДЕЙСТВИЙ ТРЕХ ФАКТОРОВ

Данные предыдущего примера были, конечно, вымышленными. В реальной практике мы должны ожидать случайных отклонений, которые будут затуманивать картину. Однако нетрудно обнаружить, что такого рода соотношения имеют место для вероятностей некоторых ячеек. Поучительно то, что они предполагают равенства отношений преобладания в подтаблицах. Так, для таблицы 2 Х 2 Х 2 мы должны иметь:

(4.6)

Когда в (4.6) достигается равенство, мы, понятно, попадаем в весьма частную ситуацию и гораздо более естественно ожидать как раз неравенства этих отношений преобладания. Иначе говоря, как правило, надо ожидать, что отношение двух отношений преобладаний не будет равно единице, с которой связан частный случай, описанный в примере 4.4.

Мы видим, что получается иерархическая система: сначала преобладания, затем отношения преобладаний и, наконец, отношение отношений преобладаний. Рассмотрение этой структуры привело Бартлета [Bartlett M.S., 1935] к предположению, что отношение двух сторон равенства (4.6) дает основу для определения взаимодействия второго порядка или трехфакторного взаимодействия.

Рой и Кастенбаум [Roy S.N., Kastenbaum M.A.,1956] обобщили результат Бартлета на случай таблиц I Х J Х К следующим образом. Между тремя факторами A, В и С нет трехфакторного взаимодействия, если и только если

(4.7)

при I = 1,2,:, (I - 1), j = 1,2,:, (J - 1) и k = 1,2,:, (K - 1).

 

[45]

4.8. АНАЛИЗ СВЯЗЕЙ В МНОГОВХОДОВЫХ ТАБЛИЦАХ

Задачи исследователей, сталкивающихся с трехмерным расположением ячеек с частотами, можно легко формализовать. Как мы показали, <обычные> методы, вроде сведения к последовательности двумерных задач, могут вести к курьезам из-за нарушения структуры данных, результатом чего вполне могут быть и ложные выводы.

Мы не только вынуждены заботиться о <простых> связях, существующих между парами переменных, но должны считаться и с возможностью связей более сложных, многомерных. В примере 4.3 показана ситуация, в которой существуют связи АС и ВС, но нет связи А В, как и трехфакторного взаимодействия ЛВС. А в примере 4.4 есть только взаимодействие между А и В.

Гудмен [Goodman L.A., 1969] рассматривал методы разбиения X2-статистики для проверки качества (которую можно использовать и обычным способом, основываясь на соотношении (4.3)). Однако в своих дальнейших работах [1970, 1971 а] он превратил логарифмически-линейную модель в средство практического анализа, которое вытеснило большинство старых методов. Мы приступим к изучению этих новых методов в следующей главе.

За подробностями выявления независимости в таблицах с четырьмя входами и еще более сложных можно обратиться к работе Кастенбаума [Kastenbaum M.A., 1974].