Предисловие к русскому изданию постижение через сопряжение
Вид материала | Документы |
- Содержание: Предисловие к русскому изданию, 4891.77kb.
- Предисловие к русскому изданию, 304.63kb.
- Предисловие к русскому изданию, 2977.53kb.
- Хейне П. Предисловие к русскому изданию, 9465.34kb.
- Предисловие к русскому изданию, 23302.08kb.
- Предисловие к русскому изданию, 3882.25kb.
- Предисловие к русскому изданию, 7003.78kb.
- За пределами мозга предисловие к русскому изданию, 6134.84kb.
- Предисловие к новому изданию, 3293.79kb.
- Электронная библиотека студента Православного Гуманитарного Университета, 3857.93kb.
4.1. ВВЕДЕНИЕ
В этой главе мы распространим наше исследование на задачи, которые возникают при включении в перекрестную классификацию более двух факторов. Сначала введем обозначения для общего случая, а затем приступим к анализу различных путей, какими можно продемонстрировать независимость в многомерных таблицах. Остановимся и на некоторых парадоксальных ситуациях, которые могут возникнуть.
Для простоты будем исследовать случай таблицы с тремя входами, задаваемыми переменными А, В и С, с I, J и К категориями соответственно. А для I, J и K ограничимся примерами, в которых все они равны двум.
4.2. ОБОЗНАЧЕНИЯ ДЛЯ ТАБЛИЦЫ С ТРЕМЯ ВХОДАМИ
Наши данные представляют собой наблюдаемые частоты, объединенные в I X J X К ячейках. Мы пишем fijk для наблюдаемой частоты в ячейке (i ,j,К), которая принадлежит строке I, столбцу jи
[40]
слою k, в таблице с тремя входами. А соответствующую вероятность для отдельного наблюдения, выбранного из совокупности случайно, оказаться в этой ячейке обозначим pijk.
Теперь появились два класса условных сумм. Первый-условные суммы по переменным, которые представляют собой итоги по строкам, столбцам или слоям, например,
(4.1)
с соответствующими условными вероятностями p0jk. Второй класс - условные суммы, представляющие полные срезы таблицы с тремя входами, например,
(4.2)
c вероятностью р00k.
Т а б л и ц а 4.1. Фиктивный набор данных, демонстрирующих взаимную независимость А, В к С
| C1 | C2 | ||||
B1 | B2 | Всего | B1 | B2 | Всего | |
A1 A2 | 6 4 | 18 12 | 24 16 | 9 6 | 27 18 | 36 24 |
Всего | 10 | 30 | 40 | 15 | 45 | 60 |
Рассмотрим эти фиктивные данные из табл. 4.1. Здесь есть четыре условных итога для переменной В. Вот они: f101=24, f201=16, f102=36, f202=24.. Существуют два двухфакторных условных итога для переменной С, которые равны: f001=40 иf002=60. Соответственные двухфакторные суммы для А видны гораздо лучше при другом способе представления данных, показанном в табл. 4.2, где сразу видно, что f100=60, аf200=40.
Т а б л и ц а 4.2.Иное представление табл. 4.1
| А1 | А2 | ||||
В1 | В2 | Всего | В1 | В2 | Всего | |
С1 С2 | 6 9 | 18 27 | 24 36 | 4 6 | 12 18 | 16 24 |
Всего | 15 | 45 | 60 | 10 | 30 | 40 |
[41]
4.3. ВЗАИМНАЯ НЕЗАВИСИМОСТЬ A, BИ С
Для таблиц сопряженности с двумя входами определение независимости дается соотношением (3.1). Теперь мы его обобщим естественным образом на случай трех переменных. Это дает:
(4.3)
Если соотношение (4.3) выполняется для вероятностей всех ячеек, то о переменных А, В и С говорят, что они взаимно независимы.
Пример 4.2
Данные из табл. 4.1 (и, конечно, 4.2) точно удовлетворяют соотношениям (4.3). Например, и . Оценки наибольшего правдоподобия для соответствующих вероятностей равны: и аналогично , а Следовательно, из соотношения (4.3) мы получим, что совпадает с
4.4. УСЛОВНАЯ НЕЗАВИСИМОСТЬ
Если мы возьмем двухфакторное сечение трехмерной таблицы, то получится одна из обычных таблиц с двумя входами, такая же, как те, что мы рассматривали в предыдущей главе. Прилагая к такому срезу двухфакторное определение независимости из (3.1), мы обнаружим соотношение:
(4.4)
Когда факторы удовлетворяют соотношению (4.4), мы говорим, что А и В условно независимы друг от друга при заданном значении С.
Когда же А, В и С взаимно независимы, то, понятно, автоматиче-ски выполняется и соотношение (4.4), и любое подобное соотношение для других пар факторов.
Пример 4.3
Т а б л и ц а 4.3. Данные, демонстрирующие условную независимость
| C1 | C2 | ||||
В1 | В2 | Всего | В1 | В2 | Всего | |
А1 А2 | 15 15 | 5 5 | 20 20 | 28 42 | 12 18 | 40 60 |
Всего | 30 | 10 | 40 | 70 | 30 | 100 |
В табл. 4.3 представлено некоторое множество данных, в которых А и В явно независимы для каждой из категорий переменной С. В левой подтаблице приведена категория С1, а в правой - С2. В левой
[42]
Т а б л и ц а 4.4.Перестройка данных табл. 4.3
| B1 | B2 | ||||
C1 | C2 | Всего | C1 | C2 | Всего | |
А1 А2 | 15 15 | 28 42 | 43 57 | 5 5 | 12 18 | 60 80 |
Всего | 30 | 70 | 100 | 10 | 30 | 140 |
подтаблице независимость бросается в глаза, а в правой она проявля-ется, если заметить, что 40 X 70/100 = 28.
Другой способ удостовериться в независимости связан с вычислением отношения преобладаний. Для С1 таблица дает = (15 Х 5) / (15 X 5) = 1,0, а для С2 -= (28 х 18)/(42 х 12) = 1,0. Значение 1,0 и отвечает, конечно, случаю независимости.
Табл. 4.4, которая представляет из себя просто иной способ представления данных табл. 4.3, иллюстрирует тот факт, что А или В могут быть независимыми между собой, но не независимыми от С. Обе подтаблицы имеют одинаковую структуру, но это отнюдь не структура независимости. Отношения предпочтений в обоих случаях равны 1,5, а вовсе не 1,0.
Т а б л и ц а 4.5.<Сжатие> табл. 4.3 по ответу С
| B1 | B2 | Всего |
А1 А2 | 43 57 | 17 23 | 60 80 |
Всего | 100 | 40 | 140 |
Один из упомянутых ранее <парадоксов> демонстрирует табл. 4.5, где показано, что случится, если игнорировать С и совместить подтаблицы, образующие табл. 4.3. Несмотря на то что А и В были независимы на любом уровне С, теперь они уже далеко не независимы, как видно из табл. 4.5.
Она иллюстрирует чрезвычайно важный момент: в обычной исследовательской практике распространено сжатие многомерных данных в ряд таблиц с двумя входами, что, как видно, вполне может привести исследователей к ложным выводам.
4.5. ОДНОВРЕМЕННАЯ НЕЗАВИСИМОСТЬ С ОТ А И В
Если у двух переменных, скажем А и В, одинаковые структуры связей с третьей переменной С, то, естественно, переменная С не оказывает воздействия на структуру связи между А и В и мы говорим, что С независимо от (АВ). Алгебраически это выглядит так:
(4.5)
[43]
Пример 4.4
Данные, представленные в табл. 4.6, прекрасно согласуются с уравнением (4.5).
Т а б л и ц а 4.6. Данные, демонстрирующие одновременную независимость
| C1 | C2 | ||||
| В1 | В2 | Всего | В1 | В2 | Всего |
А1 А2 | 6 4 | 10 20 | 16 24 | 9 6 | 15 30 | 24 36 |
Всего | 10 | 30 | 40 | 15 | 45 | 60 |
Этим данным присуща строгая связь между переменными А и В для каждой категории С. Поскольку связь в обеих подтаблицах по форме одинакова - числа в правой подтаблице в полтора раза больше своих аналогов из левой части,-мы можем констатировать, что С независимо от (АВ). Отношение преобладаний в каждой подтаблице равно 3,0.
4.6. ПАРАДОКС СИМПСОНА
В параграфе 4.4 мы были свидетелями <замечательных> вещей, которые могут случиться, если многомерную таблицу сжать по категориям какой-нибудь одной переменной. Наиболее впечатляющие возможности такого рода были впервые отмечены Симпсоном [Simpson E.H., 1951]. Потом они обсуждались Берчем [Birch М. W., 1963] и Блайтом [Blyth С. R., 1972]. Иллюстрацией служит табл. 4.7.
Т а б л и ц а 4.7. Иллюстрация парадокса Симпсона
| C1 | C2 | ||||
| В1 | В2 | Всего | В1 | В2 | Всего |
А1 А2 | 95 5 | 800 100 | 895 105 | 400 400 | 5 195 | 405 595 |
Всего | 100 | 900 | 1000 | 800 | 200 | 1000 |
В левой подтаблице табл. 4.7 переменные А и В имеют положительную связь с отношением преобладаний (95 X 100)/(800 Х 5) = 19/8, что существенно больше, чем единица, говорящая о незави-
[44]
симости. В правой подтаблице связь, еще более резко выраженная, положительная с отношением преобладаний, равным 19,0. Объединение этих двух таблиц, исключающее из трехмерной таблицы категории фактора С, дает табл. 4.8.
Т а б л и ц а 4.8.Сжатый вариант табл. 4.7
| В1 | В2 | Всего |
А1 А2 | 495 405 | 805 295 | 1300 700 |
Всего | 900 | 1100 | 2000 |
4.7. ИСТОЛКОВАНИЕ И ОПРЕДЕЛЕНИЕ ВЗАИМОДЕЙСТВИЙ ТРЕХ ФАКТОРОВ
Данные предыдущего примера были, конечно, вымышленными. В реальной практике мы должны ожидать случайных отклонений, которые будут затуманивать картину. Однако нетрудно обнаружить, что такого рода соотношения имеют место для вероятностей некоторых ячеек. Поучительно то, что они предполагают равенства отношений преобладания в подтаблицах. Так, для таблицы 2 Х 2 Х 2 мы должны иметь:
(4.6)
Когда в (4.6) достигается равенство, мы, понятно, попадаем в весьма частную ситуацию и гораздо более естественно ожидать как раз неравенства этих отношений преобладания. Иначе говоря, как правило, надо ожидать, что отношение двух отношений преобладаний не будет равно единице, с которой связан частный случай, описанный в примере 4.4.
Мы видим, что получается иерархическая система: сначала преобладания, затем отношения преобладаний и, наконец, отношение отношений преобладаний. Рассмотрение этой структуры привело Бартлета [Bartlett M.S., 1935] к предположению, что отношение двух сторон равенства (4.6) дает основу для определения взаимодействия второго порядка или трехфакторного взаимодействия.
Рой и Кастенбаум [Roy S.N., Kastenbaum M.A.,1956] обобщили результат Бартлета на случай таблиц I Х J Х К следующим образом. Между тремя факторами A, В и С нет трехфакторного взаимодействия, если и только если
(4.7)
при I = 1,2,:, (I - 1), j = 1,2,:, (J - 1) и k = 1,2,:, (K - 1).
[45]
4.8. АНАЛИЗ СВЯЗЕЙ В МНОГОВХОДОВЫХ ТАБЛИЦАХ
Задачи исследователей, сталкивающихся с трехмерным расположением ячеек с частотами, можно легко формализовать. Как мы показали, <обычные> методы, вроде сведения к последовательности двумерных задач, могут вести к курьезам из-за нарушения структуры данных, результатом чего вполне могут быть и ложные выводы.
Мы не только вынуждены заботиться о <простых> связях, существующих между парами переменных, но должны считаться и с возможностью связей более сложных, многомерных. В примере 4.3 показана ситуация, в которой существуют связи АС и ВС, но нет связи А В, как и трехфакторного взаимодействия ЛВС. А в примере 4.4 есть только взаимодействие между А и В.
Гудмен [Goodman L.A., 1969] рассматривал методы разбиения X2-статистики для проверки качества (которую можно использовать и обычным способом, основываясь на соотношении (4.3)). Однако в своих дальнейших работах [1970, 1971 а] он превратил логарифмически-линейную модель в средство практического анализа, которое вытеснило большинство старых методов. Мы приступим к изучению этих новых методов в следующей главе.
За подробностями выявления независимости в таблицах с четырьмя входами и еще более сложных можно обратиться к работе Кастенбаума [Kastenbaum M.A., 1974].