Предисловие к русскому изданию постижение через сопряжение
Вид материала | Документы |
- Содержание: Предисловие к русскому изданию, 4891.77kb.
- Предисловие к русскому изданию, 304.63kb.
- Предисловие к русскому изданию, 2977.53kb.
- Хейне П. Предисловие к русскому изданию, 9465.34kb.
- Предисловие к русскому изданию, 23302.08kb.
- Предисловие к русскому изданию, 3882.25kb.
- Предисловие к русскому изданию, 7003.78kb.
- За пределами мозга предисловие к русскому изданию, 6134.84kb.
- Предисловие к новому изданию, 3293.79kb.
- Электронная библиотека студента Православного Гуманитарного Университета, 3857.93kb.
ГЛАВА 3. СВЯЗЬ И НЕЗАВИСИМОСТЬ В ТАБЛИЦАХ СОПРЯЖЕННОСТИ
3.1. ХИ-КВАДРАТ КРИТЕРИИ ДЛЯ НЕЗАВИСИМОСТИ
Рассмотрим теперь более общий случай, когда A и В не дихотомичны, а политомичны. Мы исходим из существования I возможных категорий для переменной А, обозначаемых A1, A2,:AI, и J возможных категорий для В (B1, B2,:,BJ). И снова первый вопрос, который приходит в голову: <А независимы ли наши две переменные?>. Наши данные представляют собой наблюдаемые частоты, распределенные по IJ ячейкам, и мы естественным образом обобщим старые обозначения, как показано в табл. 3.1.
[26]
Таблица 3.1. Наблюдаемые частоты для Ix J данных
| B1 | B2 | : | BJ | Всего |
A1 A2 . . . AI | f1 1 f2 1 . . . fI 1 | f1 2 f2 2 . . . fI 2 | : : : | f1 J f2 J . . . fI J | f1 0 f2 0 . . . fI 0 |
Всего | f0 1 | f0 2 | : | f0 J | F0 0 |
Можно думать, что аргументы, использованные для таблиц 2х2, сохранят свою силу. Значит, если А и В независимы, то мы должны ожидать, что их доли в j-м столбце, как и в i-й строке, будут более или менее одинаковыми для всех столбцов, т. е.

Соответственно с таблицей частот меняется и таблица теоретических вероятностей, имеющая в точности ту же самую структуру. Обозначая pij вероятность того, что случайно выбранный индивид попадет в ячейку (i, j), просто обобщить условие независимости (2.5), а именно, если A и В независимы, то
Pi j=pi 0p0 j; i=1,2,:,I; j=1,2,:,J (3.1)
Хотя значения {рij} и неизвестны, отношения {fij/ f00} служат им оценками, и эти оценки вполне можно использовать для заключений об ожидаемых частотах ячеек при условии независимости A и В. Они имеют вид:

В первой главе мы вводили два критерия качества моделей: широко известную статистику X2 и гораздо менее распространенную У2. Теперь мы могли бы воспользоваться любой из них для выяснения, значимо ли различаются множества{еij} и {fij}, констатируя, таким образом, отсутствие независимости между A и В. Чем бы мы ни воспользовались, все равно надо знать соответствующее число степеней свободы, которое для обоих случаев одинаково.
Рассмотрим сумму

которую в силу (3.2) можно переписать в виде:

Выражение в скобках - это просто f00, а значит, сумма ожидаемых частот в j-м столбце сводится к сумме наблюдаемых частот того же столбца. Легко проверить, что аналогичный результат верен и для итогов по строкам. Но, поскольку все суммы по строкам и по столбцам постоянны, выходит, что на множество объектов с {eij} наложены ограничения. Если нам известно (I -1) входов для какого-либо столбца, то мы, следовательно, уже знаем и итог этого столбца и можем восстановить пропущенное значение. Все это в равной мере приложимо и к строкам, поэтому можно заключить, что, если, например, ожидаемые значения известны для первых (I-1) входов в первые (J-1) столбцы, то мы знаем и условные суммы и можем восстановить пропущенные (I +J-1) входов. Все это означает, что в нашем распоряжении остается (/ - 1) (J- 1) степеней свободы для проверки качества. Отсюда для критерия X2 получаем результат

который нет смысла упрощать подстановкой значений eij. А вот крите-рий Y2:

можно упростить с помощью следующих алгебраических соотношений:

Подставляя уравнение (3.6) в (3.5), получим упрощенное выражение

Распределения X2 и Y2 лишь приблизительно соответствуют

Пример 1.3
В табл. 3.2 представлено (фиктивное) множество данных. Можно ли доказать, что A и В не независимы? Обычно очень трудно ответить на подобный вопрос при простом визуальном рассматривании данных. Мы воспользуемся уравнением (3.2) для получения ожидаемых частот в предположении справедливости гипотезы о независимости. Так, e11, частота в левой крайней верхней ячейке, равна: (60 X 20)/200 = 6.
[28]
Таблица 3.2. Условный набор частот
| B1 | B2 | B3 | B4 | Всего |
A1 A2 A3 | 13 4 3 | 13 24 8 | 12 28 15 | 22 34 24 | 60 90 50 |
Всего | 20 | 45 | 55 | 80 | 200 |
Полное множество ожидаемых частот приведено в табл. 3.3.
Таблица 3.3. Ожидаемые частоты для данных табл. 3.2 в случае независимости
| B1 | B2 | B3 | B4 | Всего |
A1 A2 A3 | 6 9 5 | 13,5 20,25 11,25 | 16,5 24,75 13,75 | 24 36 20 | 60 90 50 |
Всего | 20 | 45 | 55 | 80 | 200 |
Найдем теперь статистики для проверки качества. Так,

Верхняя 5%-ная точка

3.2. ВЫЯВЛЕНИЕ ИСТОЧНИКОВ ОТСУТСТВИЯ НЕЗАВИСИМОСТИ
Как только мы обнаруживаем какую-либо взаимозависимость меж-ду Л и В, нам сразу интересно выяснить, как эта взаимозависимость проявляется в данных. Бывает, как мы увидим на примере, что взаизависимость входов обусловлена одним-единственным наблюдением. В такой ситуации нам, конечно, захочется проверить данные на пред-
[29]
мет выявления возможной ошибки или даже описки. Важность рас-хождений между наблюдаемыми и ожидаемыми частотами проще всего обнаружить, рассматривая значения статистики Х2 для отдельных ячеек.
Пример 3.2
Для данных из табл. 3.2 мы нашли, что величина X2 равна 16,25. В табл. 3.4 приведены вклады в эту величину для отдельных ячеек. Из них сразу видно, что львиная доля от 16,25 падает на одну ячейку (1,1.)
Таблица 3.4. Вклады в X2 для данных табл. 3.2
| B1 | B2 | B3 | B4 | ||
A1 A2 A3 | 8,17 2,78 0,80 | 0,02 0,69 0,94 | 1,23 0,43 0,11 | 0,17 0,11 0,80 | ||
| | | | | | |
Естественной реакцией в такой ситуации должна быть проверка правильности данных. Может быть, вместо 13 на самом деле должно быть просто З?
3.3. РАЗБИЕНИЕ ХИ-КВАДРАТ
В гл. 1 мы отмечали, что если случайная величина Х имеет распределение




Правило 1. Если в исходной таблице есть с степеней свободы, то ее можно разбить не более чем на с подтаблиц.
Правило 2. Каждая из наблюдаемых частот ячеек должна встречаться в одной подтаблице один и только один раз.
Правило 3. Любая условная сумма в подтаблице должна быть либо частотой в другой подтаблице, либо условной суммой исходной таблицы.
Пример 3.3
Таблица частот (табл. 3.2), как можно было видеть, в полном соответствии с таблицей ожидаемых значений при условии независимости имеет очень большую частоту в ячейке (1, 1). Для выделения этой частоты мы строим табл. 3.5, в которой переменные A и B дихотомизируются, а вход (1, 1) выбирается в качестве одного из входов новой таблицы. Величины статистик для проверки качества этих данных вычисляются как обычно и имеют
[30]
(2 - 1) х (2 - 1) = 1 степень свободы. Мы находим, что X2= 12,96 и Y2= 11,73.
Теперь осталось "пристроить" еще 5 степеней свободы. Это можно сделать многими способами. Один из них, который приглянулся автору, продемонстрирован в трех частях табл. 3.6.
Т а б л и ц а 3.5. Двойная дихотомия данных табл. 3.2.
для изоляции ячейки (1,1)
| B1 | не B1 | Всего |
A1 неA1 | 13 7 | 47 133 | 60 140 |
Всего | 20 | 180 | 200 |
Для этих трех таблиц тоже надо сосчитать значения X2 и Y2. Итоги такого подсчета представлены в табл. 3.7. Важно помнить, что для полной таблицы 3 X 4 у нас было X2 = 16,25, Y2 = 15,18 с 6 степенями свободы каждый. Малое различие между последним итогом, равным 16,26, и предыдущим - 16,25 объясняется ошибками округления.
Теперь мы готовы дать более ясную интерпретацию отношений между переменными А и В. Поскольку ни одна из подтаблиц из табл. 3.6 не дает никакой явной зацепки, которая позволяла бы ожидать, при условии независимости А и В, что они ведут себя так, как будто они не
| В1 | не В1 | Всего |
А2 А3 | 4 3 | 86 47 | 90 50 |
Всего | 7 | 133 | 140 |
(в)
| В2 | В3 | В4 | Всего |
А2 А3 | 24 8 | 28 15 | 34 24 | 86 47 |
Всего | 32 | 43 | 58 | 133 |
(б)
| В2 | В3 | В4 | Всего |
А1 не А1 | 13 32 | 12 43 | 22 58 | 47 133 |
Всего | 45 | 55 | 80 | 180 |
Т а б л и ц а 3.7. Результаты разбиения табл. 3.2
Номер таблицы | Число ст. св. | Х2 | Y2 |
3.5 3.6 (а) 3.6 (б) 3.6 (в) | 1 2 2 1 | 12.96 2.36 0.78 0.16 | 11.73 2.49 0.80 0.16 |
Всего | 6 | 16.26 | 15.18 |
[31]
зависимы, то нам остается ожидать, что принадлежность индивида к категории А1делает весьма вероятной и его принадлежность к категории В1 (и наоборот). Чтобы придать этому физический смысл, надо знать природу переменных и их категорий.
3.4. МЕРЫ СВЯЗИ ДЛЯ ТАБЛИЦ IXJ
В качестве альтернативы к проверке независимости двух переменных или к простой и быстрой количественной характеристике степени их независимости анализ данных часто дает значение какой-нибудь меры связи. Однако, как мы уже отмечали в предыдущей главе, многие из широко распространенных мер связи не имеют простой вероятностной интерпретации или, иначе говоря, они суть просто числа.
Есть два основных класса переменных, с которыми мы будем иметь дело. Номинальным переменным свойственны наименования их категорий, которые никак естественно не упорядочиваются. Например, переменная <фрукт> может иметь категории <яблоко>, <апельсин> и <банан>, которые можно записать в любом из шести порядков. Второй класс - это переменные, называемые порядковыми и имеющие упорядоченные категории. Например, переменная <возраст> может иметь категории <моложе 20>, <21-30>, <31-40>, <старше 40>, которые нет никакого смысла записывать в каком бы то ни было ином порядке.
В следующих параграфах мы проанализируем некоторые из наиболее распространенных мер связи, причем начнем с тех, которые лучше приспособлены для номинальных данных, а затем обратимся к данным порядковым.*
3.5. ИЗМЕРЕНИЕ СВЯЗИ С ПОМОЩЬЮ

Все три l-меры, lь, laи l, имеют очень простую структуру. В этом параграфе мы подробно остановимся на lь, а в следующем более кратко опишем la и lь.
Статистика lь основана на сравнении следующих двух ситуаций: для взятого наугад индивида, принадлежащего нашей совокупности, мы пытаемся угадать его В-категорию, когда: а) нет никакой дополнительной информации или б) известна его А -категория. Если ответы А и В совершенно не связаны, то мы не будем во второй ситуации чувствовать себя лучше, чем в первой, но в противном случае мы почувствуем некоторое улучшение. Мера lь охарактеризует это улучшение численно в терминах относительного прироста вероятности ошибки предсказания В-категории при переходе от одной ситуации к другой, когда предполагается, что наше предсказание обеспечивает в каждом случае наиболее вероятную из В-категорий:

где


Пример 3.4
Для данных, приведенных в табл. 3.8, наибольшие наблюдения в трех строках соответственно равны:


Следовательно,

Пример 3.5
Т а б л и ц а 3.8. Второе гипотетическое множество частот ячеек
| В1 | В2 | В3 | В4 | Всего |
А1 А2 А3 | 10 8 11 | 5 16 7 | 18 5 3 | 20 13 4 | 53 42 25 |
Всего | 29 | 28 | 26 | 37 | 120 |
Данные табл. 3.2, подчеркивают то обстоятельство, что l-меры сталкиваются с трудностями, обусловленными неравномерностью условных сумм. Это обстоятельство отчетливо проявляется в тех случаях, когда мы обнаруживаем, что максимумы строк, в данном примере равные:



В связи с этим получается, что

3.6. ИЗМЕРЕНИЕ СВЯЗЕЙ С ПОМОЩЬЮ lа ИЛИ l
Если А и В поменять местами, т.е. интересоваться приростом эффективности предсказания А-критерия при известном В-критерии, то мы получим такую статистику:

где



В большинстве случаев бессмысленно обращать внимание на то, как обозначены переменные. Если допустить, что наш интерес равномерно распределен между А и В, то мы получим меру:
33
[33]

(3.10)
Пример 3.6
Для данных из табл. 3.8 имеем:


следовательно,

Объединяя эти результаты с тем, что получено в примере 3.4, мы найдем

Заметим, что значение l всегда лежит между значениями


Пример 3.7
Для более неудобных данных из табл. 3.2 имеем:



снова воспользовавшись результатами примера 3.5, найдем

3.7. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ Х-МЕР
Наши l-меры дают характеристику связи, существующей между переменными. Было бы, однако, очень огорчительно (как мы уже отмечали в предыдущей главе в связи с Q), если бы нам пришлось остановиться на утверждении, что
Гудмен и Краскал [Goodman L.A., Kruskal Е. Н., 1963] нашли приближения для распределений всех Х-мер. Так, для lb они показали, что следующая величина:

имеет приближенное единичное нормальное распределение. Здесь



[34]
вают попадание

Если строки и столбцы поменять местами, то получится аналогичное (3.11) выражение для доверительного интервала

Пример 3.8
Вернемся снова к данным табл. 3.8. Наибольший итог имеет четвертый столбец (37), и он же включает число 20, наибольшее в первой строке. Однако другие максимумы строк в него не входят (это 16 и 11); значит

Подстановка в (3.11) дает




или (-0,03; 0,27).
Обратите внимание на то, что этот доверительный интервал включает отрицательные значения, которые невозможны, поскольку

Соответствующий доверительный интервал для

3.8. МЕРЫ СВЯЗИ, ОСНОВАННЫЕ НА c2
В параграфе 2.10 мы упоминали несколько функций от X2. Те две из них, для которых там приводились формулы, а именно (j и С, можно использовать для таблиц Iх Jс таким же успехом, как и для таблиц 2 х 2, основываясь на определениях, даваемых уравнениями (2.16) и (2.17).
Две другие меры - V Крамера и Т Чупрова - по определению равны:

(3.12)
(3.13)
Mеры j и V встречаются иногда, к сожалению, и в виде квадратов. Это моментально приводит к несогласованности данных мер, в которых все ищут функцию от X2, ограниченную диапазоном (0, 1).
[35]
Пример 3.9
В примере 3.1 мы нашли значение X2 для данных табл. 3.2,которое было равно 15,18. Следовательно,

Естественно, что V и Т всегда будут подобны друг другу, причем для квадратных таблиц V = Т, а во всех остальных случаях V > Т. Аналогично очень похожи и j с С, причем j всегда больше, чем С.
3.9. МЕРЫ т ГУДМЕНА И КРАСКАЛА
Мы уже видели, что при использовании l-мер Гутмана могут возникнуть трудности (пример 3.5), и, именно имея в виду подобные обстоятельства, Гудмен и Краскал [Goodman L.A., Kruskal Е. Н., 1954] предложили очень простые меры t. Различие заключается в ином методе предсказания категории одной переменной при известной категории для другой. Вместо того чтобы всегда предсказывать наиболее вероятную категорию, t-меры предсказывают различные категории в пропорции, которая имеет место для их наблюдаемых итогов.
В результате получаются меры, гораздо более похожие на X2, чем l. Например,

а также аналогичные формулы для tа и t. Гудмен и Краскал [Goodman L.A., Kruskal Е. Н.,1972] нашли для этих мер выборочные дисперсии. Альтернативные подходы, использующие l-меры, предлагались Экоком [Аcock А. С., 1974] и Мостеллером [Mosteller F.,1968].
Пример 3.10
Для данных из табл. 3.2 получим

[36]
3.10. МЕРЫ СВЯЗИ ДЛЯ ТАБЛИЦ С ПОРЯДКОВЫМИ ДАННЫМИ
В следующих трех параграфах мы опишем три меры связи, основанные на одних и тех же важных свойствах таблицы. Они основаны на упорядоченности I категорий переменной А, представляющих I рангов, один из которых присваивается каждому из общего числа наблюдений. Примем, что те наблюдения, которые принадлежат категории 1 переменной Л, имеют более высокий ранг, чем наблюдения из категорий 2 того же фактора А, и т. д. Аналогично и для В. При положительной связи между А и В мы будем ожидать, что наблюдения, имеющие высокие ранги переменной А, будут иметь тенденцию к бо-лее высоким рангам переменной В, а для наблюдений с низкими рангами А будут характерны и низкие ранги В.
Возьмем какую-нибудь пару наблюдений, одно из которых принадлежит ячейке (i, j'), т. е. имеет категорию iпеременной А и категорию j переменной В, а второе - из ячейки (i', j'). Порядковые меры связи - это всегда простые функции от следующих четырех величин:
S - общее число пар наблюдений, для которых либо одновременно i> i' иj > j' либоi < i' и j < j';
D - общее число пар наблюдений, для которых либо i > i' и j < j'либо i < j'и j >j';
Ta - общее число пар наблюдений, для которых i=i';
Tb - общее число пар наблюдений, для которых j=j'. Когда между переменными А и В существует сильная связь, число S становится большим, а число D - малым, откуда вполне понятным становится интерес к величине разности S - D. Все три меры, к описанию которых мы теперь приступаем, различаются способом нормирования разности S - D.
3.11. МЕРg ГУДМЕНА И КРАСКАЛА
Гудмен и Краскал [Goodman L.A., Kruskal Е.Н., 1954] предложили следующую меру:

Эта мера имеет прямую вероятностную интерпретацию, поскольку она есть не что иное, как разность между вероятностями правильного и неправильного порядка для двух наблюдений, извлеченных из сово-купности случайно, при условии, что совпадающих рангов нет.
Если переменные А и В между собой независимы, то среднее зна-чение у обратится в 0. Однако если g=0, то отсюда вовсе не обязатель-но следует, что А и В действительно независимы. Гудмен и Краскал продемонстрировали, что вполне возможно построить такую таблицу, в которой у будет равна 0, а переменные А и В окажутся явно не независимыми. Диапазон значений для g простирается от - 1 до + 1.
Выборочное распределение g приблизительно нормально, а ее дисперсию трудно сосчитать без компьютера. Она приведена у Гудме-
[37]
на и Краскала [Goodman L.A., Kruskal E.H., 1963] и модифицирована ими же в работе 1972 г.
Пример 3.11
Продемонстрируем метод вычислений S и D на данных из табл. 3.2, которые воспроизводятся тут в табл. 3.9 для облегчения восприятия процедуры счета.
Т а б л и ц а 3.9. Данные из табл. 3.2.
Иллюстрирующие метод вычисления
SиD
B1 | B2 B3 B4 |
A1 13 | 13 12 22 |
A24 A3 3 | 24 28 34 8 15 24 |
S=13(4 + 24 + 28 + 34 + 8 + 15 + 24) + 13(28 + 34 + 15 + 24) + 12(34 + 24) + 4(8 + 15 + 24) + 24(15 + 24) + 28 x 24 = 5534.
Величина D вычисляется совершенно так же, только частота в каждой ячейке умножается на общую частоту блока, расположенного ниже и слева. Отсюда мы имеем:
D = 22(4 + 24 + 28 + 3 + 8 + 15) + 12(4 + 24 + 3 + 8) + 13(4 + 3) + 34(3 + 8) + 24(3) = 3627.
Наконец, воспользовавшись уравнением (3.15), получим

Альтернативный метод вычисления 5 и О предложил Литере [Ьеа1Ьегз В. Ь., 1977], который привел и необходимые машинные ал-горитмы.
3.12. МЕРА t КЕНДЭЛА
Кендэловское t - это известная мера ранговой корреляции, которая в своем первоначальном виде предполагала, что обе сравниваемые ранжировки не содержат совпадающих рангов. В нашем случае, конечно же, существует множество одинаковых рангов, так что требует-ся адаптация. Чтобы отличить эту меру от t Гудмена-Краскала (из параграфа 3.9), обозначим ее через tК и получим

[38]
где TaиTb уже были определены в параграфе 3.10.
Пример 3.12
В примере 3.11 мы вычислили значения S и D для данных из табл. 3.2 и 3.9. Величину Ta получим, если умножить частоты ячеек на сумму частот тех из них, которые стоят правее в той же строке, и сложить все I(J-1) таких перекрестных произведений. Отсюда для наших данных имеем
Та = 13 (13 + 12 + 22) + 13 (12 + 22) + 12 (22) + 4 (24 + 28 + + 34) + ... + 15 (24) = 4914.
При вычислении Tb все то же самое проделывается не со строками, а со столбцами, что в нашем случае дает
Тb = 13 (4 + 3) + 4 (3) + ... + 34 (24) = 3739.
С помощью этих частот мы получим

Удобную возможность проверить правильность счета дает соотношение

В нашем примере


3.13. МЕРА d СОМЕРСА
Сомерс [Somers R. Н., 1962] предложил видоизменить предыдущую статистику, чтобы она больше подходила к случаю, когда одна переменная, скажем В, может рассматриваться как зависимая от переменной А. Эта статистика, которую мы обозначим dba., определяется из

Такую статистику можно рассматривать как разность между вероятностями получить правильный и неправильный порядок при извлечении из совокупности двух наблюдений случайным образом, когда переменная А не имеет совпадающих рангов. Она распределена приблизительно нормально с дисперсией, которая приводится у Гудмена и Краскала [Goodman L.A., Kruskal E.H., 1972].
Пример 3.13
Продолжая анализ табл. 3.9, мы найдем

[39]
в то время как обратная статистика, рассматривающая переменную А как зависимую, равна:

3.14. СРАВНЕНИЕ МЕР СВЯЗИ
Как мы уже отмечали по поводу мер связи для таблиц 2х2, каждая мера <высвечивает> свой аспект связи между переменными. Поэтому нет нужды беспокоиться о различии в значениях разных мер. Мы, например, по ходу этой главы нашли следующие меры связи для данных табл. 3.2:

Все эти меры, кроме tb Гудмена и Краскала, можно вычислить автоматически с помощью программы, приведенной в работе [Nie N.H. et al., 1975].
При конкретном выборе среди этих мер можно было бы предпочесть l Гудмена и Краскала (для номинальных данных) или g для порядковых данных), если переменные равноправны. А если переменная В зависит от переменной А, то подходит как lb, так и dabСомерса.
Ни одной из этих мер, однако, не стоит приписывать роль, большую, чем роль средства предварительной прикидки перед более систематическим анализом.