Предисловие к русскому изданию постижение через сопряжение

Вид материалаДокументы

Содержание


Глава 3. связь и независимость в таблицах сопряженности
А и В независимы, то мы должны ожидать, что их доли в j
3.2. Выявление источников отсутствия независимости
3.3. Разбиение хи-квадрат
W имеет распределение (с
Правило 1. Если в исходной таблице есть с
Разделение оставшихся пяти степеней свободы
3.4. Меры связи для таблиц ixj
3.5. Измерение связи с помощью
3.6. ИЗМЕРЕНИЕ СВЯЗЕЙ С ПОМОЩЬЮ l
3.7. Доверительные интервалы для х-мер
3.8. МЕРЫ СВЯЗИ, ОСНОВАННЫЕ НА c
3.9. МЕРЫ т ГУДМЕНА И КРАСКАЛА
3.10. Меры связи для таблиц с порядковыми данными
S - общее число пар наблюдений, для которых либо
3.11. МЕРg ГУДМЕНА И КРАСКАЛА
3.12. МЕРА t КЕНДЭЛА
3.13. МЕРА d СОМЕРСА
3.14. Сравнение мер связи
Подобный материал:
1   2   3   4   5   6   7   8   9   10   ...   15


ГЛАВА 3. СВЯЗЬ И НЕЗАВИСИМОСТЬ В ТАБЛИЦАХ СОПРЯЖЕННОСТИ


3.1. ХИ-КВАДРАТ КРИТЕРИИ ДЛЯ НЕЗАВИСИМОСТИ

Рассмотрим теперь более общий случай, когда A и В не дихотомичны, а политомичны. Мы исходим из существования I возможных категорий для переменной А, обозначаемых A1, A2,:AI, и J возможных категорий для В (B1, B2,:,BJ). И снова первый вопрос, который приходит в голову: <А независимы ли наши две переменные?>. Наши данные представляют собой наблюдаемые частоты, распределенные по IJ ячейкам, и мы естественным образом обобщим старые обозначения, как показано в табл. 3.1.

[26]

Таблица 3.1. Наблюдаемые частоты для Ix J данных




B1

B2

:

 

BJ

Всего

A1

A2

.

.

.

AI

 

f1 1

f2 1

.

.

.

fI 1

f1 2

f2 2

.

.

.

fI 2

:

:

 

 

 

:

f1 J

f2 J

.

.

.

fI J

f1 0

f2 0

.

.

.

fI 0

Всего

f0 1

f0 2

:

f0 J

F0 0

Можно думать, что аргументы, использованные для таблиц 2х2, сохранят свою силу. Значит, если А и В независимы, то мы должны ожидать, что их доли в j-м столбце, как и в i-й строке, будут более или менее одинаковыми для всех столбцов, т. е.

для всех i и j.

Соответственно с таблицей частот меняется и таблица теоретических вероятностей, имеющая в точности ту же самую структуру. Обозначая pij вероятность того, что случайно выбранный индивид попадет в ячейку (i, j), просто обобщить условие независимости (2.5), а именно, если A и В независимы, то

Pi j=pi 0p0 j; i=1,2,:,I; j=1,2,:,J (3.1)

Хотя значения ij} и неизвестны, отношения {fij/ f00} служат им оценками, и эти оценки вполне можно использовать для заключений об ожидаемых частотах ячеек при условии независимости A и В. Они имеют вид:

(3.2)

В первой главе мы вводили два критерия качества моделей: широко известную статистику X2 и гораздо менее распространенную У2. Теперь мы могли бы воспользоваться любой из них для выяснения, значимо ли различаются множестваij} и {fij}, констатируя, таким образом, отсутствие независимости между A и В. Чем бы мы ни воспользовались, все равно надо знать соответствующее число степеней свободы, которое для обоих случаев одинаково.

Рассмотрим сумму

,

которую в силу (3.2) можно переписать в виде:

(3.3)

Выражение в скобках - это просто f00, а значит, сумма ожидаемых частот в j-м столбце сводится к сумме наблюдаемых частот того же столбца. Легко проверить, что аналогичный результат верен и для итогов по строкам. Но, поскольку все суммы по строкам и по столбцам постоянны, выходит, что на множество объектов с {eij} наложены ограничения. Если нам известно (I -1) входов для какого-либо столбца, то мы, следовательно, уже знаем и итог этого столбца и можем восстановить пропущенное значение. Все это в равной мере приложимо и к строкам, поэтому можно заключить, что, если, например, ожидаемые значения известны для первых (I-1) входов в первые (J-1) столбцы, то мы знаем и условные суммы и можем восстановить пропущенные (I +J-1) входов. Все это означает, что в нашем распоряжении остается (/ - 1) (J- 1) степеней свободы для проверки качества. Отсюда для критерия X2 получаем результат

, (3.4)

который нет смысла упрощать подстановкой значений eij. А вот крите-рий Y2:

(3.5)

можно упростить с помощью следующих алгебраических соотношений:

(3.6)

Подставляя уравнение (3.6) в (3.5), получим упрощенное выражение

(3.7)

Распределения X2 и Y2 лишь приблизительно соответствуют -распределению. Ярнолд [Yarnold L. K., 1970] показал, что приближение работает хорошо, пока ожидаемые частоты ячеек не опустятся до примерно трех. Он дал формулу для определения того, стоит ли пользоваться этой аппроксимацией в том или ином конкретном случае. Креддок и Флуд [Craddock J. M., Flood C. R., 1970] построили таблицы распределения X2 для разнообразных малых выборок.

Пример 1.3

В табл. 3.2 представлено (фиктивное) множество данных. Можно ли доказать, что A и В не независимы? Обычно очень трудно ответить на подобный вопрос при простом визуальном рассматривании данных. Мы воспользуемся уравнением (3.2) для получения ожидаемых частот в предположении справедливости гипотезы о независимости. Так, e11, частота в левой крайней верхней ячейке, равна: (60 X 20)/200 = 6.

[28]

Таблица 3.2. Условный набор частот




B1

B2

B3

B4

Всего

A1

A2

A3

13

4

3

13

24

8

12

28

15

22

34

24

60

90

50

Всего

20

45

55

80

200

Полное множество ожидаемых частот приведено в табл. 3.3.


Таблица 3.3. Ожидаемые частоты для данных табл. 3.2 в случае независимости




B1

B2

B3

B4

Всего

A1

A2

A3

6

9

5

13,5

20,25

11,25

16,5

24,75

13,75

24

36

20

60

90

50

Всего

20

45

55

80

200

Найдем теперь статистики для проверки качества. Так,



Верхняя 5%-ная точка -распределения при (4 - 1) х (3 - 1)==6 степенях свободы равна 12,59. Обе наши статистики гораздо больше чем 12,59; следовательно, мы должны заключить, что наблюдаемое множество чисел проявляет существенные признаки того, что A иВне независимы.

3.2. ВЫЯВЛЕНИЕ ИСТОЧНИКОВ ОТСУТСТВИЯ НЕЗАВИСИМОСТИ

Как только мы обнаруживаем какую-либо взаимозависимость меж-ду Л и В, нам сразу интересно выяснить, как эта взаимозависимость проявляется в данных. Бывает, как мы увидим на примере, что взаизависимость входов обусловлена одним-единственным наблюдением. В такой ситуации нам, конечно, захочется проверить данные на пред-

[29]

мет выявления возможной ошибки или даже описки. Важность рас-хождений между наблюдаемыми и ожидаемыми частотами проще всего обнаружить, рассматривая значения статистики Х2 для отдельных ячеек.

Пример 3.2

Для данных из табл. 3.2 мы нашли, что величина X2 равна 16,25. В табл. 3.4 приведены вклады в эту величину для отдельных ячеек. Из них сразу видно, что львиная доля от 16,25 падает на одну ячейку (1,1.)


Таблица 3.4. Вклады в X2 для данных табл. 3.2




B1

B2

B3

B4

A1

A2

A3

8,17

2,78

0,80

0,02

0,69

0,94

1,23

0,43

0,11

0,17

0,11

0,80






















Естественной реакцией в такой ситуации должна быть проверка правильности данных. Может быть, вместо 13 на самом деле должно быть просто З?

3.3. РАЗБИЕНИЕ ХИ-КВАДРАТ

В гл. 1 мы отмечали, что если случайная величина Х имеет распределение - соответственно , а Х и У при этом независимы, то величина Z= Х + У распределена как . Отсюда следует, что если W имеет распределение > 1), то мы можем разложить с на компоненты, имеющие по одной степени свободы и образующие в совокупности величину Y. В ситуации нашего примера при желании легко разложить общие 6 степеней свободы так, чтобы одна из них прилагалась именно на ячейку (1,1). Научиться этому можно только на практике. Максвелл [Maxwell А. Е., 1961] детально разобрал эту процедуру, и мы сформулируем теперь некоторые из его правил, которые могут вам пригодиться.

Правило 1. Если в исходной таблице есть с степеней свободы, то ее можно разбить не более чем на с подтаблиц.

Правило 2. Каждая из наблюдаемых частот ячеек должна встречаться в одной подтаблице один и только один раз.

Правило 3. Любая условная сумма в подтаблице должна быть либо частотой в другой подтаблице, либо условной суммой исходной таблицы.

Пример 3.3

Таблица частот (табл. 3.2), как можно было видеть, в полном соответствии с таблицей ожидаемых значений при условии независимости имеет очень большую частоту в ячейке (1, 1). Для выделения этой частоты мы строим табл. 3.5, в которой переменные A и B дихотомизируются, а вход (1, 1) выбирается в качестве одного из входов новой таблицы. Величины статистик для проверки качества этих данных вычисляются как обычно и имеют

[30]

 

 


(2 - 1) х (2 - 1) = 1 степень свободы. Мы находим, что X2= 12,96 и Y2= 11,73.

Теперь осталось "пристроить" еще 5 степеней свободы. Это можно сделать многими способами. Один из них, который приглянулся автору, продемонстрирован в трех частях табл. 3.6.

Т а б л и ц а 3.5. Двойная дихотомия данных табл. 3.2.

для изоляции ячейки (1,1)


 

B1

не B1

Всего

A1

неA1

13

7

47

133

60

140

Всего

20

180

200
Читателю предлагается проверить, что разбиение удовлетворяет сформулированным выше правилам. Он сможет еще обратить внимание на некую симметрию в шапках строк и столбцов.

Для этих трех таблиц тоже надо сосчитать значения X2 и Y2. Итоги такого подсчета представлены в табл. 3.7. Важно помнить, что для полной таблицы 3 X 4 у нас было X2 = 16,25, Y2 = 15,18 с 6 степенями свободы каждый. Малое различие между последним итогом, равным 16,26, и предыдущим - 16,25 объясняется ошибками округления.

Теперь мы готовы дать более ясную интерпретацию отношений между переменными А и В. Поскольку ни одна из подтаблиц из табл. 3.6 не дает никакой явной зацепки, которая позволяла бы ожидать, при условии независимости А и В, что они ведут себя так, как будто они не






В1

не В1

Всего

А2

А3

4

3

86

47

90

50

Всего

7

133

140
Т а б л и ц а 3.6 . Разделение оставшихся пяти степеней свободы


 (в)





В2

В3

В4

Всего

А2

А3

24

8

28

15

34

24

86

47

Всего

32

43

58

133



(б)





В2

В3

В4

Всего

А1

не А1

13

32

12

43

22

58

47

133

Всего

45

55

80

180



Т а б л и ц а 3.7. Результаты разбиения табл. 3.2


Номер

таблицы

Число ст. св.

Х2

Y2

3.5

3.6 (а)

3.6 (б)

3.6 (в)

1

2

2

1

12.96

2.36

0.78

0.16

11.73

2.49

0.80

0.16

Всего

6

16.26

15.18
 

 


[31]

зависимы, то нам остается ожидать, что принадлежность индивида к категории А1делает весьма вероятной и его принадлежность к категории В1 (и наоборот). Чтобы придать этому физический смысл, надо знать природу переменных и их категорий.

3.4. МЕРЫ СВЯЗИ ДЛЯ ТАБЛИЦ IXJ

В качестве альтернативы к проверке независимости двух переменных или к простой и быстрой количественной характеристике степени их независимости анализ данных часто дает значение какой-нибудь меры связи. Однако, как мы уже отмечали в предыдущей главе, многие из широко распространенных мер связи не имеют простой вероятностной интерпретации или, иначе говоря, они суть просто числа.

Есть два основных класса переменных, с которыми мы будем иметь дело. Номинальным переменным свойственны наименования их категорий, которые никак естественно не упорядочиваются. Например, переменная <фрукт> может иметь категории <яблоко>, <апельсин> и <банан>, которые можно записать в любом из шести порядков. Второй класс - это переменные, называемые порядковыми и имеющие упорядоченные категории. Например, переменная <возраст> может иметь категории <моложе 20>, <21-30>, <31-40>, <старше 40>, которые нет никакого смысла записывать в каком бы то ни было ином порядке.

В следующих параграфах мы проанализируем некоторые из наиболее распространенных мер связи, причем начнем с тех, которые лучше приспособлены для номинальных данных, а затем обратимся к данным порядковым.*

3.5. ИЗМЕРЕНИЕ СВЯЗИ С ПОМОЩЬЮ

Все три l-меры, lь, laи l, имеют очень простую структуру. В этом параграфе мы подробно остановимся на lь, а в следующем более кратко опишем la и lь.

Статистика lь основана на сравнении следующих двух ситуаций: для взятого наугад индивида, принадлежащего нашей совокупности, мы пытаемся угадать его В-категорию, когда: а) нет никакой дополнительной информации или б) известна его А -категория. Если ответы А и В совершенно не связаны, то мы не будем во второй ситуации чувствовать себя лучше, чем в первой, но в противном случае мы почувствуем некоторое улучшение. Мера lь охарактеризует это улучшение численно в терминах относительного прироста вероятности ошибки предсказания В-категории при переходе от одной ситуации к другой, когда предполагается, что наше предсказание обеспечивает в каждом случае наиболее вероятную из В-категорий:

(3.8)

где - наибольший вход в i-й строке таблицы, а - наибольший из итогов по столбцам. Подробности можно найти в [Goodman L.A., Kruskal E.H., 1954].

Пример 3.4

Для данных, приведенных в табл. 3.8, наибольшие наблюдения в трех строках соответственно равны: тогда как наибольший итог в столбце оказался равным

Следовательно,



 

Пример 3.5

Т а б л и ц а 3.8. Второе гипотетическое множество частот ячеек





В1

В2

В3

В4

Всего

А1

А2

А3

10

8

11

5

16

7

18

5

3

20

13

4

53

42

25

Всего

29

28

26

37

120



Данные табл. 3.2, подчеркивают то обстоятельство, что l-меры сталкиваются с трудностями, обусловленными неравномерностью условных сумм. Это обстоятельство отчетливо проявляется в тех случаях, когда мы обнаруживаем, что максимумы строк, в данном примере равные: приходятся все на один и тот же третий столбец, который и имеет, следовательно, наибольшую условную сумму ().


В связи с этим получается, что



3.6. ИЗМЕРЕНИЕ СВЯЗЕЙ С ПОМОЩЬЮ lа ИЛИ l

Если А и В поменять местами, т.е. интересоваться приростом эффективности предсказания А-критерия при известном В-критерии, то мы получим такую статистику:

(3.9)

где - наибольший вход в -м столбце таблицы, а - наибольшая условная сумма по строкам.

В большинстве случаев бессмысленно обращать внимание на то, как обозначены переменные. Если допустить, что наш интерес равномерно распределен между А и В, то мы получим меру:

33

[33]

 

 

 

(3.10)

Пример 3.6

Для данных из табл. 3.8 имеем:

и

следовательно,



Объединяя эти результаты с тем, что получено в примере 3.4, мы найдем



Заметим, что значение l всегда лежит между значениями и.

Пример 3.7

Для более неудобных данных из табл. 3.2 имеем:

и так что



снова воспользовавшись результатами примера 3.5, найдем



3.7. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ Х-МЕР

Наши l-меры дают характеристику связи, существующей между переменными. Было бы, однако, очень огорчительно (как мы уже отмечали в предыдущей главе в связи с Q), если бы нам пришлось остановиться на утверждении, что b = 0,12>. Ведь мы получили только оценку неизвестного значения для совокупности и теперь хотели бы получить для этого значения, которое мы запишем как Lb, оценку его доверитель-ного интервала.

Гудмен и Краскал [Goodman L.A., Kruskal Е. Н., 1963] нашли приближения для распределений всех Х-мер. Так, для lb они показали, что следующая величина:

(3.11)

имеет приближенное единичное нормальное распределение. Здесь обозначает сумму таких , для которых значения обеспечи-

[34]

 

вают попадание , как раз в тот столбец, где наибольший итог. К счастью, это не так сложно, как кажется.

Если строки и столбцы поменять местами, то получится аналогичное (3.11) выражение для доверительного интервала , а для l формула будет несколько сложнее.

Пример 3.8

Вернемся снова к данным табл. 3.8. Наибольший итог имеет четвертый столбец (37), и он же включает число 20, наибольшее в первой строке. Однако другие максимумы строк в него не входят (это 16 и 11); значит = 20.

Подстановка в (3.11) дает

Поскольку 13,34 (-0,12) имеет единичное нормальное распределение, мы можем непосредственно выписать симметричные доверительные интервалы для :



или (-0,03; 0,27).

Обратите внимание на то, что этот доверительный интервал включает отрицательные значения, которые невозможны, поскольку . Приближение явно усложнено.

Соответствующий доверительный интервал для оказывается рав-ным (0,01; 0,35).

3.8. МЕРЫ СВЯЗИ, ОСНОВАННЫЕ НА c2

В параграфе 2.10 мы упоминали несколько функций от X2. Те две из них, для которых там приводились формулы, а именно (j и С, можно использовать для таблиц Iх Jс таким же успехом, как и для таблиц 2 х 2, основываясь на определениях, даваемых уравнениями (2.16) и (2.17).

Две другие меры - V Крамера и Т Чупрова - по определению равны:

 

(3.12)

(3.13)

Mеры j и V встречаются иногда, к сожалению, и в виде квадратов. Это моментально приводит к несогласованности данных мер, в которых все ищут функцию от X2, ограниченную диапазоном (0, 1).

[35]

 

 

 

Пример 3.9

В примере 3.1 мы нашли значение X2 для данных табл. 3.2,которое было равно 15,18. Следовательно,



Естественно, что V и Т всегда будут подобны друг другу, причем для квадратных таблиц V = Т, а во всех остальных случаях V > Т. Аналогично очень похожи и j с С, причем j всегда больше, чем С.

3.9. МЕРЫ т ГУДМЕНА И КРАСКАЛА

Мы уже видели, что при использовании l-мер Гутмана могут возникнуть трудности (пример 3.5), и, именно имея в виду подобные обстоятельства, Гудмен и Краскал [Goodman L.A., Kruskal Е. Н., 1954] предложили очень простые меры t. Различие заключается в ином методе предсказания категории одной переменной при известной категории для другой. Вместо того чтобы всегда предсказывать наиболее вероятную категорию, t-меры предсказывают различные категории в пропорции, которая имеет место для их наблюдаемых итогов.

В результате получаются меры, гораздо более похожие на X2, чем l. Например,

(3.14)

а также аналогичные формулы для tа и t. Гудмен и Краскал [Goodman L.A., Kruskal Е. Н.,1972] нашли для этих мер выборочные дисперсии. Альтернативные подходы, использующие l-меры, предлагались Экоком [Аcock А. С., 1974] и Мостеллером [Mosteller F.,1968].

Пример 3.10

Для данных из табл. 3.2 получим



[36]

 

3.10. МЕРЫ СВЯЗИ ДЛЯ ТАБЛИЦ С ПОРЯДКОВЫМИ ДАННЫМИ

В следующих трех параграфах мы опишем три меры связи, основанные на одних и тех же важных свойствах таблицы. Они основаны на упорядоченности I категорий переменной А, представляющих I рангов, один из которых присваивается каждому из общего числа наблюдений. Примем, что те наблюдения, которые принадлежат категории 1 переменной Л, имеют более высокий ранг, чем наблюдения из категорий 2 того же фактора А, и т. д. Аналогично и для В. При положительной связи между А и В мы будем ожидать, что наблюдения, имеющие высокие ранги переменной А, будут иметь тенденцию к бо-лее высоким рангам переменной В, а для наблюдений с низкими рангами А будут характерны и низкие ранги В.

Возьмем какую-нибудь пару наблюдений, одно из которых принадлежит ячейке (i, j'), т. е. имеет категорию iпеременной А и категорию j переменной В, а второе - из ячейки (i', j'). Порядковые меры связи - это всегда простые функции от следующих четырех величин:

S - общее число пар наблюдений, для которых либо одновременно i> i' иj > j' либоi < i' и j < j';

D - общее число пар наблюдений, для которых либо i > i' и j < j'либо i < j'и j >j';

Ta - общее число пар наблюдений, для которых i=i';

Tb - общее число пар наблюдений, для которых j=j'. Когда между переменными А и В существует сильная связь, число S становится большим, а число D - малым, откуда вполне понятным становится интерес к величине разности S - D. Все три меры, к описанию которых мы теперь приступаем, различаются способом нормирования разности S - D.

3.11. МЕРg ГУДМЕНА И КРАСКАЛА

Гудмен и Краскал [Goodman L.A., Kruskal Е.Н., 1954] предложили следующую меру:

(3.15)

Эта мера имеет прямую вероятностную интерпретацию, поскольку она есть не что иное, как разность между вероятностями правильного и неправильного порядка для двух наблюдений, извлеченных из сово-купности случайно, при условии, что совпадающих рангов нет.

Если переменные А и В между собой независимы, то среднее зна-чение у обратится в 0. Однако если g=0, то отсюда вовсе не обязатель-но следует, что А и В действительно независимы. Гудмен и Краскал продемонстрировали, что вполне возможно построить такую таблицу, в которой у будет равна 0, а переменные А и В окажутся явно не независимыми. Диапазон значений для g простирается от - 1 до + 1.

Выборочное распределение g приблизительно нормально, а ее дисперсию трудно сосчитать без компьютера. Она приведена у Гудме-

[37]

на и Краскала [Goodman L.A., Kruskal E.H., 1963] и модифицирована ими же в работе 1972 г.

Пример 3.11

Продемонстрируем метод вычислений S и D на данных из табл. 3.2, которые воспроизводятся тут в табл. 3.9 для облегчения восприятия процедуры счета.

Т а б л и ц а 3.9. Данные из табл. 3.2.

Иллюстрирующие метод вычисления

SиD


B1

B2 B3 B4

A1 13

13 12 22

A24

A3 3

24 28 34

8 15 24
Для вычисления Sбудем последовательно перебирать все ячейки, умножая их частоты на общую частоту того блока ячеек, которые лежат ниже и правее нашей ячейки. Например, как видно из табл. 3.9, частота 13 в ячейке (1,1) должна умножаться на частоту прямоугольника 2 х 3, выделенного пунктиром, (она равна: 24+28+34+8+15+24=133). Совокупность таких (I - 1)(J - 1) перекрестных наблюдений и есть S. Таким образом, для табл. 3.9. мы имеем

S=13(4 + 24 + 28 + 34 + 8 + 15 + 24) + 13(28 + 34 + 15 + 24) + 12(34 + 24) + 4(8 + 15 + 24) + 24(15 + 24) + 28 x 24 = 5534.

Величина D вычисляется совершенно так же, только частота в каждой ячейке умножается на общую частоту блока, расположенного ниже и слева. Отсюда мы имеем:

D = 22(4 + 24 + 28 + 3 + 8 + 15) + 12(4 + 24 + 3 + 8) + 13(4 + 3) + 34(3 + 8) + 24(3) = 3627.

Наконец, воспользовавшись уравнением (3.15), получим



Альтернативный метод вычисления 5 и О предложил Литере [Ьеа1Ьегз В. Ь., 1977], который привел и необходимые машинные ал-горитмы.

3.12. МЕРА t КЕНДЭЛА

Кендэловское t - это известная мера ранговой корреляции, которая в своем первоначальном виде предполагала, что обе сравниваемые ранжировки не содержат совпадающих рангов. В нашем случае, конечно же, существует множество одинаковых рангов, так что требует-ся адаптация. Чтобы отличить эту меру от t Гудмена-Краскала (из параграфа 3.9), обозначим ее через tК и получим

(3.16)

[38]

 

где TaиTb уже были определены в параграфе 3.10.

Пример 3.12

В примере 3.11 мы вычислили значения S и D для данных из табл. 3.2 и 3.9. Величину Ta получим, если умножить частоты ячеек на сумму частот тех из них, которые стоят правее в той же строке, и сложить все I(J-1) таких перекрестных произведений. Отсюда для наших данных имеем

Та = 13 (13 + 12 + 22) + 13 (12 + 22) + 12 (22) + 4 (24 + 28 + + 34) + ... + 15 (24) = 4914.

При вычислении Tb все то же самое проделывается не со строками, а со столбцами, что в нашем случае дает

Тb = 13 (4 + 3) + 4 (3) + ... + 34 (24) = 3739.

С помощью этих частот мы получим



Удобную возможность проверить правильность счета дает соотношение



В нашем примере и Воспользовавшись теперь соотношением (3.17), мы можем убедиться, что считали без ошибок.

3.13. МЕРА d СОМЕРСА

Сомерс [Somers R. Н., 1962] предложил видоизменить предыдущую статистику, чтобы она больше подходила к случаю, когда одна переменная, скажем В, может рассматриваться как зависимая от переменной А. Эта статистика, которую мы обозначим dba., определяется из

(3.18)

Такую статистику можно рассматривать как разность между вероятностями получить правильный и неправильный порядок при извлечении из совокупности двух наблюдений случайным образом, когда переменная А не имеет совпадающих рангов. Она распределена приблизительно нормально с дисперсией, которая приводится у Гудмена и Краскала [Goodman L.A., Kruskal E.H., 1972].

Пример 3.13

Продолжая анализ табл. 3.9, мы найдем



 

[39]

 

в то время как обратная статистика, рассматривающая переменную А как зависимую, равна:



3.14. СРАВНЕНИЕ МЕР СВЯЗИ

Как мы уже отмечали по поводу мер связи для таблиц 2х2, каждая мера <высвечивает> свой аспект связи между переменными. Поэтому нет нужды беспокоиться о различии в значениях разных мер. Мы, например, по ходу этой главы нашли следующие меры связи для данных табл. 3.2:

Все эти меры, кроме tb Гудмена и Краскала, можно вычислить автоматически с помощью программы, приведенной в работе [Nie N.H. et al., 1975].

При конкретном выборе среди этих мер можно было бы предпочесть l Гудмена и Краскала (для номинальных данных) или g для порядковых данных), если переменные равноправны. А если переменная В зависит от переменной А, то подходит как lb, так и dabСомерса.

Ни одной из этих мер, однако, не стоит приписывать роль, большую, чем роль средства предварительной прикидки перед более систематическим анализом.