Предисловие к русскому изданию постижение через сопряжение

Вид материалаДокументы

Содержание


2.7. Отношение преобладаний
2.8. Симметричные и асимметричные значения ? гутмана
2.9. Мера гудмена и краскала
2.10. Меры. основанные непосредственно на
2.11. Выбор мер связи
Подобный материал:
1   2   3   4   5   6   7   8   9   ...   15

Пример 2.3


Для данных табл. 2.3 мы имеем:



и

var(Q) =

Отсюда приближенный доверительный интервал для <истинного> значения связи, измеряемой с помощью Q, равен

или

0,43 + 1,96

или

(-0,07; 0,93).

Этот интервал накрывает значение 0, соответствующее <независимости>, значит, данные не дают оснований для отбрасывания такой возможности (измеряемой с помощью Q). Это согласуется и с нашей предыдущей оценкой по критерию X2. Однако возможны ситуации, когда Q оказывается значимо отличным от нуля, тогда как критерий X2 не дает оснований для отбрасывания гипотезы о независимости. А это явное противоречие между двумя разными мерами связи X2 и Q. В случаях подобного несоответствия статистическая теория утверждает, что предпочтение следует отдавать X2, а не Q.

2.7. ОТНОШЕНИЕ ПРЕОБЛАДАНИЙ

Интуитивно чувствуется, что если А к В связаны, то величина меры связи не должна зависеть от увеличения числа наблюдений, следовательно, если вдруг все частоты ячеек удвоятся, то мы не должны ожидать, что это повлияет на меру связи. Эту мысль пропагандировал Мостеллер [Mosteller F., 1968].

А Симпсон [Simpson E. H., 1951] и Эдвардс [Edwards A. W. F., 1963] полагали, что величина меры связи не должна зависеть от того, в каком порядке пронумерованы категории наших переменных (от чего, конечно, будет зависеть знак меры).

Объединение двух различных соображений приводит к статистике

, (2.13)

[23]

где С - обычное отношение преобладаний, аналогичное ? из уравнения (2.6). Любая функция от С тоже будет обладать желаемыми свойствами. Так, мы можем переписать определение Q из (2.12) следующим образом:

,

откуда сразу ясно, что и Q обладает этими желаемыми свойствами. Работать непосредственно с функцией отношения преобладаний не очень удобно отчасти потому, что могут встретиться ячейки с нулевыми частотами. Поэтому предпочитают пользоваться

. (2.14)

Она принимает значения из диапазона (0, ?), где 1 соответствует отсутствию связи. Это довольно необычно. Несколько более привычный диапазон значений получается при работе с натуральным логарифмом , который меняется в пределах (-?,?), имея для случая отсутствия связи значение 0.

Корнфилд [Cornfield J., 1956] и Фишер [Fisher R. А., 1962] предложили метод вычисления точного доверительного интервала для по оценке . К сожалению, им нельзя воспользоваться непосредственно и нужна одна из двух машинных программ, написанных Томасом [Thomas D. G., 1971] или Баптистой и Пайком [Baptista J., PikeM. S., 1977]. Или же можно воспользоваться многочисленными предложенными приближенными доверительными интервалами, правда, Гарт и Томас [Gart J.J. and Thomas D.G. , 1972] нашли, что все они не вполне пригодны.

Таким образом, в настоящее время, хотя оценку или ее логарифм легко подсчитать, их применение лимитируется отсутствием простых способов получения доверительных интервалов. Большинству совсем не известно о возможностях применения отношения преобладаний. Между тем у нас есть теоретические основания полагать, что они применимы, и, более того, когда мы приступим ниже к изучению логарифмически-линейной модели, мы увидим, что там функции типа С играют центральную роль.

2.8. СИММЕТРИЧНЫЕ И АСИММЕТРИЧНЫЕ ЗНАЧЕНИЯ ? ГУТМАНА

Гудмен и Краскал [Goodman L. A., Kruskal E. Н., 1954] полагали, что меры связи должны иметь значения, допускающие интерпретацию во всем диапазоне (а не только в точках -1, 0 и 1). Они рассмотрели много мер, имеющих вероятностную интерпретацию. Наиболее известны среди них, видимо, меры , и ?, впервые предложенные Гутманом [Guttman L., 1941].

[24]

Мера Гутмана основана на следующих рассуждениях. Допустим, что индивиды извлекаются из совокупности случайно и что мы относим их ответы к А, если: а) нет никакой дополнительной информации, б) нет ответа В. Понятно, что дополнительная информация в б) может только усилить шансы на корректность нашего предположения. Если известно, что отсутствие ответа В всегда дает нам право считать предположение об ответе А верным, то А к В будут коррелированы с коэффициентом +1. Если же это не увеличивает наших шансов, то они будут некоррелированы. Гутмановские меры ? - это простые функции относительного увеличения наших шансов на правильность предположения.

Чтобы не раздражать читателей, мы оставим формулы для ? до следующей главы, где нам придется встретиться с более общей ситуацией. Мы поступаем так отчасти для того, чтобы не повторяться, а отчасти потому, что ? -меры не слишком хорошо работают для таблиц 2?2, поскольку если наибольшие частоты обеих строк придутся на один и тот же столбец, то обратится в 0 независимо от значений всех прочих частот.

2.9. МЕРА ГУДМЕНА И КРАСКАЛА

Кроме знаменитых -мер, Гудмен и Краскал предложили еще более простые ? -меры, которые мы подробно обсудим в следующей главе. Для случая 2?2 все три ? -меры (?a> ?b и ?ab) значительно упрощаются и сводятся к

(2.15)

которое суть просто исходная статистика X2 для проверки качества модели (см. уравнение 2.9), деленная на f00.

2.10. МЕРЫ. ОСНОВАННЫЕ НЕПОСРЕДСТВЕННО НА X2

Поскольку ?2-критерий служит основой для проверки независимости, имеет смысл рассмотреть возможность использования вычисленных значений X2 в качестве мер связи. Правда, они изменяются от О до ? вместо привычных -1 ? +1. Предлагалось множество преобразований, среди которых укажем следующие:

, (2.16)

. (2.17)

Статистику ? называют иногда квадратным корнемиз среднего квадрата коэффициента сопряженности, а С называют коэффициентом сопряженности. Неудобство С заключается в том, что его максимальное значение в раза больше, чем 1, Квадрат ?, равный ?2,совпа-

[25]

дает со значением ?, приведенным в (2.15), и тождествен также двум старым мерам: V Крамера и Т Чупрова в их формах для таблиц 2?2. Все прочие меры страдают отсутствием каких бы то ни было статистических интерпретаций и потому не могут быть рекомендованы.

2.11. ВЫБОР МЕР СВЯЗИ

Цель меры связи состоит в том, чтобы дать простой численный ответ на вопрос о степени связи между нашими двумя переменными. Это означает, что если какая-то мера связи дает значение 0,4 для A и В и значение 0,6 для С и D, то более вероятно, что связь между С и D сильнее, чем между А к В. Однако разные меры связи акцентируют внимание на разных аспектах взаимоотношений между переменными и вполне возможно, что какая-нибудь другая мера даст 0,6 для -связи и 0,4 для CD-связи. Краскал [Kjuskal W. Н., 1958] заметил, что нет смысла использовать отдельные меры связи. Несколько разных мер должны дать многоаспектную информацию, а это все, что нужно для понимания того, с какой мерой надо работать. Поэтому мы не будем выяснять, какую меру лучше всего <купить>.

Хантер [Hunter А. А., 19743 изучил, сколь хорошо согласуются различные меры между собой и с интуитивными представлениями о степени связи для разных наборов данных. Он пришел к выводу, что стоит предпочитать такие меры, как ?, и ?. Его работа подверглась критике в интересной серии заметок [Hornung С. A. et al., 1975].

Правда, автор уверяет, что какую бы меру не использовать, исследователь должен довести дело до соответствующего доверительного интервала, т. е. что он должен отдавать себе полный отчет в том, какова неопределенность его точечной оценки. Так, в примере 2.3 утверждение гораздо менее содержательно (и гораздо более чревато опасностью ошибочных толкований), чем утверждение .

[26]