Книги по разным темам Pages:     | 1 | 2 | 3 | 4 | 5 |   ...   | 65 | Математика, механика, информатика УДК 519.235 А. Н. Антамошкин, О. А. Бакаева СРАВНИТЕЛЬНЫЙ АНАЛИЗ ПЕРВЫХ КРИТЕРИЕВ ВЫЯВЛЕНИЯ СВЯЗИ МЕЖДУ КАЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ Проведен сравнительный анализ использования первых критериев оценки связи между категориальными переменными. Показана согласованность этих критериев на примере выявления связи между типом авиарейса и числом крушений.

Ключевые слова: коэффициент ассоциации, коэффициент коллигации Юла, коэффициент контингенции, быстрый критерий, оценки связи.

Признак - это свойство, характерная черта явле- В табл. 1 приняты следующие обозначения:

ния, подлежащая статистическому изучению. Призна- f11 - число элементов выборки, обладающих признаки в зависимости от своей природы классифицируют- ками A и B одновременно; f12 - число элементов выся на количественные и качественные (атрибутив- борки, обладающих признаком А, но не обладающих ные). Признаки, отдельные значения которых разли- признаком В; f21 - число элементов выборки, облачаются по величине, называются количественными дающих признаком В, но не обладающих признаком (например, возраст, рост, вес). Качественные призна- А; f22 - число элементов выборки, не обладающих ни ки выражают существенное неотъемлемое свойство одним из признаков.

предмета. Противоположные качественные признаки Таким образом, fij можно определить как наблюназываются альтернативными (например, мужчина - даемую частоту респондентов или каких-то опредеженщина, ребенок - взрослый). Любой качественный ленных признаков, попавших в ячейку (Аi, Вj). Символ признак можно свести к альтернативному (например, fi0 обозначает частную сумму всех значений признака, студент, обучающийся на лотлично, - студент, не попавших в категорию Аi, аналогично символ f0j обообучающийся на лотлично, полет прошел в штатном значает сумму значений сопряженного ему признака, режиме - возникла аварийная ситуация). относящихся к категории Вj, а символ f00 - общий итог Как известно, основная задача статистики состоит всех рассмотренных случаев. Представим все сказанв выявлении связи между признаками независимо от ное выше на языке формул [1]:

того, какую природу они имеют. Если связь имеется и fi0 = fij, f0 j = fij, f00 = fi0 = f0 j = fij.

она значимая, то вопрос о существовании связи вле j i i j i j чет за собой вопрос о силе данной связи. Методов измерения тесноты взаимосвязи довольно много, но Суммарные частоты по строке или по столбцу навсе они условно делятся на параметрические и непазываются маргинальными частотами. Их значения раметрические.

важны, так как они позволяют оценить распределение Непараметрические методы были первыми из мечастот в отдельных столбцах и строках таблицы.

тодов измерения тесноты взаимосвязи количественСумма маргинальных частот равна объему выборки ных признаков. Эти методы применяются для измереf00 = n, а их распределение представляет собой однония тесноты связи качественных и альтернативных мерное распределение переменной, образующей признаков, а также количественных признаков, расстроки или столбцы таблицы.

пределение которых отличается от нормального расКритериев выявления связи между качественными пределения. Непараметрические методы учитывают признаками существует достаточно много. Среди них направление изменения значений признаков, но не можно выделить критерий Фишера, который позволязависят от того, насколько интенсивно колеблются ет сделать максимально точный вывод о наличии или значения результативного признака при изменении отсутствии связи, но расчет которого затруднен, класфакторного признака, что позволяют сделать парасический критерий 2 и G-критерий Вульфа, точность метрические методы.

которых можно увеличить, используя поправку Йетса.

Для измерения связи альтернативных признаков Однако суть этих критериев состоит в том, что все применяются коэффициент ассоциации и коэффициони не выявляют связь между переменными, а только ент контингенции. Для расчета этих и других показапроверяют заранее выдвинутую гипотезу о наличии телей применяется следующая матрица взаимного связи. Поэтому сначала следует воспользоваться одраспределения частот (табл. 1).

ним из так называемых первых критериев, которые Таблица 1 позволяют предварительно оценить возможность суТаблица сопряженности 2 ществования связи между переменными и выдвинуть правдивую нулевую гипотезу. К таким критериям Категории В1 В2 Всего относятся коэффициент ассоциации, коэффициент А1 f11 f12 fколлигации Юла, коэффициент контингенции и быстА2 f21 f22 fрый критерий оценки связи.

Всего f01 f02 f Вестник Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева Коэффициент ассоциации. Метод измерения свя- Статистика коэффициента коллигации имеет вид зи с помощью четырехклеточной таблицы был предf11 f22 - f12 fложен английскими статистиками Э. Дж. Юлом и KЮ =, М. Дж. Кендаллом. Числитель этого коэффициента, f11 f22 + f12 fназываемого коэффициентом ассоциации, представ- ляет собой определитель исследуемой четырехкле- а дисперсия вычисляется по формуле точной таблицы сопряженности, а знаменатель - сум 11 1 1 му тех же произведений, разность которых стоит в D(KЮ ) = (1- KЮ2 ) + + +.

16 f11 f12 f21 fчислителе:

f11 f22 - f12 fКоэффициент контингенции (сходства). Этот Q =. (1) f11 f22 + f12 fкоэффициент используется для выявления связи межЕсли признаки А и В независимы, то Q = 0. В случае ду признаками, не имеющими количественного выраполной связи между признаками Q = 1. жения (альтернативная вариация, или изменчивость Самым существенным недостатком использования качественных признаков), и применяется только в том коэффициента ассоциации является его непригод- случае, когда исследуемые признаки имеют лишь две ность в случае, если одна из частот равна 0. При этом градации.

коэффициент ассоциации всегда равен 1, а это мож- В математической формуле, описывающей статино ложно трактовать как полную зависимость между стику коэффициента контингенции, его числитель признаками. Поэтому если хотя бы одна из частот аналогичен коэффициенту ассоциации, т. е. представв таблице сопряженности равна 0, то критерий ассо- ляет собой разность произведения частот на главной циации применять нельзя и вместо него используется и побочной диагоналях, а знаменатель является квадкоэффициент контингенции.

ратным корнем из произведения всех четырех маргиКоэффициент ассоциации в плане расчета является нальных частот. В буквенных обозначениях табл. относительно простым показателем сопряженности имеем:

величин. Он применяется к вариации двух качественf11 f22 - f12 fных признаков, распределенных по двум группам. Его V =.

значения принадлежат промежутку от Ц1 до +1. Ин- f11 + f12 f11 + f21 f22 + f12 f22 + f( )( )( )() терпретируется он следующим образом: чем ближе Связь считается подтвержденной, если коэффицикоэффициент по абсолютной величине к 1, тем теснее енты | Q | 0,5 и | V | 0,3, в противном случае присвязь (прямая или обратная). Считается, что если зназнаки А и В альтернативны. Это означает, что данный чение коэффициента ассоциации достигает 0,3, то это объект либо обладает признаком, либо не обладает свидетельствует о возможной существенной связи (знак минус показывает наличие обратной связи между признаками. Однако можно сказать, что этот при условии ее подтверждения). В случае | Q | > 0,показатель очень либерально оценивает тесноту свяи | V | < 0,3 (| Q | < 0,5 и | V | > 0,3) точного ответа о зи, завышая ее.

наличии или отсутствии связи нет.

Если предположить, что суммарная частота f00 досСвойства коэффициента контингенции те же, что и таточно велика, то величина Q имеет нормальное расу коэффициента корреляции. Коэффициент континпределение с дисперсией [2]:

генции обращается в 0, если оба произведения в чис 11 1 1 DQ) = (1- Q2 ) + + +, (2) лителе точно уравновешиваются (что крайне малове( 4 f11 f12 f21 f роятно). Коэффициент контингенции равен +1 лишь благодаря чему можно найти приближенные довери- в том случае, когда f12 и f21 одновременно равны 0 и Цтельные границы для Q. Сравнение Q с полученным или когда f11 и f22 одновременно равны 0. В отличие от него коэффициент ассоциации равен 1 уже в случае, значением дисперсии (с учетом масштаба DQ) ) ( если одно из чисел в клетках таблицы оказалось равпозволяет получить хотя бы первое приближение по ным 0, как это уже отмечалось ранее. Величина коэфоценке связи. Но так как в формуле (2) присутствуют фициента контингенции всегда меньше величины кодроби, то, исходя из области определения, дисперсию в виде конечного числа можно вычислить только эффициента ассоциации.

На практике для проверки гипотезы о существовав том случае, если все значения в ячейках таблицы нии взаимосвязи между изучаемыми признаками иссопряженности отличны от нуля.

пользуется величина 2 = nV 2, имеющая при отсутстКоэффициент коллигации Юла. Этот способ вии связи распределение 2 с d = 1 степенью свободы.

выявления связи между переменными мало известен и С учетом поправки на непрерывность статистика практически не используется.

критерия контингенции имеет вид Существует выражение, позволяющее найти его приближенное значение, зная значение коэффициента f f00 f11 f22 - f21 f12 ассоциации Q:

2 =, 2KЮ f11 + f12 f11 + f21 f12 + f22 f21 + f( )( )()() Q =, 1+ KЮ где f00 - общее число данных в таблице, f00 = f11 + f12 + где KЮ - коэффициент коллигации Юла.

+ f21 + f22.

Математика, механика, информатика Если 2 > 2, то зависимость признаков А и В рии не утверждают, а лишь предполагают отсутствие с достоверностью признается значимой. или наличие связи.

Критерий 2 = nV применяется при f00 40 Пример. В последнее десятилетие в связи со все и f11, f12, f21, f22 5 [3]. большей востребованностью и доступностью гражБыстрый критерий оценки связи. Предыдущие данского авиатранспорта появляется много чартерных коэффициенты позволяют грубо оценить меру связи рейсов. При этом существует точка зрения, что число между качественными переменными и дают возмож- авиакрушений чартерных рейсов больше, чем обычность получить хотя бы предварительное представле- ных - см. данные таблицы 2 [4]. Проверим с помощью ние о наличии связи и ее величине, а это в свою оче- всех вышеперечисленных способов выявления связи, редь позволяет корректно сформулировать нулевую действительно ли существует зависимость между тигипотезу о зависимости или независимости перемен- пом рейса и количеством аварий.

ных и далее проверить ее с помощью более точных Таблица критериев. Но кроме грубых оценок связи, позвоТаблица авиакрушений с жертвами за 1959Ц2007 гг. [4] ляющих предварительно оценить ее меру, существуют математически более тонкие и быстрые, хотя такКоличество авиакрушений же носящие скорее вспомогательный характер, спосос жертвами Тип рейса Всего бы оценки связи. К таким оценкам относится быстрый 1959Ц1997 гг. 1998Ц2007 гг.

критерий.

Обычный 341 74 В зависимости от некоторых особенностей распоЧартерный 39 4 ложения и значений частот в таблице сопряженности Всего 380 78 применяются разные статистики.

При f11 + f12 + f21 + f22 25 и при условии f11 + f12 = Расчет коэффициента ассоциации. Так как в таб= f21 + f22 или f11 + f21 = f12 + f22 быстрым критерием лице сопряженности все ячейки с частотами отличны оценки связи является величина от нуля, то по формуле (1) можно вычислить значение ( f11 + f22 ) - ( f12 + f21) коэффициента ассоциации:

z =. (3) f11 + f12 + f21 + f3414 - Q == -0,358.

Связь признаков в таблице сопряженности частот с 341 4 + достоверностью признается значимой, если z > u, В данном случае знак минус говорит о том, что где u - -квантиль стандартного нормального рассвязь обратная, т. е. с течением времени количество пределения.

авиакрушений уменьшается. Модуль значения коэфЕсли f11 + f12 10 при условии f11 + f12 < f21 + fфициента равен 0,358, т. е. больше 0,3, что говорит или f11 + f21 < f12 + f22, то справедлив критерий о возможной существенной связи между признаками ( f11 + f21 - f12 - f22 )( f11 + f12 ) тип рейса и количество аварий.

f11 - f12 + Исходя из полученного значения коэффициента f11 + f12 + f21 + f z =. (4) ассоциации определим дисперсию:

f11 + fDQ) = 1- (-0,358)2 + + + = 0,064, ( () 1 1 1 Если | z | > u, то связь признаков признается значи- 4 341 74 39 мой [3].

По внешнему виду таблицы сопряженности частот D (Q) = 0,064 = 0, 253.

можно увидеть следующую закономерность. Если связь между признаками является прямой, то частоты Анализируя полученные данные, можно сделать значений признаков сконцентрированы на главной промежуточный вывод о том, что связь между типом диагонали, т. е. в ячейках f11 и f22. При наличии обрат- рейса и числом аварий скорее не существует, так как ной связи значения сосредоточены на побочной диа- коэффициент Q = Ц0,358 недостаточно велик по сравгонали, т. е. в ячейках f12 и f21. При отсутствии связи нению со своими среднеквадратическим отклоненичастоты практически равномерно распределены по ем, т. е. не превышает его более чем в три раза.

всему полю таблицы. Зная дисперсию, рассчитаем приближенный довеРассмотренные выше первые критерии выявле- рительный интервал для истинного значения связи, ния взаимосвязи имеют ряд преимуществ, к которым измеряемой с помощью коэффициента ассоциации Q:

относятся простота, легкость в расчетах, получение Q 1,96 DQ). В результате получим:

( быстрого ответа на вопрос, существует ли какая-то зависимость между исследуемыми переменными. Но - 0,358 1,96 0,064 или (Ц0,854; 0,138).

эти преимущества влекут за собой и недостатки их Нетрудно заметить, что этот интервал накрывает использования, среди которых самыми явными являзначение 0, соответствующее независимости признаются неудовлетворительная точность полученных ков. Следовательно, имеющиеся данные не дают освыводов, в основном - завышение оценки силы связи, нований для отбрасывания возможности независимои отсутствие точного и прямого ответа на вопрос, засти. Таким образом, коэффициент ассоциации гововисимы ли переменные, потому что первые крите Вестник Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева рит о возможной существенной связи между призна- нивает тесноту связи, завышая ее. Поправку на непреками, не исключая возможности их независимости. рывность при данном расчете также использовать Расчет коэффициента коллигации Юла. Коэффи- нельзя, потому что, несмотря на то что объем выборциент коллигации в данном случае составит ки больше 40 (f00 = 458), частота в одной ячейке меньше 5. Поэтому необходимо воспользоваться од341 4 - ним из более точных критериев.

Pages:     | 1 | 2 | 3 | 4 | 5 |   ...   | 65 |    Книги по разным темам