Книги по разным темам Pages:     | 1 |   ...   | 17 | 18 | 19 | 20 | 21 |   ...   | 82 |

n ij(j) G J Если признаки не зависимы, то соответствующая статистика критерия имеет известное распределение, называемое 2-распределением (см. Приложение A.3.2). Данное распределение имеет один параметр Ч число степеней свободы df (degrees free), показывающее количество независимых случайных веc личин, квадраты которых входят в сумму. Так, в статистику 2 входят квадраты K (KJKJ ) величин I(J)+I(J) - I(J)I(J), но не все они независимы, т.к. удовле творяют целому ряду линейных соотношений.

Действительно, например:

(I(J)+I(J) - I(J)I(J)) =0K, J J где 0K Ч матричный нуль, имеющий размерность KJ. То есть KJ величин J I(J)+IK (J) -IK(J)I(J) линейно выражаются через другие величины. Пусть мно жество этих величин обозначается I(J).

Аналогично, исходные величины I(J)+I(J) - I(J)I(J) можно суммировать по J и установить, что KJ величин IK(J)+I(J) - I(J)IK (J) линейно выража ются через остальные; их множество можно обозначить I(J).

Эти два множества I(J) и I(J) имеют один общий элемент: IK(J)+IK (J) -IK(J)IK(J). Таким образом, количество степеней свободы df2 (при l =2) рав но K - KJ - KJ +1=(KJ - 1)(KJ - 1). Аналогично рассуждая, можно устано вить, что df3 =(KJ - 1)(KJ1 - 1)(KJ2 - 1), dfL = (kj - 1).

J Итак, чтобы ответить на вопрос, являются ли независимыми изучаемые множеc ства признаков, необходимо расчетное значение статистики 2 сравнить со знаl чением 95-процентного квантиля 2 -распределения (в п. 2.4 отмечалось, что dfl в статистике вполне приемлемым считается 95-процентный уровень доверия), который обозначается 2 (это Ч односторонний квантиль, так как плотность dfl, 0.2-распределения расположена в положительной области значений случайной величины и не симметрична). Значения этих квантилей находят в соответствующих статистических таблицах и называют теоретическими, или табличными. Если расчетное значение не превышает табличное (т.е. является достаточно малым), то нулевая гипотеза не отвергается и данные множества признаков считаются незави4.2. Регрессионный анализ симыми. Если расчетное значение больше табличного, то множества признаков определяются как зависимые между собой с уровнем ошибки 5%.

Современные пакеты прикладных статистических программ избавляют от необходимости пользоваться статистическими таблицами, т.к. расчет статистики критерия сопровождается оценкой уровня его значимости sl (significance level).

Для некоторых критериев этот показатель называется значением вероятности pv (probability value). Уровень значимости sl Ч это такое число, что c 2 = 2.

l dfl,1-sl То есть нулевая гипотеза отвергается с вероятностью ошибки 0.05, если sl < 0.05.

В случае 2-х признаков среднеквадратичная сопряженность имеет следующий вид (здесь и ниже используется 1-й способ обозначений):

c (i1i2 - i1i2)2 = N, i1ii1,iа соответствующее ей 2-распределение имеет (k1 -1)(k2 -1) степеней свободы;

множество i1 образовано величинами i1k2 - i1k2, i1 =1,..., k1, множество i2 Ч величинами k1i2 -k1i2, i2 =1,..., k2, общим для них является элемент k1k2 - k1k2.

Далее в этой главе рассматривается в основном случай двух признаков.

4.2. Регрессионный анализ В качестве значений признаков xi1 и xi2 на полуинтервалах, как и прежде, принимаются середины этих полуинтервалов. Средние и дисперсии признаков рассчитываются по известным формулам:

x1 = xi1i1, x2 = xi2i2;

s2 = (xi1- )2 i1, s2 = (xi2 - x2)2 i2 или, более компактно, x1 s2 = x2 i1, s2 = x2 i2.

1 i1 2 iВажной характеристикой совместного распределения двух признаков является ковариация Ч совместный центральный момент 2-го порядка:

m12 = xi1xi2i1i2.

Дисперсия Ч частный случай ковариации (ковариация признака с самим собой), поэтому для обозначения дисперсии j-го признака часто используется mjj.

142 Глава 4. Введение в анализ связей В случае независимости признаков, когда i1i2 = i1i2, как несложно убедиться, ковариация равна нулю. Равенство ковариации нулю2 является необходимым, но не достаточным условием независимости признаков, т.к. ковариация Ч характеристика только линейной связи. Если ковариация равна нулю, признаки линейно независимы, но какая-то другая форма зависимости между ними может существовать.

Мерой линейной зависимости является относительная ковариация, называемая коэффициентом корреляции:

mr12 =.

m11mЭтот коэффициент по абсолютной величине не превышает единицу (этот факт доказывается ниже). Если его значение близко к нулю, то признаки линейно независимы, если близко к плюс единице Ч между признаками существует прямая линейная зависимость, если близко к минус единице Ч существует обратная линейная зависимость. В частности, легко убедиться в том, что если xi1 = a12xi (т.е. между признаками имеет место линейная зависимость), то r12 = 1.

Значения ковариаций и коэффициентов корреляции симметричны: m12 = m21, r12 = r21.

В дальнейшем рассуждения проводятся так, как будто 1-й признак зависит от 2-го (хотя с тем же успехом можно было бы говорить о зависимости 2-го признака от 1-го). В таком случае переменная x1 (значения 1-го признака) называется объясняемой, моделируемой, эндогенной, а переменная x2 (значения 2-го признака) Ч объясняющей, факторной, экзогенной.

Наряду с общей средней 1-го признака x1 полезно рассчитать условные сред ние x1 | i2 3 Ч средние 1-го признака при условии, что 2-й признак зафиксирован на определенном уровне i2. При расчете таких средних усреднение значений признака на полуинтервалах проводится по относительным частотам не маргинального (i1), а соответствующих условных распределений (i1 | i2):

x1 | i2 = xi1i1 | i2.

Усреднение этих величин по весам маргинального распределения 2-го признака дает общее среднее:

x1 = xi1i1 = xi1i1i2 = xi1i1 | i2i2 = x1 | i2i2.

i1 i2 i1 i2 i1 iРавенство или неравенство нулю понимается в статистическом смысле: не отвергается или отвергается соответствующая нулевая гипотеза.

В общем случае вектор условных средних признаков J обозначается xJ/I(J).

4.2. Регрессионный анализ В непрерывном случае эти формулы принимают вид:

E (x1|x2) = x1f (x1|x2) dx1, E (x1) = E (x1|x2) f (x2) dx2.

- (Об условных и маргинальных распределениях см. Приложение A.3.1.) Условные дисперсии признака рассчитываются следующим образом:

s2 = xi1 - x1 | i2 i1 | i2.

1 | iОтклонения фактических значений признака от условных средних ei1 | i2 = xi1 - x1 | iобладают, по определению, следующими свойствами:

а) их средние равны нулю:

ei1 | i2i1 | i2 =0, б) их дисперсии, совпадающие с условными дисперсиями признака, минимальны (суммы их квадратов минимальны среди сумм квадратов отклонений от какихлибо фиксированных значений признака Ч наличие этого свойства у дисперсий доказывалось в п. 2.4):

s2 = e2 i1 | i2 = s2 =min (xi1 - c)2 i1 | i2.

e1 | i2 i1 | i2 1 | i2 c Общая дисперсия связана с условными дисперсиями более сложно:

s2 = x2 i1 = x2 i1i2 = 1 i1 ii1 i = xi1 - x1 | i2 + x1 | i2 - x1 i1i2 = i1 i 2 = xi1 - x1 | i2 i1i2 +2 xi1 - x1 | i2 x1 | i2 - x1 i1i2 + i1 i2 i1 i + x1 | i2 - x1 i1i2 = i1 i144 Глава 4. Введение в анализ связей i |i-- i1i= i2 xi1 - x1 | i2 + ii2 i ------------------se1 | i=----------------- +2 i2 x1 | i2 - x1 xi1 - x1 | i2 i1 | i2 + ii------------------------------------= + x1 | i2 - x1 i1i2 = s2 + s2.

e1 qi2 i ---iРавенство нулю среднего слагаемого в этой сумме означает, что отклонения фактических значений 1-го признака от условных средних не коррелированы (линейно не связаны) с самими условными средними.

В терминах регрессионного анализа s2 Ч объясненная дисперсия, т.е. та дисперсия 1-го признака, которая qобъясняется вариацией 2-го признака (в частности, когда признаки независимы и условные распределения 1-го признака одинаковы при всех уровнях 2-го признака, то условные средние не варьируют и объясненная дисперсия равна нулю);

s2 Ч остаточная дисперсия.

eЧем выше объясненная дисперсия по сравнению с остаточной, тем вероятнее, что 2-й признак влияет на 1-й. Количественную меру того, насколько объясненная дисперсия должна быть больше остаточной, чтобы это влияние можно было признать существенным (значимым), дает критерий Фишера, или F-критерий.

c Статистика этого критерия F рассчитывается следующим образом:

s2 k2 (k1 - 1) qc F =.

s2 (k2 - 1) eВ случае если влияние 2-го признака на 1-й не существенно, эта величина имеет F-распределение (см. Приложение A.3.2). Такое распределение имеет случайная величина, полученная отношением двух случайных величин, имеющих 2-распределение, деленных на количество своих степеней свободы:

2 dfdfFdf1, df2 =.

2 dfdfКоличество степеней свободы в числителе (df1) и знаменателе (df2) относится к параметрам F -распределения.

4.2. Регрессионный анализ Рассуждая аналогично тому, как это сделано в конце предыдущего пункта, можно установить, что объясненная дисперсия (в числителе F -статистики) имеет k2-степеней свободы, а остаточная дисперсия (в знаменателе) Ч k2(k1 - 1) степеней свободы. Это объясняет указанный способ расчета данной статистики.

Чтобы проверить гипотезу о наличии влияния 2-го признака на 1-й, необходимо c сравнить расчетное значение статистики F с теоретическим Ч взятым из соответствующей статистической таблицы 95-процентным квантилем (односторонним) F -распределения с k2-1 и k2(k1-1) степенями свободы Fk2-1,k2(k1-1), 0.95. Если расчетное значение не превышает теоретическое, то нулевая гипотеза не отвергается, и влияние считается не существенным. В противном случае (объясненная дисперсия достаточно велика по сравнению с остаточной) нулевая гипотеза отвергается и данное влияние принимается значимым. Современные статистические пакеты прикладных программ дают уровень значимости расчетной статистики, называемый в данном случае значением вероятности pv:

c F = Fk2-1, k2(k1-1), 1-pv.

Если pv < 0.05, то нулевая гипотеза отвергается с вероятностью ошибки 5%.

Линия, соединяющая точки xi2, x1 | i2 в пространстве значений признаков (абсцисса Ч 2-й признак, ордината Ч 1-й) называется линией регрессии, она показывает зависимость 1-го признака от 2-го. Условные средние, образующие эту линию, являются расчетными (модельными) или объясненными этой зависимостью значениями 1-го признака. Объясненная дисперсия показывает вариацию значений 1-го признака, которые расположены на этой линии, остаточная дисперсия Ч вариацию фактических значений признака вокруг этой линии.

инию регрессии можно провести непосредственно в таблице сопряженности.

Это линия, которая соединяет клетки с максимальными в столбцах плотностями относительных частот. Понятно, что о такой линии имеет смысл говорить, если имеются явные концентрации плотностей относительных частот в отдельных клетках таблицы сопряженности. Критерием наличия таких концентраций как раз и является F -критерий.

В непрерывном случае уравнение x1 = E (x1|x2) называют уравнением регрессии x1 по x2, т.е. уравнением статистической зависимости 1-го признака от 2-го (о свойствах условного математического ожидания см. Приложение A.3.1). Это уравнение выражает статистическую зависимость, поскольку показывает наиболее вероятное значение, которое принимает 1-й признак при том или ином уровне 2-го признака. В случае если 2-й признак является единственным существенно влияющим на 1-й признак, т.е. это уравнение выражает 146 Глава 4. Введение в анализ связей теоретическую, истинную зависимость, эти наиболее вероятные значения называют теоретическими, а отклонения от них фактических значений Ч случайными ошибками измерения. Для фактических значений x1 это уравнение записывают со стохастическим членом, т.е. со случайной ошибкой, остатками, отклонением фактических значений от теоретических:

x1 = E (x1|x2) +1.

Случайные ошибки по построению уравнения регрессии имеют нулевое математическое ожидание и минимальную дисперсию при любом значении x2, они взаимно независимы со значениями x2. Эти факты обсуждались выше для эмпирического распределения.

В рассмотренной схеме регрессионного анализа уравнение регрессии можно построить лишь теоретически. На практике получают линию регрессии, по виду которой можно лишь делать предположения о форме и, тем более, о параметрах зависимости.

В эконометрии обычно используется другая схема регрессионного анализа.

В этой схеме используют исходные значения признаков xi1, xi2, i =1,..., N без предварительной группировки и построения таблицы сопряженности, выдвигают гипотезу о форме зависимости f : x1 = f (x2, A), гд е A Ч параметры зависимости, и находят эти параметры так, чтобы была минимальной остаточная дисперсия s2 = (xi1 - f (xi2, A))2.

eN i Такой метод называется методом наименьших квадратов (МНК).

Ковариация и коэффициент корреляции непосредственно по данным выборки рассчитываются следующим образом:

1 mjj mjj = (xij - xj) xij - xj, rjj =, j, j =1, 2.

N mjjmj j Далее в этом пункте рассматривается случай линейной регрессии, т.е. случай, когда x1 = 12x2 + 1 + 1, (4.18) где 12, 1, 1 Ч истинные значения параметров регрессии и остатков.

Следует иметь в виду, что регрессия линейна, если форма зависимости признаков линейна относительно оцениваемых параметров, а не самих признаков, 4.2. Регрессионный анализ и уравнения x1 = 12 x2 + 1 + 1, x1 = 12 + 1 + 1, xln x1 = 12 ln x2 +ln1 +ln1 (x1 = x1211), и т.д. также относятся к линейной регрессии. Во всех этих случаях метод наименьших квадратов применяется одинаковым образом. Поэтому можно считать, что в записи (4.18) x1 и x2 являются результатом какого-либо функционального преобразования исходных значений.

Оценки параметров регрессии и остатков обозначаются соответствующими буквами латинского алфавита, и уравнение регрессии, записанное по наблюдениям i, имеет следующий вид:

xi1 = a12xi2 + b1 + ei1, i =1,..., N, (4.19) а в матричной форме:

X1 = X2a12 +1N b1 + e1, (4.20) где X1, X2 Ч вектор-столбцы наблюдений размерности N, соответственно, за 1-м и 2-м признаками, e1 Ч вектор-столбец остатков; 1N Ч вектор-столбец размерности N, состоящий из единиц.

Прежде чем переходить к оценке параметров регрессии (применению метода наименьших xквадратов), имеет смысл объяснить происхождение термина регрессия. Этот термин введен английским статистиком Ф. Гальтоном <45 в последней четверти XIX века при изучении зависимости роста сыновей от роста отцов.

Оказалось, что если по оси абсцисс расположить рост отцов (x2), а по оси ординат Ч xрост сыновей (x1), то точки, соответствующие проведенным наблюдениям (облако тоРис. 4.чек наблюдений), расположатся вокруг некоторой прямой (рис. 4.1).

Pages:     | 1 |   ...   | 17 | 18 | 19 | 20 | 21 |   ...   | 82 |    Книги по разным темам