Для того чтобы дать определение таким коэффициентам вариации, необходимо ввести понятие среднего по части совокупности.
Математическое ожидание можно представить в следующей форме:
xF + 1 E (x) =F xf (x) dx +(1- F ) xf (x) dx = F 1 - F - xF = F EF (x) +(1- F ) E+ (x).
F Квантиль xF делит совокупность на две части, по каждой из которых определяется свое математическое ожидание:
EF (x) Чпонижнейчасти, E+ (x) Ч по верхней части совокупности.
F Приведенное тождество определяет связь между двумя этими математическими ожиданиями:
E+ (x) = (E (x) - F EF (x)).
F 1 - F 74 Глава 2. Описательная статистика По выборке аналогичные частичные средние рассчитываются следующим образом.
Пусть xi, i =1,..., N ряд наблюдений, упорядоченный по возрастанию. Тогда i Fi =, i =1,..., N Ч накопленные относительные частоты, N i xi = xi Ч i-я средняя по нижней части, i =1,..., N ( =0), xi i =N 1 x+ = xi = ( - Fi xi) Ч i-я средняя по верхней части, x i N - i 1 - Fi i =i+ i =0, 1,..., N x+ =0.
N Такой расчет не имеет необходимой иногда степени общности, поскольку позволяет найти частичные средние лишь для некоторых квантилей, которыми в данном случае являются сами наблюдения (xi = xF ). Для квантилей xF при любых F частичi ные средние находятся по данным эмпирического распределения (предполагается, что l-й полуинтервал является квантильным):
l- 1 xF = l xl +(F - Fl-1) (zl-1 + xF ) F l =Ч средняя по нижней части совокупности (здесь (zl-1 + xF ) Ч центр последнего, неполного полуинтервала, F - Fl-1 Ч его вес). После подстановки выражения для квантиля xF, полученного в предыдущем пункте, эта формула приобретает следующий вид:
l- 1 F - Fl-xF = l xl +(F - Fl-1) zl-1 + l.
F 2i l =При расчете средней по верхней части совокупности проще воспользоваться полученной выше формулой:
x+ = ( - F xF ).
x F 1 - F Для расчета квантильного коэффициента вариации совокупность делится на 3 части: верхняя часть, объемом не более половины, нижняя часть такого же объема и средняя часть, не используемая в расчете. Данный коэффициент, называемый F 100-процентным (например, 15-процентным), рассчитывается как отношение средних по верхней и нижней части совокупности:
x+ - (1 - F ) x1-F x 1-F =, xF F xF E+ (x) E (x) - (1 - F ) E1-F (x) 1-F =, где F 0.5.
EF (x) F EF (x) 2.4. Моменты и другие характеристики распределения При использовании непосредственно данных выборки эта формула имеет другой вид:
x+ - (1 - Fi) xN-i N x N-i =, где i.
xi Fi xi Такие коэффициенты вариации называют иногда, как и соответствующие квантили, медианными, если F = 0.5, квартильными, если F = 0.25, децильными, если F = 0.1, процентильными, если F = 0.01. Наиболее употребительны децильные коэффициенты вариации.
При расчете коэффициентов вариации в любой из приведенных форм предполагается, что характеризуемый признак может принимать только неотрицательные значения.
Существует еще один Ч графический Ч способ представления степени разброса значений признака в совокупности. Он используется для совокупностей объемных признаков, принимающих положительные значения.
Это Ч кривая Лоренца или кривая конценКривая трации. По абсциссе расположены доли наЛоренца копленной частоты, по ординате Ч доли наНакопленные относительные копленного суммарного признака. Она имечастоты (%%) ет вид, изображенный на графике (рис. 2.10).
Чем более выпукла кривая, тем сильнее дифРис. 2.ференцирован признак.
По оси абсцисс кривой Лоренца расположены значения величины F 100%, пооси ординат Ч в случае использования теоретического распределения Ч значения величины:
xF xf (x) dx 100% + xf (x) dx (предполагается, что x 0), или, используя введенные выше обозначения д ля частичных средних, EF (x) F 100%.
E (x) При использовании данных эмпирического распределения по оси ординат расположены значения величины xF F 100%.
x ного признака (%%) Накопленные доли суммар76 Глава 2. Описательная статистика При построении кривой непосредственно по данным ряда наблюдений сначала на графике проставляются точки xi Fi 100%, Fi 100%, i =1,..., N, x а затем они соединяются отрезками прямой линии.
В случае, если значение признака в совокупности не варьируется, средние по всем ее частям одинаковы, и кривая Лоренца является отрезком прямой линии (пунктирная линия на рис. 2.10). Чем выше вариация значений признака, тем более выпукла кривая. Степень ее выпуклости или площадь выделенной на рисунке области может являться мерой относительного разброса.
Кривую Лоренца принято использовать для иллюстрации распределения дохода или имущества в совокупностях людей, представляющих собой население отдельных стран или регионов. Отсюда ее второе название Ч кривая концентрации. Она выражает степень концентрации богатства в руках меньшинства.
В статистике центральные моменты q-го порядка обычно обозначаются через mq (q Ч для теоретических величин):
mq = m(q, x) (q = (q, E(x)).
Нормированный центральный момент 3-го порядка m3 d3 = 3 = s3 часто используется как мера асимметрии (скошенности) распределения. Если распределение симметрично, то этот показатель равен нулю. В случае его положительности считается, что распределение имеет правую асимметрию, при отрицательности Ч левую асимметрию (см. Приложение A.3.1).
Следует иметь в виду, что такое определение левой и правой асимметрии может не соответствовать определению, данному в предыдущем пункте. Возможны такие ситуации, когда распределение имеет правую асимметрию, и среднее превышает медиану, но данный показатель отрицателен. И наоборот, среднее меньше медианы (левая асимметрия), но этот показатель положителен.
В этом можно убедиться, рассуждая следующим образом.
Пусть (x) Ч функция плотности вероятности симметричного относительно нуля распределения с дисперсией 2, т.е.
+ + + x (x) dx =0, x2 (x) dx = 2, x3 (x) dx =0, - - + (x) dx = (x) dx =0.5, (x) =(-x).
- 2.4. Моменты и другие характеристики распределения Цa 0 x a Рис. 2.Рассматривается случайная величина x, имеющая функцию плотности вероятности f(x) =(x) +(x).
Функция вносит асимметрию в распределение x. Ее график имеет видЧ сплошная линия на рисунке 2.11, а свойства таковы:
+ + (x) =-(-x), (x) dx =0, (x) dx = (x) dx =0.
- - Параметр не должен быть слишком большим по абсолютной величине, чтобы сохранялась унимодальность распределения (и, конечно же, неотрицательность функции плотности).
Можно обозначить + a - (x) dx = (a + x) dx = S >0 и определить величины a1 и a2 :
+ a x (x) dx = -a1S, x (a + x) dx = a2S.
0 Понятно, что a1 Ч математическое ожидание случайной величины, заданной на отрезке [0, a] и имеющей плотность распределения - (x), поэтому 0
S Аналогично, a2 Ч математическое ожидание случайной величины, заданной на отрезке [0, ] с плотностью вероятности (a + x), поэтому 0
S 78 Глава 2. Описательная статистика Теперь легко видеть, что (вводя дополнительное обозначение a3) + + + a x=a+y x(x) dx = x(x) dx + x(x) dx = -a1S + a (a + y) dy + 0 0 a ------- ----------a1S S + + y (a + y) dy = S (-a1 + a + a2) =a3 > 0.
-----------a2S Аналогичным образом можно доказать, что + x3 (x) dx = a4 > 0.
Прибавление к не меняет медиану, т.к.
+ + + f (x) dx = (x) dx + (x) dx =0.5, 0 0 ------ ------0.5 но сдвигает среднее (из нуля):
+ + + E (x) = xf (x) dx = x (x) dx + x (x) dx = - - ------ + = x (x) dx + x (x) dx =2a3.
- ----------------- a3 aТаким образом, в соответствии с данным выше определением, если >0, распределение имеет правую асимметрию (увеличивается плотность вероятности больших значений признака), и среднее, будучи положительным, выше медианы. Если <0, распределение характеризуется левой асимметрией, и среднее ниже медианы.
2.4. Моменты и другие характеристики распределения Теперь находится 3-й центральный момент:
+ 3 = (x - E (x))3 f (x) dx = + + + = x3f (x) dx - 3E (x) x2f (x) dx +3E2(x) xf(x)dx - E3(x) = - - ------------------2E3(x) + + + + = x3(x)dx + x3(x)dx -3E(x) x2(x)dx + x2(x)dx + - - - ------- --------- ------- --------0 2a4 E(x)=2a+2E3(x) = 2(a4 - 3a32 +82a3 =2 (D + R), где D = a4 - 3a32, R =82a3.
Второе слагаемое в скобках Ч R Ч всегда положительно, и, если D (первое слагаемое) неотрицательно, то введенный показатель асимметрии работает правильно: если он положителен, то асимметрия Ч правая, если отрицателен, то Ч левая.
Однако D может быть отрицательным. Это легко показать.
aПусть при заданном эта величина положительна (в этом случае > 1).
3aСжатием графика этой функции к началу координат (пунктирная линия на рис. 2.11) всегда можно добиться смены знака данной величины.
Преобразованная (сжатая) функция асимметрии связана с исходной функцией следующим образом:
(x) = (kx), где k >1.
Свойства этой новой функции те же, что и исходной, и поэтому все проведенные выше рассуждения для новой случайной величины с функцией плотности + дадут те же результаты. Новая величина D, обозначаемая теперь D, связана с исходными величинами следующим образом:
1 D = 4 - 332 = a4 - 3ak2 k+ + 1 kx=y, x= y, dx= dy k k 1 например, 3 = x (kx) dx = y (y) dy = ak2 k0 aипри k > > 1 она отрицательна.
3a80 Глава 2. Описательная статистика Таблица 2.X -3 -2 -1 0 1 2 0.0625 0.125 0.1875 0.25 0.1875 0.125 0. 0 -1 1 0 -1 1 -0.2 -1 1 0 -1 1 0. В такой ситуации (если достаточно мал, и вслед за D отрицательно и D + R) 3-й центральный момент оказывается отрицательным при правой асимметрии и положительным при левой асимметрии.
Можно привести числовой пример совокупности с правой асимметрией, 3-й центральный момент которой отрицателен. Исходные данные приведены в таблице 2.1.
При =0.03 среднее равно 0.06 (превышает медиану, равную 0), а 3-й центральный момент равен -0.187. Но стоит немного растянуть функцию асимметрии от начала координат (последняя строка таблицы), как ситуация приходит в норму.
При том же среднее становится равным 0.108, а 3-й центральный момент равен +0.097.
Проведенный анализ обладает достаточной степенью общности, т.к. любую функцию плотности вероятности f можно представить как сумму функций и суказанными выше свойствами (при этом =1). Эти функции определяются следующим образом (предполагается, что медиана для функции f равна 0):
1 (x) = (f (x) +f (-x)), (x) = (f (x) - f (-x)).
2 Таким образом, если асимметрия сосредоточена вблизи от центра распределения (функция асимметрии достаточно поджата к медиане), то 3-й центральный момент не может играть роль показателя асимметрии.
o ( - x x ) Надежным показателем асимметрии является величина или, учитывая s приведенную в предыдущем пункте эмпирическую закономерность в расположении 3(x - x0.5) моды, медианы и среднего,.
s Достаточно употребителен также квартильный коэффициент асимметрии, рассчитываемый как отношение разности квартильных отклонений от медианы к их сумме:
(x0.75 - x0.5) - (x0.5 - x0.25) x0.25 + x0.75 - 2x0.=.
(x0.75 - x0.5) +(x0.5 - x0.25) x0.75 - x0.2.4. Моменты и другие характеристики распределения Эти три коэффициента положительны при правой асимметрии и отрицательны при левой. Для симметричных распределений значения этих коэффициентов близки к нулю. Здесь требуется пояснить, что означает близки к нулю.
Рассчитанные по выборке, значения этих коэффициентов Ч пусть они обозначаются через Kc (c Ч calculated) Ч не могут в точности равняться нулю, даже если истинное распределение в генеральной совокупности симметрично. Как и исходные для их расчета выборочные данные, эти коэффициенты являются случайными величинами K с определенными законами распределения. Эти законы (в частности, функции плотности вероятности) известны в теории статистики, если справедлива нулевая гипотеза, в данном случае Ч если истинное распределение симметрично. А раз известна функция плотности, то можно определить область, в которую с наибольшей вероятностью должно попасть расчетное значение коэффициента Kc в случае справедливости нулевой гипотезы. Эта область, называемая доверительной, выделяется квантилем KF с достаточно большим F. Обычно принимают F =0.95. В данном случае K могут быть как положительными, так и отрицательными, их теоретическое распределение (при нулевой гипотезе) симметрично относительно нуля, и использоваться должен двусторонний квантиль.
Если расчетное значение Kc попадает в доверительную область, т.е. оно по абсолютной величине не превосходит KF, то нет оснований считать, что истинное распределение не симметрично, и нулевая гипотеза не отвергается. На основании этого не следует делать вывод о симметричности истинного распределения.
Установлено только то, что наблюдаемые факты не противоречат симметричности. Другими словами, если распределение симметрично, то расчетное значение попадает в доверительную область. Но обратное может быть не верным.
Если расчетное значение не попадает в доверительную область или, как говорят, попадает в критическую область, то маловероятно, что величина K имеет принятое (при нулевой гипотезе) распределение, и нулевая гипотеза отвергается с вероятностью ошибки (1-го рода) 1 - F (обычно 0.05). Причем если Kc >KF, то принимается гипотеза о правой асимметрии, если Kc < -KF, то принимается гипотеза о левой асимметрии.
Границы доверительной (критической) области зависят от числа наблюдений.
Чем больше наблюдений, тем меньше KF, при прочих равных условиях, т.е. тем у же доверительная область Ч область нуля. Это означает, что чем больше использовано информации, тем точнее, при прочих равных условиях, сделанные утверждения.
Таким образом, фраза Kc близко к нулю означает, что |Kc| KF.
Приведенные здесь рассуждения используются в теории статистики при проверке статистических гипотез, или тестировании (по англоязычной терминологии), а также при построении доверительных интервалов (областей).
82 Глава 2. Описательная статистика Подробнее о проверке гипотез см. Приложение A.3.3.
Нормированный центральный момент 4-го порядка m4 d4 = 4 = s4 называется куртозисом (от греческого слова o Ч горбатый). По его величине судят о высоковершинности унимодального распределения. Если распределение близко к нормальному, то этот показатель равен приблизительно 3 (лприблизительно понимается в том же смысле, что и близко к нулю в предыдущем случае). Если r4 > 3, то распределение высоковершинное, в противном случае Ч низковершинное. На этом основании вводится показатель, называемый эксцессом (см. Приложение A.3.1):
d4 - 3 (4 - 3).
Его используют для оценки высоковершинности распределения, сравнивая с 0.
Граничным для куртозиса является число 3, поскольку для нормального распределения он равен точно 3.
Pages: | 1 | ... | 9 | 10 | 11 | 12 | 13 | ... | 82 | Книги по разным темам