Книги по разным темам Pages:     | 1 |   ...   | 8 | 9 | 10 | 11 | 12 |   ...   | 82 |

1 i Тогда в течение i-го подпериода капитал вырастает в 1+ii раз, где i =.

i xi-Если предположить, что все подпериоды имеют одинаковую длину то в сред нем, /N за подпериод доход вырастает в 1+i раз, и это количество раз равно 1+. Поэтому /N = 1+i - 1.

Это формула простой средней приведенного выше общего вида f-1 1 f (xi), N где f =ln (1 +x).

Аналогичную формулу можно использовать и в случае подпериодов разной длины i:

1 N = 1+ii - 1, где = i.

N Фактически эти формулы являются вариантами формул простой средней геометрической.

3) Пусть теперь все i являются целыми положительными числами, и реинвестирование доходов происходит в начале каждой единицы времени. Тогда 1 i i i = 1+ - 1, = 1+ - 1.

xi-1 xСредняя в единицу времени доходность в целом за период равна средней взвешенной геометрической средних доходностей по подпериодам:

i i = 1+ i - 1, где i =.

4) Наконец, в теоретическом случае непрерывного инвестирования 1 i i = ln 1+, = ln 1+, i xi-1 xи средняя доходность за весь период, как и в первом случае, равна средней взвешенной арифметической средних доходностей по подпериодам:

i = ii, где i =.

В заключение этого раздела следует отметить, что особую роль в статистике играют средние арифметические. Именно они выступают важнейшей характеристикой распределения случайных величин. Так, в обозначениях предыдущего пункта величину x = ixi можно записать как x = xifii или, при использовании теоретической функции плотности распределения, как x = xf(x) dx.

66 Глава 2. Описательная статистика Теоретическое арифметическое среднее, определенное последней формулой, называется в математической статистике математическим ожиданием. Математическое ожидание величины x обозначают обычно как E(x), сохраняя обозначение x для эмпирических средних (см. Приложение A.3.1).

2.3. Медиана, мода, квантили Мода и медиана, наряду со средней, являются характеристиками центра распределения признака. Медиана, обозначаемая в данном тексте через x0.5, Чвеличина (детерминированная), которая делит совокупность пополам. Теоретически она такова, что x0.5 + f (x) dx = f (x) dx =0.5, - x0.где f(x) Ч функция распределения (см. Приложение A.3.1).

По выборочным данным x1,..., xN, упоряд оченным по возрастанию, за нее принимается x(N+1)/в случае, если N нечетно, и (xN/2 + xN/2+1)/2, если F0.5 N четно.

FlЦЗначение медианы может быть уточнено, если по данным выборки построено эмпирическое распреzlЦ1 x0.5 zl деление частот zl, l =0,..., k, l, l, fl, Fl, l = (zlЦ1+l) = 1,..., k. Пусть l-й полуинтервал является медианным, т.е. Fl-1 < 0.5 Fl. Тогда, линейно интерРис. 2.полируя значения функции распределения F на этом полуинтервале, медиану определяют по следующей формуле:

0.5 - Fl-x0.5 = zl-1 +l.

l Ее смысл поясняется на графике (рис. 2.8). Этот график является фрагментом кумуляты.

o x Мода, обозначаемая в данном тексте через, показывает наиболее вероятное значение признака. Это Ч значение величины в пике функции плотности распределения вероятности (см. Приложение A.3.1):

o x f =max f (x).

x 2.3. Медиана, мода, квантили Величины с унимодальным распределением имеют одну моду, полимодальные распределения характеризуются несколькими модами. Непосредственно по выборке, если все ее значения различны, величину моды определить невозможно.

Если какое-то значение встречается в выборке несколько раз, то именно его Ч по определению Ч принимают за моду. В общем случае моду ряда наблюдений находят по данным эмпирического распределения частот.

Пусть l-й полуинтервал является модальfным, т.е. fl >fl-1 и fl >fl+1 (во избежание fl+непринципиальных уточнений случай л не рассматривается). Функция плотности вероflЦятности аппроксимируется параболой, прохоxдящей через середины ступенек гистограммы, и ее максимум определяет положение искомой - моды. График (рис. 2.9) поясняет сказанное. zlЦ2 zlЦ1 zl 2 x2 zl+Ц x2 mВ случае если размеры полуинтервалов l-1, - o x x l и l+1 одинаковы и равны, такая процедура приводит к определению моды по форРис. 2.муле:

o fl - fl-x.

= zl-1 + (fl - fl-1) +(fl - fl+1) В справедливости этой формулы несложно убедиться. Действительно, коэффициенты a, b и c аппроксимирующей параболы ax2 + bx + c удовлетворяют следующей системе уравнений:

ax2 + bxl-1 + c = fl-1, l-a( +)2 + b( +) +c = fl, xl-1 xl- a( +2)2 + b( +2) +c = fl+1.

xl-1 xl-Если из второго уравнения вычесть первое, а затем третье, то получится более простая система из двух уравнений:

(a(2xl-1 +) +b) =fl - fl-1, (a(-2 - 3) - b) =fl - fl+1.

xl-Первое из этих уравнений дает выражение для b через a :

fl - fl-b = - a (2xl-1 +), а их сумма Ч выражение для определения параметра a :

-2a2 =(fl - fl-1) +(fl - fl+1).

68 Глава 2. Описательная статистика Очевидно, что a отрицательно, и поэтому парабола имеет максимум в точке -b 2a o x, и после подстановки (в этой точке производная 2ax+b равна нулю), т.е. = -b 2a сюда полученных выражений для b и a, учитывая, что xl-1 + = zl-1, получается искомая формула.

Все три характеристики центра распределения: мода, медиана, среднее Ч находятся в определенных соотношениях между собой.

В случае идеальной (теоретически) симметрии f (x0.5 +) =f (x0.5 - ) (2.5) при любом 0, все эти три характеристики совпадают.

Доказательство этого утверждения проводится для теоретической функции плотности распределения f(x), в предположении, что она является гладкой, т.е. непрерывной и непрерывно дифференцируемой.

Дифференцирование выражения (2.5) по в точке 0 дает условие f (x0.5) = = -f (x0.5), из чего, в силу непрерывной дифференцируемости f, след ует равенство нулю производной в точке x0.5. И поскольку распределение унимодально, то мода совпадает с медианой.

Теперь доказывается совпадение математического ожидания с медианой. Для случайной величины x - x0.5 с той же функцией распределения плотности f(x), всилу + того, что f (x) =1, имеет место следующее тождество:

+ E (x) - x0.5 = (x - x0.5) f (x) dx.

Его правая часть разбивается на два слагаемых и преобразуется следующим образом:

x0.5 + E(x) - x0.5 = (x - x0.5) f (x) dx + (x - x0.5) f (x) dx = - x0.(в первом слагаемом производится замена переменных x - x0.5 = - и переста 0 + новка пределов интегрирования -, во 2-м слагаемом Ч замена пере+ менных x - x0.5 =) + + = - f (x0.5 - ) d+ f (x0.5 +) d= 0 2.3. Медиана, мода, квантили (вводя соответствующие обозначения) = -A- + A+. (2.6) Поскольку выполнено условие симметричности распределения (2.5), A- = A+ и математическое ожидание (среднее) совпадает с медианой. Это завершает рассмотрение случая симметричных распределений.

Для асимметричных распределений указанные три характеристики различаются, но так, что медиана всегда находится между средней и модой. При правой асимметрии o x

x В этом легко убедиться. Пусть речь идет, например, о правой асимметрии. Распределение скошено в сторону больших значений случайной величины-признака, поэтому A-

Условие A- f (x0.5 - ) (веса больших значений признака больше, чем веса равноудаленных от медианы малых значений).

Но тогда для малых, т.е. в окрестности медианы, должно иметь место обратное + + неравенство (поскольку f (x0.5 - ) d= f (x0.5 +) d=0.5):

0 f (x0.5 - ) >f (x0.5 +), o x а это означает, что мода смещена влево от медианы:

Проведенное рассуждение о положении моды относительно медианы не является строгим, оно предполагает как бы плавный переход от симметрии к правой асимметрии. При строгом доказательстве существенную роль играет предположение об унимодальности распределения.

Случай левой асимметрии рассматривается аналогично.

Для больших выборок, как правило, подтверждается еще одно утверждение об относительном расположении трех рассматриваемых характеристик: при умеренной асимметрии мода удалена от медианы на расстояние приблизительно в 2 раза большее, чем среднее. То есть o x -x0.5 2 | x - x0.5 |.

70 Глава 2. Описательная статистика Для того чтобы легче запомнить приведенные здесь соотношения, можно использовать следующее мнемоническое правило. Порядок следования среднего, медианы и моды (при левой асимметрии) такой же, как слов mean, median, mode в английском словаре (при правой асимметрии порядок обратный). Причем, как и соответствующие им статистические характеристики, слово mean расположено в словаре ближе к median, чемmode.

Квантилем называют число (детерминированное), делящее совокупность в определенной пропорции. Так, квантиль xF (используемое в данном тексте обозначение квантиля) делит совокупность в пропорции (верхняя часть к нижней) 1 - F к F (см. Приложение A.3.1):

x F P (x xF ) =F или F (xF ) = f (x) dx = F.

В эмпирическом распределении все границы полуинтервалов являются квантилями: zl = xFl. По данным этого распределения можно найти любой квантиль xF с помощью приема, использованного выше при нахождении медианы. Если l-й полуинтервал является квантильным, т.е. Fl-1

l Иногда квантилями называют только такие числа, которые делят совокупность на равные части. Такими квантилями являются, например, медиана x0.5, д елящая совокупность пополам, квартили x0.25, x0.5, x0.75, которые делят совокупность на четыре равные части, децили x0.1,..., x0.9, процентили x0.01,..., x0.99.

Для совокупностей с симметричным распределением и нулевым средним (соответственно, с нулевой модой и медианой) используют понятие двустороннего квантиля xF :

x F P (- x xF ) =F ( ) - F (- ) = f (x) dx = F.

xF xF xF xF 2.4. Моменты и другие характеристики распределения Моментом q-го порядка относительно c признака x называют величину (q и c Ч величины детерминированные) N m (q, c) = (xi - c)q, N i=2.4. Моменты и другие характеристики распределения в случае, если она рассчитывается непосредственно по выборке;

k k m (q, c) = l ( - c)q = fl ( - c)q l, xl xl l=1 l=если используются данные эмпирического распределения частот;

+ (q, c) = f (x)(x - c)q dx = E((x - c)q) Ч для теоретического распределения вероятности (cм. Приложение A.3.1).

В эконометрии для обозначения теоретических или листинных значений величины (в генеральной совокупности) часто используются буквы греческого алфавита, а для обозначения их эмпирических значений (полученных по выборке) или их оценок Ч соответствующие буквы латинского алфавита. Поэтому здесь в первых двух случаях момент обозначается через m, а в третьем случае Ч через .

В качестве общей формулы эмпирического момента (объединяющей первые два случая) будет использоваться следующая:

N m (q, c) = i (xi - c)q.

i=В принципе, моменты могут рассчитываться относительно любых c, од нако в статистике наиболее употребительны моменты, рассчитанные при c, равном нулю или среднему. В первом случае моменты называют начальными, во втором Ч центральными. В расчете центральных моментов используются величины xi - x, которые часто называют центрированными наблюдениями и обозначают через xi.

Средняя является начальным моментом 1-го порядка:

x = m (1, 0), E (x) = (1, 0).

Благодаря этому обстоятельству центральные моменты при целых q всегда можно выразить через начальные моменты. Для этого надо раскрыть скобки (возвести в степень q) в выражении центрального момента.

Центральный момент 2-го порядка или 2-й центральный момент называется дисперсией и обозначается через s2 (эмпирическая дисперсия) или 2 (теоретическая дисперсия):

s2 = m (2, x), 2 = (2, E (x)).

72 Глава 2. Описательная статистика При вычислении дисперсии иногда удобнее пользоваться начальным моментом 2-го порядка. Связь с ним устанавливается следующим образом:

x x s2 = i (xi - x)2 = ix2 - 2 ixi +2 = i --x = ix2 - x2 = m (2, 0) - m2 (1, 0).

i Корень квадратный из дисперсии Ч s или Чявляется среднеквадратическим отклонением, иногда (главным образом, в англоязычной литературе) его называют стандартным отклонением.

xi s Величины называют центрированными и нормированными наблюдениями. Они измеряют значения признака в единицах среднеквадратического отклонения от среднего. Такая шкала измерения иногда называется стандартизованной или стандартизированной.

Дисперсия (и среднеквадратическое отклонение) является мерой абсолютного рассеяния или разброса значений признака в совокупности. В принципе такой мерой мог бы служить 2-й момент относительно какого-то другого c, не равного x, но лежащего в центральной области распределения признака. Однако используют именно дисперсию, поскольку ее величина однозначно определена и, в некотором смысле, не зависит от c. Дисперсия минимальна среди всех 2-х моментов относительно c.

Действительно, производная 2-го момента по c d (x - c)2f(x)dx = -2 xf(x)dx - c f(x)dx = -2(E(x) - c) dc равна 0 в точке c = E(x). Это точка минимума, поскольку 2-я производная по c внейравна 2, т.е. положительна.

В статистике используются и другие показатели разброса. Примерами показателей абсолютного разброса являются:

max xi - min xi Ч общий размах вариации, x1-F - xF Ч квантильный размах вариации, где F < 0.5 (достаточно часто используется квартильный размах вариации, то есть этот показатель при F =0.25), i |xi| Ч среднее линейное отклонение.

2.4. Моменты и другие характеристики распределения Среднее линейное отклонение имеет смысл рассчитывать не относительно среднего x, а относительно медианы x0.5, поскольку именно в таком случае оно при нимает минимально возможное значение.

Действительно, производная по c среднего линейного отклонения относительно c + c d (c - x) f (x) dx + (x - c) f (x) dx d |x - c| f (x) dx - c = = dc dc + c = f (x) dx - f (x) dx - c равна 0 при c = x0.5 (2-я производная в этой точке равна 2f(x0.5) и положительна по определению функции f ).

Для характеристики относительного разброса применяются различные формы коэффициента вариации. Например, он может рассчитываться как отношение среднего квадратичного отношения к среднему, общего или квантильного размаха вариации к медиане. Иногда его рассчитывают как отношения max xi к min xi или x1-F к xF (при F < 0.5).

Достаточно распространен еще один тип коэффициентов вариации, которые рассчитываются как отношения средней по верхней части совокупности к средней по нижней части совокупности.

Pages:     | 1 |   ...   | 8 | 9 | 10 | 11 | 12 |   ...   | 82 |    Книги по разным темам