Книги по разным темам Pages:     | 1 |   ...   | 6 | 7 | 8 | 9 | 10 |   ...   | 82 |

k =1 +log2 N 1+1.44 ln N, однако было показано, что оно некорректно, поэтому использовать его не рекомендуется. В качестве значения признака на l-м полуинтервале можно принять среднее значение признака на этом полуинтервале:

xl = xl Nl (использовано введенное в предыдущей главе обозначение xl всех наблюдений, попавших в l-ю группу). Однако, как правило, в качестве этого значения принимается середина полуинтервала:

1 l xl = (zl + zl-1) =zl-1 +, 2 Nl l =, N Ч относительные частоты признака или оценки вероятностей (эмпирические вероятности) попадания значений признака в l-й полуинтервал, то есть 1 = P (z0 x z1), l = P (zl-1

l fl = (2.1) l Ч плотности относительной частоты или оценки плотности вероятности.

50 Глава 2. Описательная статистика Очевидно, что f, F l =1, или fll =1. (2.2) Далее:

кумулята l l Fl = l, или Fl = fl l, (2.3) l =1 l =Ч накопленные относительные частоты или оценки вероятностей того, что значение признака не превысит zl, т.е. Fl = P (x zl).

гистограмма Крайние значения этих величин равны 0 и 1:

полигон F0 =0, Fk =1.

Числа l, fl, Fl (l =1,..., k) характеризуют разные аспекты распределения частот количественного признака. Понятно, что, если размеры полуинтервалов одинаковы, l и fl различаютРис. 2.1. Графическое изображение ся с точностью до общей нормировки и являются плотностей частоты одинаковыми характеристиками распределения.

Графическое изображение плотностей частоты называется гистограммой, анакопленных частот Ч кумулятой. Поскольку плотности частот неизменны на каждом полуинтервале, гистограмма ступенчатая функция (точнее, график ступенчатой функции). Накопленные частоты линейно растут на каждом полуинтервале, поэтому кумулята Ч кусочно-линейная функция. Вид этих графиков приведен на рисунке 2.1.

Еще один графический образ плотностей частоты называется полигоном. Этот график образован отрезками, соединяющими середины ступенек гистограммы. При этом первый F отрезок соединяет середину первой ступеньки с точкой z0 оси абсцисс, последний отрезок Ч середину последней ступеньки с точf кой zk.

Теоретически можно представить ситуаРис. 2.цию, когда N и k, при этом следует допустить, что z0 -, а zk +. Врезультате функции f(z) и F (z), графиками которых были гистограмма и кумулята, станут гладкими (рис. 2.2). В математической статистике их называют, соответственно, функцией плотности распределения вероятности и функцией распределения вероятностей случайной величины (см. Приложение A.3.1).

2.1. Распределение частот количественного признака Формулы (2.1Ц2.3) преобразуются, соответственно, в + z dF (z) = f (z), f (z) dz =1, F (z) = f z dz.

dz - Обычно функции f и F записываются с аргументом, обозначенным символом случайной величины: f(x) и F (x). При этом предполагается, что в такой записи x есть детерминированный лобраз соответствующей случайной величины (в математической статистике для этого часто используют соответствующие прописные символы: f(X) и F (X)). Такие функции являются теоретическими и выражают различные законы расРис. 2.пределения, к которым лишь приближаются эмпирические распределения.

Наиболее распространенным в природе является так называемый закон нормального распределения, плотность которого в простейшем случае (при нулевом математическом ожидании и единичной дисперсии) описывается следующей функцией:

1 x f (x) = eЕе график, часто называемый кривой Гаусса, изображен на рисунке 2.3.

асимметрия правая левая идеальная Наиболее вероятное значение величиидеальная ны, имеющей такое распределение, Ч нуль.

Распределение ее симметрично, и вероятность быстро падает по мере увеличения ее абсолютной величины. Обычно такое распределение имеют случайные ошибки измерения (при разной дисперсии).

Различают несколько типов распределений признака (случайной величины).

На рисунке 2.4 показаны асимметричРис. 2.ные или скошенные распределения: с правой и левой асимметрией, идеальная правая и идеальная левая асимметрия. При правой (левой) асимметрии распределение скошено в сторону больших (меньших) 52 Глава 2. Описательная статистика значений. При идеальной правой (левой) асимметрии вероятность падает (увеличивается) с ростом значения величины на всем интервале ее значений, наиболее вероятно ее минимальное (максимальное) значение. В данном случае идеальными названы распределения с предельной асимметрией.

На рисунке 2.5 приведен вид высокоили островершинных и низко- илиплосковершинных распределений. В первом случае основная часть значений признака сопредельное остроостровершинное средоточена в узкой центральной области вершинное распределения, во втором Ч центральная плосковершинное область распределения размыта. Плосковершинное распределение в пределе преравномерное вращается в равномерное, плотность которого одинакова на всем интервале значений.

Предельным островершинным распределением является вертикальный отрезок единичной длины Ч распределение детерминиРис. 2.рованной величины.

Распределения с одним пиком плотности вероятности называют унимодальными. На рисунке 2.6 приведен пример бимодального распределения и предельного бимодального распределения, называемого U-образным. В общем случае распределение с несколькими пиками плотности называют полимодальным.

В математической статистике множество всех теоретически возможных значе- бимодальное U-образное ний случайной величины x, характеризуемое функциями f и F, называют генеральной совокупностью, а ряд наблюдений x1,..., xN Ч выборочной совокупностью, иливыборкой.

Вообще говоря, гистограмму и кумуляту Рис. 2.можно построить непосредственно по данным ряда наблюдений без предварительной группировки. Если предположить для простоты, что все значения в ряде наблюдений различны, то k принимается равным N. В качестве границ полуинтервалов zi, i =1,..., N - 1 принимаются полусуммы двух соседних значений в ряде наблюдений, упорядоченном по возрастанию (строго говоря, само упорядочение является операцией группировки в простейшем случае):

zi = (xi + xi+1).

2.2. Средние величины В качестве z0 и zN естественно принять, соответственно, 2x1 - zи 2xN - zN-1, так что первое и последнее значение в ряде наблюдений оказываются в точности на середине своих полуинтервалов. Относительные частоты для всех полуинтервалов одинаковы и равны. Однако плотность частоты разN личается: она тем выше, чем короче полуинтервал, т.е. чем плотнее наблюдения расположены на числовой оси.

2.2. Средние величины Средние величины, или просто средние, являются особым подклассом интенсивных величин, т.к. рассчитываются как отношения других величин. Они выступают наиболее общими характеристиками совокупности объектов. Каждая средняя рассчитывается по конкретному признаку, характеризующему объекты совокупности, и является качественно такой же величиной, имеет те же единицы измерения или ту же размерность (или она безразмерна), что и усредняемый признак. Характер средних по объемным и относительным величинам несколько различается. Ниже рассматриваются сначала средние объемные и на их примере Ч виды средних, затем Ч средние относительные величины.

Пусть xi Ч некоторый объемный признак i-го объекта, 1,..., N, то есть количество объектов в совокупности равно N, как и прежд е, x = xi, тогда i расчет среднего по совокупности значения данного объемного признака, который обычно обозначается тем же символом, но без индекса объекта и с чертой над символом, осуществляется по следующей формуле:

1 x = x = xi.

N N i Это Ч среднее арифметическое (среднеарифметическое) простое или средняя арифметическая (среднеарифметическая) простая. Оно является отношением двух объемных величин: суммарного по совокупности признака и количества объектов в совокупности.

Пусть теперь вся совокупность делится на k групп, Nl Ч количество объектов в l-й группе, N = Nl, значение признака внутри каждой группы не варьируется l и равняется xl. Тогд а 1 Nl x = Nlxl = lxl, где l =, l =1 Чвесl-й группы.

N N l l Это Ч среднее арифметическое (среднеарифметическое) взвешенное (среднеарифметическая взвешенная).

54 Глава 2. Описательная статистика К аналогичной формуле для средней по исходной совокупности можно придти и иначе. Пусть, как и сначала, признак варьирует по всем объектам совокупности, а xl Ч среднеарифметическое простое по l-й группе. Очевидно, что x = Nlxl, и x = lxl.

По такой же формуле производится расчет средней по данным эмпирического распределения частот признака (см. предыдущий пункт). В качестве xl в таком случае принимают не среднее по l-й группе, а, как отмечалось выше, середину l-го полуинтервала.

Предполагая, что все объекты совокупности имеют разные веса (вес i-го объекта равен i), среднее по совокупности записывается как взвешенное:

x = ixi.

Это Ч более общая формула среднеарифметического: при равных весах, то есть в случае, если i = для всех i, она преобразуется в формулу среднеN арифметического простого.

Для нахождения средней величины типа запаса за некоторый период времени используется среднее арифметическое взвешенное, называемая средним хронологическим (или средней хронологической). Смысл этой величины поясняется рисунком 2.7.

Среднюю хронологическую x надо найти так, что x(t) бы площадь ABCD подлинией динамики x(t) (BC), x C т.е. сумма значений показателя за период, равнялась _ E x площади прямоугольника AEF D подлинией средней F EF (см. рис. 2.7).

B Другими словами, для расчета средней хронологической используется формула:

A D t площадь ABCD Рис. 2.x =.

длина AD На практике в дискретном случае этот расчет можно провести следующим образом.

Пусть x0, x1,..., xN Ч значения некоторой объемной величины типа запаса в моменты времени t0, t1,..., tN, и i = ti - ti-1, i = 1,..., N, = i (длина AD).

Если предположить, что на каждом временном отрезке i динамика показателя xi + xi-линейна, то его суммарное значение на этом отрезке рассчитывается как i, 2.2. Средние величины и для общей средней хронологической справедливо соотношение:

N x = i (xi + xi-1).

i=В выражении этой величины как среднеарифметической взвешенной веса имеют следующие значения:

1 i + i+1 N 0 =, i =, i =1,..., N - 1, N =.

2 2 Их сумма равна единице.

Если все временные отрезки i одинаковы, то веса первого и последнего x в средней хронологической будут равняться, а веса всех промежуточных 2N x-ов Ч.

N На практике чаще всего рассчитывают средние величины типа запаса за период времени (обычно за год) по данным на начало и конец этого периода (года). Т.е. решается задача нахождения средней хронологической x за некоторый период, для которого известно значение показателя на начало Ч x0 и конец периода Ч x1.

Эта величина, чаще всего, находится как средневзвешенное арифметическое:

x =(1 - ) x0 + x1, или x = x0 +, или =x1 - x0.

Если динамика показателя равномерна (линейна), то = если более 2;

интенсивные сдвиги в величине показателя происходят в 1-й половине периода, 1 то > в противном случае Ч < В советской статистике при расче2; 2.

те, например, среднегодовых основных фондов принимался в интервале от 0.до 0.4, поскольку в плановой экономике вводы и выбытия фондов обычно сдвигаются к концу года Ч к моменту отчета по плану. Этот параметр иногда называют среднегодовым коэффициентом.

При предположении, что на данном отрезке времени неизменным остается относительный прирост (моментный темп прироста), и динамика имеет экспоненциальный характер, справедливы следующие выражения (как и прежде, Чд лина данного временного отрезка, Ч прирост показателя за период):

x1 t xt = x0, при 0 t, x x0 x1 t x1 - xx = dt = =.

x0 ln x1 - ln x0 ln 1+ x56 Глава 2. Описательная статистика В знаменателе этого выражения для средней хронологической находится непрерывный темп прироста за период (см. п. 1.8), т.е. средняя хронологическая определяется делением абсолютного прироста на относительный прирост за период. Это Ч особый вид средней, которую иногда и называют собственно хронологической.

Чтобы лучше понять ее смысл, полезно найти ее предельное значение при 0.

Для этого логарифм в знаменателе раскладывается в степенной ряд:

2 3 1 1 ln 1+ = - + - + , x0 x0 x0 2 x0 4 x0 затем сокращается в числителе и знаменателе, и он () приравнивается нулю.

Искомый предел равен x0. Таким образом, на бесконечно малых отрезках времени значение этой величины равно самому показателю, а на конечных отрезках Ч его среднему значению при предположении, что темп роста на этом отрезке остается неизменным.

Возвращаясь к общему случаю N +1 временной точки, среднюю хронологическую при предположении неизменности темпа роста внутри каждого временного периода можно рассчитать следующим образом:

N 1 xi - xi-x = i.

ln xi - ln xi-i=Несложно убедиться в том, что в случае, если средние в единицу времени темпы xi i роста на всех временных отрезках одинаковы и равны среднему в единиxi- xN цу темпу роста за весь период, среднее хронологическое рассчитывается xтолько по двум крайним значениям:

xN - xx =.

ln xN - ln xРасчет средних хронологических величин типа запаса является необходимой операцией для приведения этих величин к форме, сопоставимой с величинами типа потока, имеющими другое качество. Так, например, производительность труда рассчитывается как отношение выпуска продукции за определенный период времени к средней хронологической занятых в производстве за этот же период. Если величины типа запаса и потока имеют одно качество (потоки выражают изменение запасов за период времени), то используются и показатели отношения потока к запасу на начало или конец периода (или наоборот). Так, например, отношение 2.2. Средние величины выбывших в течение года основных фондов к основным фондам на начало года называется коэффициентом выбытия фондов, а отношение годового ввода фондов к фондам на конец года Ч коэффициентом обновления фондов.

Среднеарифметическое является частным случаем так называемого среднестепенного или среднего степенного, которое рассчитывается по следующей формуле:

x = ixk k.

i Следует обратить внимание, что эта величина существует не при всех k, если некоторые из xi отрицательны. Чтобы избежать непринципиальных уточнений, в дальнейшем предполагается, что все значения признака положительны.

При k =1 среднее степенное превращается в обычное среднеарифметическое, при k =2 это Ч среднеквадратическое, используемое для оценки степени вариации признака по совокупности, при k = -1 Чсред неегармоническое, примеры использования которого приводятся при рассмотрении средних относительных величин, при k =0 Чсред неегеометрическое.

Pages:     | 1 |   ...   | 6 | 7 | 8 | 9 | 10 |   ...   | 82 |    Книги по разным темам