Тема Основные понятия статистики 5
Вид материала | Контрольные вопросы |
- Понятие, значение и задачи статистики. Основные понятия и категории статистики, 38.18kb.
- Тема: Основные понятия и определения, 121.92kb.
- Тема: Основные понятия и определения, 164.71kb.
- План урока: Орг момент. Повторение изученного. Объявление темы. Изучение нового материала., 66.27kb.
- Курс «Вероятность» является вторым в ряду вероятностно-эконометрических курсов Вероятность, 32.07kb.
- Задачи статистики рынка Система показателей статистики рынка Информационная база статистики, 1574.49kb.
- Структурно курс состоит из 15 тем: Тема Введение. Предмет, цели и задачи курса Тема, 140.87kb.
- Тема Психофармакотерапия и клиническая психология Тема Основные понятия в психфармакотерапии, 1195.06kb.
- Тема Территориальная организация населения: основные понятия и концепции, 2494.7kb.
- Тема Территориальная организация населения: основные понятия и концепции, 2373.94kb.
Контрольные вопросы
- Какие виды усреднения используются в статистике?
- Напишите выражения для вычисления среднего арифметического (невзвешенного и взвешенного по частотам). В чем специфика определения среднего на основе гистограммы по сравнению с полигоном распределения? Приведите примеры средних величин в социально-экономических явлениях.
- Дайте математическое определение среднего гармонического. В каких условиях используется этот вид средней величины? Приведите примеры.
- Напишите формулы вычисления среднего геометрического и среднеквадратичной величины. Когда они используются?
- Определите соотношение между различными средними величинами (арифметическим, гармоническим, геометрическим и среднеквадратичным).
- Дайте определение моды распределения. Напишите формулу вычисления моды для гистограммы. Как определить моду графически?
- Дайте определение медианы распределения. Напишите выражение для вычисления медианы непрерывной величины.
- При каких распределениях среднее арифметическое, мода и медиана совпадают?
- Сформулируйте свойства среднего арифметического. Почему этот показатель является самым распространенным в статистике?
Тема 4. Показатели вариации и формы распределения
Представляется очевидным, что одним параметром, хоть и самым информативным – средней величиной – нельзя оценить все свойства массового явления. Если средний срок жизни 75 лет, то это вовсе не значит, что в этом возрасте обязательно нужно отправляться на кладбище (хотя в Японии в старину это было принято). Если уровень жизни в среднем по стране очень низок, то это не говорит о том, что нет очень богатых. Естественным образом возникает необходимость в показателе, оценивающем степень отклонения от среднего. Такие показатели в статистике называют показателями (параметрами) вариации (лат.variatio – изменение). Они характеризуют степень неоднородности совокупности. Наиболее распространенными в статистике параметрами вариации являются размах вариации R=xmax-xmin, дисперсия 2, среднеквадратичное отклонение (СКО), среднее линейное отклонение d (СЛО).
Разумеется, вариационные показатели тоже являются частными характеристиками социально-экономического явления. По форме ряда распределения можно судить, например, о том, какие значения признака более вероятны (чаще встречаются), чем средние значения. При этом может появиться право- или левосторонняя асимметрия, которые измеряются коэффициентом асимметрии. Распределения бывают сравнительно равномерные (плосковерхие), что свидетельствует об отсутствии выраженных предпочтений в значениях признака, и островерхие, которые выражают степень таких предпочтений. Оценка этих свойств осуществляется с помощью коэффициента эксцесса.
4.1. Дисперсия
О
тклонения от среднего значения имеют как положительные, так и отрицательные знаки. К примеру, отличники на сессии получают оценки выше среднего балла (положительные отклонения), а аутсайдеры учебы – ниже среднего. Разность
называется центрированной величиной. Среднее значение центрированной величины, как следует из первого свойства арифметического среднего (см. п.3.5) равно 0, поэтому для определения степени отклонения от среднего следует усреднять
неотрицательные значения. Наиболее часто для этого усредняют квадраты центрированных величин, после чего возвращение к исходной размерности осуществляют извлечением корня квадратного (положительного).
К-м центральным моментом выборки {xi}(n) называется величина
г
де слева дано выражение для невзвешенного, а справа – взвешенного k-го момента с группировкой выборки на m групп. Центральный момент 2-го порядка
называется выборочной дисперсией. Для оценки степени отклонения от среднего в принципе можно использовать любой момент четного порядка, так как слагаемые в (4.2) для них положительны. Дисперсия получила распространение для подобной оценки в связи с тем, что она является моментом минимального четного (k=2) порядка.
Р
аскрывая скобки в (4.2) и учитывая свойства среднего арифметического (см. п.3.5), легко получить более простое выражение для дисперсии
Здесь дисперсия определена как разность между средним квадратом и квадратом средней величины. Если перед определением дисперсии среднее значение уже вычислено, то обычно пользуются для расчета формулой (4.3).
Основные свойства дисперсии:
- 20, причем дисперсия равна 0 лишь при xi=c, i=1,…,n, т.е. все элементы выборки одинаковы и равны постоянной с;
- Изменение всех элементов выборки в а раз приводит к изменению дисперсии в а2 раз
2ax=a22x
- Для двух независимых выборок {xi}(n) и {yi}(n) дисперсия суммы равна сумме дисперсий, т.е.
2x+y= x2+y2.
Если Х и Y – статистически зависимые (коррелированные) величины, то в последнем свойстве к сумме двух дисперсий добавляется момент корреляции Кxy. Он определен в теме 6.
Пример 4.1. Рост 6 игроков баскетбольной команды определяется выборкой (в см)
{xi}={206, 214, 195, 198, 208, 201}.
Определить средний рост и дисперсию этой выборки.
С
огласно (3.1) и (4.3) получим
Как мера отклонения от среднего дисперсия является промежуточной характеристикой, так как ее размерность равна квадрату размерности средней величины и, следовательно, среднее и дисперсия не сравнимы. Поэтому для сопоставления со средней величиной пользуются корнем квадратным из дисперсии.
4.2. Среднеквадратическое отклонение (СКО)
Э
тот параметр определяется как
С
КО как параметр широко используется при оценке ошибок выборочного наблюдения (см. тему 5), а также при оценке неоднородности выборки. Для этого введем относительный параметр – коэффициент вариации
Принято считать, что при V<1/3 совокупность однородна, в противном случае – неоднородна.
В
продолжение примера 4.1 определим СКО и коэффициент вариации
Мы видим из этого примера, что отклонение от среднего роста баскетболистов-великанов невелико и выборку вполне можно считать однородной.
4.3 Среднее линейное отклонение (СЛО)
И
ногда вместо СКО в качестве меры отклонения используют среднее значение абсолютных отклонений
г
де, как и прежде, слева записано невзвешенное, а справа – взвешенное выражение среднего линейного отклонения. По аналогии с (4.5) определим коэффициент линейной вариации
Из математической статистики известно, что d< и, следовательно, Vd
d=(|195-204|+|198-204|+|203-204|+|206-204|+|208-204|+|214-204|)/6=5,33см,
Vd=5,33/204=0,026.
Отметим, что СКО используется гораздо чаще, чем СЛО. Это вызвано тем, что свойства дисперсии и СКО обеспечивают сравнительно более простой анализ многофакторных явлений.
Пример 4.2. Коэффициент использования энергетического оборудования (в %) для 50 установок предприятия имеет распределение
Коэффициент использования, % | <60 | 60 – 70 | 70 – 80 | >80 |
Число установок | 3 | 9 | 23 | 15 |
Требуется определить средний показатель коэффициента использования, СКО и СЛО, коэффициенты вариации и линейной вариации.
Поскольку задано распределение с неравными интервалами hk, в формулах взвешенного усреднения xk - средние точки интервалов, равные 30, 65, 75 и 90 %. Согласно (3.1), (4.3), (4.4) и (4.6) получим
В
результате коэффициент вариации (4.5) равен V=14,4/75=0,192, а коэффициент (4.7) линейной вариации Vd=9/75=0,12. Данную совокупность энергетических установок можно считать однородной.
4.4. Показатели формы распределения
К этим показателям обычно относят:
- коэффициент асимметрии As;
- коэффициент эксцесса E.
О
ни характеризуют степень отклонения ряда распределения от нормального закона распределения, который еще называют законом Гаусса
где f(x) – плотность вероятности непрерывной случайной величины Х.
График нормального распределения изображен на рис.4.1. Он симметричен относительно средней величины и имеет вид колоколообразной кривой. С ростом объема выборки n ряд распределения асимптотически стремится к вероятностному распределению (ряду вероятностей для дискретной величины или плотности вероятности – для непрерывной). Большое число реальных явлений или процессов можно с приемлемой точностью аппроксимировать нормальным законом. Он по сути утверждает, что наиболее часто появляются значения совокупности, равные среднему,
а по мере отклонения от среднего в обе стороны частота случайных величин снижается тем быстрей, чем больше это отклонение. Например, распределение людей по росту, весу, доходам в определенных пределах может быть близко к нормальному. Нормальный закон симметричен относительно среднего, для него
Рис.4.1
коэффициенты асимметрии и эксцесса равны 0. В статистике он служит эталоном, с которым сравниваются другие распределения.
Коэффициент асимметрии
о
пределяется как отношение 3-го центрального момента к кубу СКО.
Для любого симметричного распределения As=0, так как третий (и вообще нечетный) момент такого распределения равен 0. Это связано с тем, что под знаком суммы образуется нечетная функция отклонений от среднего, дающая в результате суммирования 0. Для асимметричных распределений при As>0 имеет место правосторонняя асимметрия, при As<0 – левосторонняя, рис.4.2а,б.
Пример 4.3. В конце года коэффициенты ликвидности предприятий- должников имели распределение
Коэффициентликвидности | <1,5 | 1,5–1,7 | 1,7 – 1,9 | 1,9 – 2,1 | >2,1 |
Частость предприятий,% | 3 | 9 | 21 | 47 | 20 |
Определить средний коэффициент ликвидности, СКО, коэффициенты вариации и асимметрии.
В
статистике принято ширину открытого интервала (в примере это крайние интервалы) принимать равными соседним интервалам. Поэтому {xk}={1,4; 1,6; 1,8; 2,0; 2,2) и согласно (3.1), (4. 3 – 4.5), (4.8) получим
Вывод: данная выборка является весьма однородной, но с существенной левосторонней асимметрией.
Коэффициент эксцесса – это отношение четвертого центрального момента к четвертой степени СКО минус 3, т.е.
Э
тот показатель характеризует степень островерхости распределения по сравнению с нормальным распределением, для которого Е=0. Как показано на рис.4.3, при Е>0 говорят, что распределение островерхое, а при Е<0 – плосковерхое.
Пример 4.4. По данным примера 4.3 определить коэффициент эксцесса.
С
огласно (4.9)
Т
аким образом, приведенное в примере 4.3 распределение обладает некоторой островерхостью по сравнению с нормальным.
Задачи
- В выборке из 200 семей жилплощадь на одного человека (в м2) распределена следующим образом
Жилплощадь, м2 | <7 | 5-7 | 7-9 | 9-11 | 11-13 | 13-15 | >15 |
Число семей | 12 | 34 | 47 | 50 | 26 | 18 | 13 |
Определить среднюю величину, СКО, коэффициенты вариации и асимметрии.
- Время изготовления детали по данным 12 измерений составило (мин)
{26, 24, 23, 28, 25, 21, 30, 24, 29, 27, 26, 23}.
Определить среднее время изготовления детали, СКО, СЛО, коэффициенты вариации, линейной вариации и асимметрии.
- В зависимости от номинала акции банка имеют распределение
Номинал, грн | <100 | 100-150 | 150-200 | 200-250 | >250 |
Число акций, % | 5 | 10 | 30 | 45 | 10 |
Определить средний номинал акций, коэффициенты вариации, асимметрии и эксцесса.
- Тарифные (квалификационные) разряды в отраслях А и В распределяются как
Тарифный разряд | 2 | 3 | 4 | 5 | 6 |
Отрасль А | 9 | 20 | 35 | 24 | 12 |
Отрасль В | 5 | 17 | 30 | 29 | 19 |
Для каждой отрасли определить средние значения разрядов, СКО, СЛО, коэффициенты вариации и линейной вариации. Сравнить эти показатели по отраслям и сделать выводы.
- Процент работоспособного населения по районам страны определяется выборкой
{xi}={80,2; 68,0; 72,2; 83,4; 79,1; 76,7; 85,8; 81,2; 75,5; 65,1}.
Определить показатели вариации R, CKO, СЛО, коэффициенты вариации, асимметрии и эксцесса.
Контрольные вопросы
- Перечислите основные показатели вариации и формы распределения.
- Напишите выражения для определения дисперсии и СКО. Что характеризуют эти показатели. Приведите примеры. Перечислите основные свойства дисперсии.
- Напишите формулу определения среднего линейного отклонения. Какое имеет место соотношение между СКО и СЛО.
- Как определяются коэффициенты вариации и линейной вариации. Какая совокупность считается однородной?
- В чем различие операций усреднения для сгруппированных и несгруппированных выборок, для дискретных и непрерывных величин (признаков)?
- Дайте определение к-го центрального момента. При каких значениях к моменты могут быть отрицательными?
- Напишите выражения для определения коэффициента асимметрии и эксцесса.
- В каком случае имеет место правосторонняя и левосторонняя асимметрия?
- Какими коэффициентами эксцесса характеризуются островерхие и плосковерхие распределения?
- Как изменятся показатели вариации 2, СКО, коэффициенты вариации и асимметрии при:
- удвоении значений всех элементов совокупности?
- увеличении вдвое средней величины?
- удвоении размаха вариации (с фиксацией левой границы)?
Киевский институт инвестиционного менеджмента