Методические указания и задачи для самостоятельной работы студентов по дисциплине «Математическая статистика» для студентов специальностей 060800 («Экономика и управления на предприятии апк») и 060500 («Бухгалтерский учет, анализ и аудит»)

Вид материалаМетодические указания

Содержание


Дисперсионный анализ
Корреляция и регрессия
Подобный материал:
1   2   3   4   5   6
Тема 4. ДИСПЕРСИОННЫЙ АНАЛИЗ


Дисперсионный анализ – метод проверки статистических гипотез относительно средних величин, нескольких генеральных совокупностей или о дисперсии средних. Экономическое содержание метода заключается в статистической оценке существенности влияния на результативный признак одного или нескольких факторных признаков и их взаимодействия.

Если, например, совокупность сгруппирована по какому – либо признаку и для этих групп известны средний уровень и дисперсия, то порой при объединении частных групп в совокупность требуется оценить вариации показателей объединенной совокупности на основе показателей отдельных частных групп. При этом следует учитывать, что вариация признака в целом по совокупности зависит как от вариации признака, так и от вариации групповых средних, т.е. от межгрупповой вариации признака. Другими словами, общую дисперсию σ2общ., характеризующую вариацию признака под влиянием всех факторов, можно получить на основе ее составляющих – межгрупповой и внутригрупповых дисперсий.

Общая дисперсия отражает вариацию признака за счет всех условий (факторов). Вариацию между группами за счет признака – фактора, положенного в основу группировки – отражает межгрупповая дисперсия, которая исчисляется как отклонение групповой средней от общей средней. Вариацию внутри каждой группы, изучаемой совокупности, отражает частная групповая дисперсия, которая исчисляется как средний квадрат отклонений значений признака «х» от частной средней хi . Так как изучаемая совокупность разбита на несколько групп, то для всей совокупности внутригрупповую вариацию будет выражать внутригрупповая дисперсия, которая исчисляется как средняя арифметическая из групповых дисперсий.

В основе дисперсионного анализа лежит критерий F – Фишера, представляющий собой отношение двух дисперсий, определенных по выборкам из одной генеральной совокупности. Величина критерия зависит от числа единиц выборок. По мере роста численностей выборок значение критерия уменьшается и при N → ∞ приближается к единице.

Принципиальная схема дисперсионного анализа.
  1. Описание статистической модели совокупности:

группировка – по одному или более признакам;

признаки – с постоянным, случайным эффектом;

формирование групп – случайное, неслучайное;

группы – с равной или разной численностью.
  1. Формулировка нулевой гипотезы о равенстве средних или отсутствии эффекта взаимодействия.
  2. Установление уровня значимости.
  3. Определение источников вариации в соответствии с моделью совокупности.
  4. Вычисление объемов вариации по каждому источнику варьирования результативного признака (W).
  5. Определение степеней свободы для каждого объема вариации (V).
  6. Расчет дисперсий как отношение объемов вариации к соответствующему числу степеней свободы S2 i = Wi / Vi .
  7. Расчет фактического значения критерия F, как отношение двух дисперсий, одна из которых носит случайный характер.
  8. Нахождение по таблицам критерия, определяющего область согласия и критическую область.

10)Сопоставление фактического значения с табличным и заключение относительно нулевой гипотезы.

Если Fфакт. < F табл. , то Н0 принимается.

Если Fфакт. > F табл. , то Н0 отклоняется.

Признаки, положенные в основание группировки и имеющие постоянный эффект (т.е. постоянные, жестко заданные границы фактора – вид удобрений, название сорта и др.) предопределяют алгоритм расчета фактического значения критерия как отношения дисперсии систематической (обусловленной изучаемым фактором) к дисперсии остаточной (имеющей случайный характер вариации).

Признаки со случайным эффектом факторов (границы формирования групп могут быть изменены по воле исследователя в сторону расширения или сужения – норма высева семян и др.) предполагают несколько иной алгоритм расчета фактического значения критерия.

Например, при группировке по двум признакам:

S2A S2B S2B

FA = —— ; FB = —— ; FAB = —— ;

S2AB S2AB S2 ост.


А, В – факторы (группировочные признаки); АВ – взаимодействие факторов.

При смешанном эффекте факторов (А – с постоянным эффектом, В – со случайным эффектом) алгоритм расчета фактического значения следующий:

S2A S2B S2AB

FA = —— ; FB = —— ; FAB = —— ;

S2AB S2 ост. S2 ост.


При иерархической зависимости выборок (выборка из выборки):

S2A S2B

FA = —— ; FB = —— ;

S2B S2ост.


Критерий F – распределения является параметрическим со свойственными ему требованиями:
  1. выборки должны быть распределены нормально;
  2. группы должны иметь равные дисперсии признака.

Однако, в силу устойчивого характера критерия он может применяться и в случаях, во-первых, когда распределение совокупностей (выборок) не сильно отклоняется от нормального (в условиях больших выборок), а также, во-вторых, когда дисперсии умеренно не равны – при условии, что численности выборок равны.

Если экспериментальные данные не отвечают перечисленным требованиям, то дисперсионный анализ проводится по непараметрическим критериям: краскала – Уоллиса и Фридмана.


Задачи для самостоятельного решения

  1. В однофакторном полевом опыте с 5 кратной повторностью изучалось влияние предшественника (зерновых, картофеля, кормовых) на урожайность зерновых культур. Известно, что сумма квадратов отклонений в целом по опыту равна 10 000, по вариантам – 7 000, по повторностям – 2 000. Определите достоверность различий по вариантам опыта при α = 0,05.
  2. В вегетационном опыте по вариантам получены следующие данные:


Вариант опыта Повторности

I 15, 17, 18

II 23, 22, 24, 20

III 23, 37, 28, 26

Оцените достоверность различий по вариантам опыта при α = 0,05.
  1. Общий объем вариаций в вегетационном опыте равен 1 000, по вариантам – 700. Известно, что вариантов опыта 5, повторностей – 4. Оцените достоверность различий по вариантам опыта при α = 0,05.
  2. В опыте изучалось влияние типа кормления на среднесуточный привес свиней. Опыт проведен в 5 кратной повторности.

Тип кормления Средний суточный привес, г

I 500

II 540

III 600

Оцените различия между вариантами опыта в целом и отдельными средними, если известно, что общий объем вариации равен 30 000 при α = 0,05.
  1. В вегетационном опыте по трем вариантам получены средние 5, 7, 12. Число единиц в группе равное – 4. Оцените достоверность различий между II и III вариантами опыта, если известно, что общий объем вариации составляет 700.
  2. Распределение колосьев по высоте растений при разных сроках сева в опыте было следующим:

Срок

сева

Группы по высоте растений, см

20 – 25

25 – 30

30 – 35

35 – 40

I

II

III

20

25

25

17

37

50

15

40

57

7

17

30



7. Распределение сортов крыжовника при различных степенях его поражения


Степень

поражения

Сорт крыжовника

1

2

3

шт. кустов

кг

шт. кустов

кг

шт. кустов

кг

Слабая

Средняя

Сильная

2

3

2

10,5

9,9

7,0

3

3

4

12,3

10,5

12,8

2

3

3

8,0

10,8

9,0


Оцените достоверность различий по сортам и связь степени поражения с сортными особенностями при α = 0,05.
  1. На предприятии, имеющем три подразделения, работают 100 человек. Для анализа различий в оплате труда по подразделениям произвели группировку работников по подразделениям.




Наименование подразделения

(факторный признак)

Количество наблюдений

(частота)

Среднее значение заработной платы по подразделению (результирующий признак), усл. един.

1

2

3

20

30

50

265,3

240,2

225,2



Определите существенность влияния фактора «подразделение» на оплату труда работников предприятия.

9. Проведен опыт в 3-кратной повторности с неслучайным формированием групп, в котором изучалось влияние двух факторов со случайным эффектом. По первому фактору было выделено 2 группы, по второму – 4. Общий объем вариации равен 24 000, в том числе W1 = 5 000, W2 = 13 000, W взаим.= 2 000, W повт. = 400. Определить достоверность влияния факторов и их взаимодействия на результативный признак при уровне значимости 0,05.

10.По трем пробам каждого из пяти случайно отобранных листьев одного расте ния было определено содержание кальция. Содержание кальция в листьях одного растения, % сухого вещества:


Лист

П о в т о р н о с т ь

1

2

3

1

2

3

4

5

3,25

3,52

2,95

2,89

3,34

3,10

3,50

2,90

3,38

2,96

3,03

3,80

2,50

3,23
3,50

Провести статистическую оценку опыта при уровне значимости 0,05.

11.Во сколько раз межгрупповая дисперсия S2МГ должна быть больше внутригрупповой дисперсии S2ВГ, чтобы принять альтернативную гипотезу при условии, что число групп (вариантов) m = 3, число повторностей n = 3 ? Формирование групп независимое.

12.Определить общий объем вариации, если S2МГ = 10, S2ВГ = 5. Число групп (вариантов) m = 5, число повторностей n = 3. Формирование групп независимое.

13. В разных частях города было проведено выборочное обследование продовольственных рынков с целью оценки различий в розничных ценах на отдельные виды товаров. Розничная цена 1 десятка яиц на рынках города (в усл. един.):

Район

№ случайных наблюдений

1

2

3

4

5

Юг

Центр

север

10

12

9

13

13

10

10

12

10

11

13

9

13

13

11

Требуется установить достоверность различий в цене за 1 десяток (Х) в зависимости от местоположения рынка.

14.Определить Fтабл. (α = 0,05), если общее число наблюдений равно 30, число групп 5. Группы равночисленные, с неслучайным формированием.

15.Определить достоверность различий в групповых средних, если известно, что общий объем вариации равен 100, объем внутригрупповой вариации – 20, число групп – 5, число единиц в каждой группе – 4. Вероятность Р = 0,95.

16.За месяц известны данные о выработке рабочего за время работы в первую и вторую смены:

Смена

Выработка рабочего, нормо - час

1

12,1; 11,1; 12,6; 12,9; 11,6; 13,1; 12,6; 12,4; 11,6; 17,3; 12,9;

2

9,9; 11,4; 13,4; 10,4; 12,9; 12,6; 13,9; 13,4; 12,4; 9,9

Можно ли утверждать, что расхождение между уровнями выработки рабочего в первую и во вторую смены несущественно?

17.Во сколько раз межгрупповая дисперсия должна быть больше внутригрупповой, чтобы принять альтернативную гипотезу при условии, что число групп – 3, число повторностей – 3, формирование групп случайное.

18.Известны данные о почасовой оплате 10 рабочих, разделенных на две группы: прошедших техническое обучение 5 человек с почасовой оплатой в усл. ед.: 0,87; 0,93; 0,95; 1,01; 1,02 и не прошедших такое обучение – 0,62; 0,68; 0,88; 0,82; 1,05.

Требуется установить, является ли расхождение между уровнем часовой оплаты случайным, т.е. зависит ли от прохождения рабочими технического переобучения.

19.Определить теоретическое значение критерия F- распределения (α = 0,05), если общее число наблюдений 30, число групп 5. Группы равночисленные, с неслучайным формированием.


Тема 5. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ


Для количественной характеристики социально – экономической связи применяется корреляционный анализ. Статистической называют зависимость, при которой изменение одной величины влечет изменение распределения другой. Статистическую зависимость называют корреляционной, если при изменении одной из величин изменяется среднее значение другой величины.

Корреляционная связь – это неполная связь между признаками, которая проявляется в массовых явлениях в силу действия закона больших чисел.

Различают парную корреляцию (связь между двумя признаками) и множественную корреляцию, при которой измеряются связи между тремя и большим числом признаков. Поскольку на результативный фактор, как правило, оказывают влияние множество факторных признаков, то наряду с парной нужно уметь строить модели множественной корреляционной зависимости. Как при парной, так и при множественной корреляции связь может быть выражена линейным уравнением (линейная корреляция) или любым другим математическим уравнением (криволинейная корреляция).Принципиальная схема корреляционного анализа:
  1. установление причинно – следственных связей;
  2. отбор наиболее существенных признаков для анализа;
  3. определение формы связи и математического уравнения для измерения связи;
  4. нахождение числовых характеристик корреляционной связи;
  5. статистическая оценка выборочных показателей связи.

Первый и второй вопросы решаются в процессе предварительного общего анализа (подробно изучается в курсе общей теории статистики).

В корреляционном анализе независимую переменную (факторный признак) принято обозначать «х», зависимость переменную (результативный признак)«у».

Условное математическое ожидание М (у/х) является функцией от «х», следовательно, его оценка, т.е. условное среднее «ух» также функция от «х». Обозначив эту функцию через f *(х), получим уравнение ух = f * (х).

Это уравнение называют выборочным уравнением регрессии «у» на «х»; функцию f *(х) называют выборочной регрессией «у» на «х», ее график – выборочной линией регрессии «у» на «х».

Вопрос об установлении формы связи и соответствующего уравнения является одним из наиболее сложных в корреляционном анализе. Для обоснования формы связи используют логический, графический и пробно – поисковый методы.

Для определения формы парной связи целесообразно построить корреляционное поле, после чего уже строить уравнение регрессии. Решение этого уравнения позволит определить параметры уравнения (коэффициенты регрессии).

Установить форму связи помогает также построение корреляционных таблиц. Задача определения формы связи может быть решена также с помощью статистических группировок.

Парная линейная связь между признаками выражается уравнением прямой:

ух = а0 + а1 х1, где а0 – свободный параметр;

а1 – коэффициент регрессии (пропорциональности).

Параметр «а1» (коэффициент полной регрессии) показывает, на сколько единиц в среднем изменится значение зависимой переменной при изменении фактора на единицу.

Множественная линейная корреляция между признаками выражается уравнением: у х = а 0 + а 1 х 1 + а 2 х 2 + … + а m х m

Параметры а1, а2, …, аm (коэффициенты чистой регрессии) показывают, на сколько единиц изменится в среднем значение зависимой переменной при увеличении соответствующего фактора на единицу при условии, что другие факторы, включенные в уравнение связи, не изменяются. При нелинейной форме зависимости уравнение может иметь характер гиперболы или параболы, а тесноту связи определит индекс корреляции («Ir »).

После решения системы уравнений и определения искомых параметров дается количественная характеристика связи между переменными, включенными в уравнение. При множественной зависимости тесноту связи оценивают коэффициентом множественной детерминации ( R2 ) и коэффициентом множественной корреляции «R», а при парной линейной форме – соответственно, коэффициентом парной детерминации (r 2 ) и коэффициентом парной корреляции «r».

Коэффициенты детерминации отражают, какая доля общей вариации зависимой переменной обусловлена влиянием факторов, включенных в корреляционное уравнение. Величина коэффициента заключена в пределах от 0 до 1, что следует из теоремы сложения дисперсий.

Если корреляционный анализ выполняется на основе выборки, то необходимо сделать проверку статистических гипотез относительно вычисленных показателей связи и, в случае их достоверности, дать статистическую оценку показателей связи в генеральной совокупности.
  1. Достоверность выборочного коэффициента регрессии при заданном уровне вероятности Р = 1 – α определяется путем сравнения фактического значения коэффициента доверия « t факт.» с табличным значением t α . Для больших выборок (n ≥ 30) значение коэффициента доверия t α берут в таблице Лапласа, а для малых выборок (n < 30) – в таблице Стьюдента.
  2. Если рассчитанные коэффициенты регрессии и корреляции достоверны, то следует дать интервалтную оценку их значений в генеральной совокупности (при уровне вероятности Р = 1 – α ).


Задачи для самостоятельного решения

  1. На основании выборочных данных составьте и решите уравнение корреляционной зависимости между дозами внесения органических удобрений и урожайностью картофеля.

№ колхоза Урожайность Внесено органических

картофеля, ц / га удобрений на 1 га
картофеля, т

1 224 59

2 234 55

3 88 32

4 218 58

5 90 33

6 200 46

7 60 30

8 130 37

9 180 42

10 170 44

Рассчитайте коэффициент парной корреляции. Проведите оценку достоверности выборочных показателей регрессии и корреляции и дайте интервальную оценку их значений в генеральной совокупности.
  1. Имеются данные об удоях коров и их возрасте (по числу лактаций):




Возраст коров (в лактациях)

1

2

3

4

5

6

7

8

9

10

11

Удой, ц

25

30

33

37

38

39

38

37

36

32

29



Изобразите корреляционное поле, характеризующее взаимосвязь удоев с возрастом коров в лактациях. Установите форму связи. Составьте корреляционное уравнение и определите его параметры. Рассчитайте коэффициенты корреляции и детерминации.
  1. На основе выборочных данных составьте и решите уравнение корреляционной зависимости между урожайностью картофеля и уровнем нагрузки пашни на 1 трактор.

Урожайность Нагрузка пашни на 1

№ колхоза картофеля, ц / га усл. эт. трактор, га

1 80 136

2 140 113

3 100 105

4 170 100

5 160 111

6 180 105

7 190 105

8 180 98

9 110 105

10 70 135

Составьте уравнение регрессии и определите его параметры. Рассчитайте коэффициент корреляции. Проведите оценку достоверности выборочных коэффициентов регрессии и корреляции, дайте интервальную оценку их значений в генеральной совокупности.
  1. Определите зависимость урожайности зерна, ц (у) от дозы внесения минеральных удобрений на 1 га посева, ц д.в. (х), тесноту связи между ними по следующим данным:

Σ у = 1872,6 Σ х = 471,3

Σ у2 = 31819,7 Σ х2 = 2140,28

Σ ху = 7962,05 n = 116

Форма связи линейная.
  1. Связь между годовым удоем 1 коровы, ц (х0), расходом кормов на среднегодовую корову, ц к.ед. (х1), долей комбикормов в рационе, % (х2), массой 1 коровы, ц (х3), удельным весов коров, размещенных в типовых коровниках, % (х4), выходом телят на 1 среднегодовую корову, голов (х5), выражается следующим корреляционным уравнением:

х 0 = - 7,37 + 0,361 х1 + 0,21 х2 + 1,22 х3 + 0,09 х4 + 6,91 х5

Коэффициент множественной корреляции равен R = 0,82. Проанализируйте приведенные данные, сделайте выводы о зависимости продуктивности коров от указанных факторов.
  1. Определите коэффициент корреляции между урожайностью зерновых культур (у) и дозами минеральных удобрений (х), если известно:

n = 10 Σ у = 310

Σ х = 680 Σ ух = 23196

Σ х2 = 52768 Σ у2 = 10400

Форма связи линейная.
  1. На основе выборочных данных составьте и решите уравнение корреляционной зависимости между уровнем продуктивности и уровнем кормления коров:

Удой на 1 среднего- Расход кормов

№ совхоза довую корову, ц на 1 среднегодовую

корову, ц к.ед.

1 23,7 39,4

2 32,3 53,4

3 34,8 53,9

4 32,2 46,1

5 29,6 47,1

6 26,6 46,4

7 41,6 53,2

8 43,3 54,2

9 27,8 44,0

10 50,1 52,5

Рассчитайте коэффициент парной корреляции. Проведите оценку достоверности выборочных коэффициентов регрессии и корреляции, дайте интервальную оценку значений в генеральной совокупности.
  1. Связь между выходом валовой продукции животноводства на 100 га с.-х. угодий в тыс. руб. (х0), плотностью поголовья животных в переводных головах (х1), фондообеспеченностью в тыс. руб. (х2) выражается следующим уравнением: х = 15,6 + 0,76 х1 + 0,88 х2.

Дайте интерпретацию коэффициентов регрессии.
  1. Определите коэффициент корреляции, если:

ух = 137 Σ х2 = 913

у = 14,5 Σ у2 = 2156

х = 9,0 n = 10.
  1. Имеются выборочные данные об урожайности зерновых и качестве почв:

№ п/п Урожайность Качество

зерновых, ц / га почв, балл

1 16,5 59

2 21,2 64

3 15,8 60

4 23,4 72

5 14,7 57

6 16,8 61

7 25,1 88

8 22,0 68

9 16,9 73

10 24,6 84

11 19,3 67

12 22,8 74

13 23,2 73

14 18,6 62

15 21,5 81

Составьте и решите корреляционное уравнение, рассчитайте коэффициент корреляции. Проведите оценку достоверности выборочных коэффициентов регрессии и корреляции, дайте интервальную оценку их значений в генеральной совокупности.
  1. Имеются следующие данные о росте восьми пар братьев и сестер:

Рост брата, см

170

165

177

180

181

175

172

180

Рост сестры, см

163

162

168

170

164

162

165

168

Определить тесноту зависимости между ростом братьев и сестер на основе коэффициентов корреляции рангов Спирмена и Кендэла.
  1. Имеются данные по фирмам о стоимостиосновных производственных фондов «Х» (млн. руб.) и суточной выработке продукции «У» (тыс. т):

Х

2,0

2,3

2,4

2,9

2,9

3,7

3,7

4,1

У

8,9

10,0

9,9

10,4

10,1

13,0

12,8

13,5

1) Решить уравнение регрессии «У» по «Х» и определить значимость его параметров (с помощью t – критерия).

2) Измерить тесноту связи между «Х» и «У» с помощью: