Задача. Построить модель связи между указанными факторами, проверить ее адекватность, осуществить точеный и интервальный прогноз.
Стоимость основных производственных фондов (X, млн.руб.)
2,3
2,5
2,0
2,9
3,3
5,0
3,8
4,0
7,4
7,5
Среднесуточная производительность (Y, тонн)
22,0
24,7
22,4
25,1
27,0
29,4
34,2
30,6
35,2
33,9
Решение:
1) По исходным данным нанесем на координатную плоскость точки
Вид рассеивания точек позволяют выдвинуть гипотезу о том, что зависимость среднесуточной производительностью (y) от стоимости основных производственных фондов () описывается линейной моделью вида:
где a и b - неизвестные постоянные коэффициенты.
2) Парный коэффициент корреляции будем искать по формуле:
Все расчеты запишем в таблицу
X
Y
X2
Y2
XY
2,3
22
5.29
484
50.6
2,5
24.7
6.25
610.09
61.75
2
22.4
4
501.76
44.8
2,9
25.1
8.41
630.01
72.79
3,3
27
10.89
729
89.1
5
29.4
25
864.36
147
3,8
34.2
14.44
1169.64
129.96
4
30.6
16
936.36
122.4
7,4
35.2
54.76
1239.04
260.48
7,5
33.9
56.25
1149.21
254.25
Сумма
40,7
284.5
201.29
8313.47
1233.13
Тогда
Для оценки значимости r применяется t-критерий Стьюдента. При этом определяется фактическое значение критерия tr:
По таблице критических точек распределения Стьюдента, по заданному уровню значимости б=0,05 и числу степеней свободы k=n-2 , находим критическую точку tк=2,23. Так как tr>tк , то величина коэффициента корреляции признается существенной. Следовательно, X и Y коррелированны и связь между ними средняя.
3) Оценка параметров уравнений регрессии осуществляется методом наименьших квадратов. Сущность метода наименьших квадратов заключается в нахождении параметров модели a и b, при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических. Для выражения прямолинейной формы зависимости между X и Y применяется формула:
Для расчета параметров a и b линейной регрессии решаем систему уравнений:
Для определения параметров уравнения на основе требований метода наименьших квадратов составляется система нормальных уравнений:
Найдем коэффициенты a и b:
Таким образом, уравнение линии регрессии имеет вид:
Коэффициент а можно интерпретировать как математическое ожидание среднесуточной производительности (Y, тонн); коэффициент b показывает, как меняется фактор Y при изменении фактора Х: в нашем случае при увеличении Х на 1 Y увеличится на 2,11 единиц.
4) Наглядное изображение анализируемых данных, то есть применение графического метода (путем построения корреляционного поля точек эмпирической линии регрессии), не дает обобщенную количественную оценку адекватности того или иного уравнения связи. Более продуктивно использование критерия минимальной остаточной дисперсии и показателя средней ошибки аппроксимации :
где - теоретические значения.
Подставляя в уравнение регрессии фактические значения X, определим теоретические значения . Все расчеты запишем в таблицу:
Ч100%
22,0
=24.713
22,0-24.713=
= -2.713
12.33182
24,7
=25.135
24,7-25.135=
=-0.435
1.761134
22,4
=24.08
22,4-24.08=
=-1.68
7.5
25,1
=25.975
25,1-25.975=
=-0.879
3.501992
27,0
=26.823
27,0-26.823=
=0.177
0.655556
29,4
=30.41
29,4-30.41=
=-1.01
3.435374
34,2
=27.878
34,2-27.878=
=6.322
18.48538
30,6
=28.3
30,6-28.3=
=2.3
5.666667
35,2
=35.474
35,2-35.474=
=-0.274
0.778409
33,9
=35.685
33,9-35.685=
= -1.785
5.265487
Сумма
59.38182
Найдем среднюю ошибку аппроксимации:
В среднем расчетные значения отклоняются от фактических на 5,938%.
5) Проверим значимость коэффициентов a и b по t-критерию Стьюдента.
Выдвигаем гипотезу H0 о статистически незначимом отличии показателей от нуля: a = b = 0.
tтабл. для числа степеней свободы k=n-2=10-2=8 и б=0.05 составит 2.23
Определим случайные ошибки ma, mb:
Тогда
;