Исследование данных в линейной регрессионной модели
Контрольная работа - Математика и статистика
Другие контрольные работы по предмету Математика и статистика
»ены, т.е. . В этом случае ошибки наблюдений также являются независимыми СВ.
Для нахождения оценок параметров регрессии по результатам наблюдений используется метод наименьших квадратов. По этому методу в качестве оценок параметров выбирают такие значения и , которые минимизируют сумму квадратов отклонений наблюдаемых значений случайных величин , i=1,2,…,n , от их математических ожиданий, т. е. сумму
.
Из необходимых условий минимума функции :
Получим, что МНК-оценки параметров линейной регрессии имеют вид:
Аналогично определяются линейная регрессия X на Y
.
Коэффициенты и находятся по формулам:
,
.
Для контроля правильности расчетов используется соотношение: .
Прямые , пересекаются в точке с координатами .
Оценки параметров линейной регрессии, получаемые по методу наименьших квадратов, при любом законе распределения ошибок наблюдений , i=1,2,….n, имеют следующие свойства:
.Они являются линейными функциями результатов наблюдений , i=1,2,…,n, и несмещенными оценками параметров, т.е. , j=0,1.
.Они имеют минимальные дисперсии в классе не смещенных оценок, являющихся линейными функциями результатов наблюдений. Если ошибки наблюдений не коррелированны и имеют нормальное распределение, т.е. , то в дополнение к свойствам 1, 2 выполняется свойство:
.МНК - оценки совпадают с оценками, вычисляемыми по методу максимального подобия.
Функция определяет выборочную регрессию Y на X . Последняя является оценкой предполагаемой линейной регрессией по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при , i=1,2,…,n, и расчетными значениями называются остатками и обозначаются : .
Качество аппроксимации результатов наблюдений , выборочной регрессии определяется величиной остаточной дисперсии, вычисляемой по формуле:
Величина , определяется выражением
и называется остаточной суммой квадратов.
В практических вычислениях остаточную сумму квадратов получают из тождества
которое записывается в виде
,
где
Величина называется суммой квадратов, обусловленной регрессией.
Линейная регрессионная модель называется незначимой, если параметр . Если эта гипотеза отклоняется, то говорят, что регрессионная модель статистически значима
Полезной характеристикой линейной регрессии является коэффициент детерминации , вычисляемый по формуле
Коэффициент детерминации равен той доле разброса результатов наблюдений , относительно горизонтальной прямой , которая объясняется выборочной регрессией.
Величина R является оценкой коэффициента корреляции между результатами наблюдений и вычисленными значениями, предсказываемыми регрессией. В случае линейной регрессии Y на X (одной независимой переменой X) между коэффициентом R и выборочным коэффициентом корреляции имеется следующее соотношение:
.
Доверительным интервалом для параметра называется интервал , содержащий истинное значение с заданной вероятностью , т.е. . Число называется доверительной вероятностью, а значение - уровнем значимости. Статистики , определяемые по выборке из генеральной совокупности с неизвестным параметром , называются нижней и верхней границами доверительного интервала.
Границы доверительных интервалов для параметров линейной регрессии имеют вид:
,
,
где - квантиль распределения Стьюдента с n-2 степенями свободы.
Границы доверительного интервала для среднего значения , соответствующего заданному значению , определяются формулой:
.
Доверительный интервал для дисперсии ошибок при неизвестном и при доверительной вероятности имеет вид , где - квантиль распределения с n-2 степенями свободы.
Проверка гипотезы о равенстве средних двух нормальных совокупностей при неизвестных дисперсиях
1.Проверить гипотезу о равенстве дисперсий Н0:
a) Zв= () , 2/(n-1) - несмещённая оценка дисперсии
б) если Zв<, гипотеза Н0 принимается на уровне значимости
.Проверить гипотезу о равенстве средних с неизвестными неравными дисперсиями )
а) Zв=
б) если в|<(k), где k=, то гипотеза m1=m2 принимается.
.Гипотеза о равенстве средних с неизвестными равными дисперсиями ()
а) Zв=, где s=
б)если в|<(), то Н0: m1=m2 принимается.
Практическая часть
Выборочная регрессия Y на X по выборке ,определяется уравнением
Найдем средние значения X и Y:
=1/ ni=250,34/50=5,0068
=1/ni=597,78/50=11,9556
2) Найдем суммы квадратов отклонений от среднего и произведений отклонений от средних значений по формулам:
x=i2-(i) 2/ n=1370,51 - (250,34)2/50=117,1079y=i2-(i) 2/ n=7273,65 - (597,78)2/50=126,8358
xy=iyi-((i)i)) / n =3102,39 - (250,34597,78)/50=109,425x=x1/n=117,1079/50=2,3422
Dy=y1/n=126,8358/50=2,5367
3) Получим коэффициенты регрессии Y на X (определяется уравнением
:
=xy/x=0,8628
==-5,3076
у = -5,3076 + 0,8628*x
4) Получим коэффициенты регрессии X на Y (определяется уравнением
):
=xy/y=0,9344
==7,2773
x = 7,2773+0,9344*y
5) Найдём коэффициент корреляции:
=xy/=0,8978
6) Найдём остатки и остаточные суммы квадратов по формулам:
=24,5897
7) Най?/p>