Исследование данных в линейной регрессионной модели

Контрольная работа - Математика и статистика

Другие контрольные работы по предмету Математика и статистика

»ены, т.е. . В этом случае ошибки наблюдений также являются независимыми СВ.

Для нахождения оценок параметров регрессии по результатам наблюдений используется метод наименьших квадратов. По этому методу в качестве оценок параметров выбирают такие значения и , которые минимизируют сумму квадратов отклонений наблюдаемых значений случайных величин , i=1,2,…,n , от их математических ожиданий, т. е. сумму

 

.

 

Из необходимых условий минимума функции :

 

 

Получим, что МНК-оценки параметров линейной регрессии имеют вид:

 

 

Аналогично определяются линейная регрессия X на Y

 

.

 

Коэффициенты и находятся по формулам:

 

,

.

 

Для контроля правильности расчетов используется соотношение: .

Прямые , пересекаются в точке с координатами .

Оценки параметров линейной регрессии, получаемые по методу наименьших квадратов, при любом законе распределения ошибок наблюдений , i=1,2,….n, имеют следующие свойства:

.Они являются линейными функциями результатов наблюдений , i=1,2,…,n, и несмещенными оценками параметров, т.е. , j=0,1.

.Они имеют минимальные дисперсии в классе не смещенных оценок, являющихся линейными функциями результатов наблюдений. Если ошибки наблюдений не коррелированны и имеют нормальное распределение, т.е. , то в дополнение к свойствам 1, 2 выполняется свойство:

.МНК - оценки совпадают с оценками, вычисляемыми по методу максимального подобия.

Функция определяет выборочную регрессию Y на X . Последняя является оценкой предполагаемой линейной регрессией по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при , i=1,2,…,n, и расчетными значениями называются остатками и обозначаются : .

Качество аппроксимации результатов наблюдений , выборочной регрессии определяется величиной остаточной дисперсии, вычисляемой по формуле:

 

 

Величина , определяется выражением

 

 

и называется остаточной суммой квадратов.

В практических вычислениях остаточную сумму квадратов получают из тождества

 

которое записывается в виде

 

,

 

где

 

 

Величина называется суммой квадратов, обусловленной регрессией.

Линейная регрессионная модель называется незначимой, если параметр . Если эта гипотеза отклоняется, то говорят, что регрессионная модель статистически значима

Полезной характеристикой линейной регрессии является коэффициент детерминации , вычисляемый по формуле

 

 

Коэффициент детерминации равен той доле разброса результатов наблюдений , относительно горизонтальной прямой , которая объясняется выборочной регрессией.

Величина R является оценкой коэффициента корреляции между результатами наблюдений и вычисленными значениями, предсказываемыми регрессией. В случае линейной регрессии Y на X (одной независимой переменой X) между коэффициентом R и выборочным коэффициентом корреляции имеется следующее соотношение:

 

.

 

Доверительным интервалом для параметра называется интервал , содержащий истинное значение с заданной вероятностью , т.е. . Число называется доверительной вероятностью, а значение - уровнем значимости. Статистики , определяемые по выборке из генеральной совокупности с неизвестным параметром , называются нижней и верхней границами доверительного интервала.

Границы доверительных интервалов для параметров линейной регрессии имеют вид:

 

,

,

 

где - квантиль распределения Стьюдента с n-2 степенями свободы.

Границы доверительного интервала для среднего значения , соответствующего заданному значению , определяются формулой:

 

.

Доверительный интервал для дисперсии ошибок при неизвестном и при доверительной вероятности имеет вид , где - квантиль распределения с n-2 степенями свободы.

 

Проверка гипотезы о равенстве средних двух нормальных совокупностей при неизвестных дисперсиях

 

1.Проверить гипотезу о равенстве дисперсий Н0:

a) Zв= () , 2/(n-1) - несмещённая оценка дисперсии

б) если Zв<, гипотеза Н0 принимается на уровне значимости

.Проверить гипотезу о равенстве средних с неизвестными неравными дисперсиями )

 

а) Zв=

 

б) если в|<(k), где k=, то гипотеза m1=m2 принимается.

.Гипотеза о равенстве средних с неизвестными равными дисперсиями ()

а) Zв=, где s=

 

б)если в|<(), то Н0: m1=m2 принимается.

 

Практическая часть

 

Выборочная регрессия Y на X по выборке ,определяется уравнением

Найдем средние значения X и Y:

 

=1/ ni=250,34/50=5,0068

=1/ni=597,78/50=11,9556

 

2) Найдем суммы квадратов отклонений от среднего и произведений отклонений от средних значений по формулам:

 

x=i2-(i) 2/ n=1370,51 - (250,34)2/50=117,1079y=i2-(i) 2/ n=7273,65 - (597,78)2/50=126,8358

xy=iyi-((i)i)) / n =3102,39 - (250,34597,78)/50=109,425x=x1/n=117,1079/50=2,3422

Dy=y1/n=126,8358/50=2,5367

 

3) Получим коэффициенты регрессии Y на X (определяется уравнением

 

:

=xy/x=0,8628

==-5,3076

у = -5,3076 + 0,8628*x

 

4) Получим коэффициенты регрессии X на Y (определяется уравнением

 

):

=xy/y=0,9344

==7,2773

x = 7,2773+0,9344*y

 

5) Найдём коэффициент корреляции:

 

=xy/=0,8978

 

6) Найдём остатки и остаточные суммы квадратов по формулам:

 

=24,5897

 

7) Най?/p>