Исследование данных в линейной регрессионной модели

Контрольная работа - Математика и статистика

Другие контрольные работы по предмету Математика и статистика

Московский государственный институт электронной техники (Технический Университет)

 

 

 

 

 

 

 

 

 

 

 

Контрольная работа по теории вероятностей

Анализ данных в линейной регрессионной модели

 

 

 

 

 

 

 

 

 

 

 

 

Москва 2008

Постановка задачи

 

Пусть требуется измерить некоторую величину а. Результаты измерений х1?(?)?, х2?(?), ... хn?(?) естественно рассматривать как значения случайных величин х1?(?), х2?(?), ... , хn?(?), полученные в данном опыте с исходом w.?Если измерительный прибор не даёт систематической ошибки, то Мхk = а. Таким образом, по результатам наблюдений х1, х2, ... хn нужно определить неизвестный параметр а - это типичная задача оценки неизвестных параметров. Общая ошибка измерения часто складывается из большого числа ошибок, каждая из которых невелика. В такой ситуации на основании центральной предельной теоремы становится правдоподобным следующее предположение (гипотеза): СВ хk имеют нормальное распределение. Таким образом, мы пришли к задаче статистической проверки гипотезы о законе распределения.

К задачам оценки параметров часто относят задачи, в которых нужно установить зависимость между переменными. Пусть, например, из некоторых соображений известно, что переменная у линейно зависит от переменных х1, х2, ... хn: у = А0 + А1х1 + ... + Аkхk. Коэффициенты А0, А1, ... ,Аk неизвестны. При различных наборах (хi1, хi2, ... , хin), i=1,…,n, измеренных значения уi = А0 + А1хi1 + ... + Аkхik +di , где di - ошибки измерения у при наборе (хi1, хi2, ... , хin). По значениям (уi , хi1, хi2, … , хin) требуется оценить коэффициенты А0, А1, ... ,Аk . Задачи такого типа называют регрессионными.

вектор линейный регрессия дисперсия

Статистическое описание и выборочные характеристики двумерного случайного вектора

 

Пусть , - выборка объема из наблюдений случайного двумерного вектора (X, Y). Предварительное представление о двумерной генеральной совокупности можно получить, изображая элементы выборки точками на плоскости с выбранной декартовой системой координат. Это представление выборки называется диаграммой рассеивания.

Распределением двумерной выборки называется распределение двумерного дискретного случайного вектора, принимающего значения , с вероятностями, равными . Выборочные числовые характеристики вычисляются как соответствующие числовые характеристики двумерного случайного вектора дискретного типа.

Выборочная линейная регрессия на по выборке , определяется уравнением

 

 

Выборочные средние находятся по формулам:

 

.

 

Вычислим суммы квадратов отклонений от среднего и произведений отклонений от средних:

 

 

Дисперсия находится по формулам: ,; коэффициент корреляции считается как

 

.

 

Линейная регрессия

 

В регрессионном анализе изучается связь между зависимой переменной и одной или несколькими независимыми переменными. Пусть переменная зависит от одной переменной . При этом предполагается, что переменная принимает фиксированные значения, а зависимая переменная имеет случайный разброс из-за ошибок измерения, влияния неучтенных факторов и т.д. Каждому значению переменной соответствует некоторое вероятностное распределение случайной величины . Предположим, что случайная величина в среднем линейно зависит от значений переменной . Это означает, что условное математическое ожидание случайной величины при заданном значении переменной имеет вид

 

 

Функция переменной, определяемая правой частью формулы, называется линейной регрессией на , а параметры и - параметрами линейной регрессии. На практике параметры линейной регрессии неизвестны и их оценки определяют по результатам наблюдений переменных и .

Пусть проведено независимых наблюдений случайной величины при значениях переменной при этом измерения величины дали следующие результаты:

Так как эти значения имеют "разброс" относительно регрессии, то связь между переменными и можно записать в виде линейной регрессионной модели:

 

 

где - случайная ошибка наблюдений, причем Значение дисперсии ошибок наблюдений неизвестно, и оценка ее определяется по результатам наблюдений.

Задача линейного регрессионного анализа состоит в том, чтобы по результатам наблюдений ,

получить наилучшие точечные и интервальные оценки неизвестных параметров и модели;

проверить статистические гипотезы о параметрах модели;

проверить достаточно ли хорошо модель согласуется с результатами наблюдений.

Задача линейного регрессионного анализа решается в предположении, что случайные ошибки не коррелированны, имеют и одну и ту же дисперсию и нормально распреде?/p>