Исследование данных в линейной регрессионной модели
Контрольная работа - Математика и статистика
Другие контрольные работы по предмету Математика и статистика
Московский государственный институт электронной техники (Технический Университет)
Контрольная работа по теории вероятностей
Анализ данных в линейной регрессионной модели
Москва 2008
Постановка задачи
Пусть требуется измерить некоторую величину а. Результаты измерений х1?(?)?, х2?(?), ... хn?(?) естественно рассматривать как значения случайных величин х1?(?), х2?(?), ... , хn?(?), полученные в данном опыте с исходом w.?Если измерительный прибор не даёт систематической ошибки, то Мхk = а. Таким образом, по результатам наблюдений х1, х2, ... хn нужно определить неизвестный параметр а - это типичная задача оценки неизвестных параметров. Общая ошибка измерения часто складывается из большого числа ошибок, каждая из которых невелика. В такой ситуации на основании центральной предельной теоремы становится правдоподобным следующее предположение (гипотеза): СВ хk имеют нормальное распределение. Таким образом, мы пришли к задаче статистической проверки гипотезы о законе распределения.
К задачам оценки параметров часто относят задачи, в которых нужно установить зависимость между переменными. Пусть, например, из некоторых соображений известно, что переменная у линейно зависит от переменных х1, х2, ... хn: у = А0 + А1х1 + ... + Аkхk. Коэффициенты А0, А1, ... ,Аk неизвестны. При различных наборах (хi1, хi2, ... , хin), i=1,…,n, измеренных значения уi = А0 + А1хi1 + ... + Аkхik +di , где di - ошибки измерения у при наборе (хi1, хi2, ... , хin). По значениям (уi , хi1, хi2, … , хin) требуется оценить коэффициенты А0, А1, ... ,Аk . Задачи такого типа называют регрессионными.
вектор линейный регрессия дисперсия
Статистическое описание и выборочные характеристики двумерного случайного вектора
Пусть , - выборка объема из наблюдений случайного двумерного вектора (X, Y). Предварительное представление о двумерной генеральной совокупности можно получить, изображая элементы выборки точками на плоскости с выбранной декартовой системой координат. Это представление выборки называется диаграммой рассеивания.
Распределением двумерной выборки называется распределение двумерного дискретного случайного вектора, принимающего значения , с вероятностями, равными . Выборочные числовые характеристики вычисляются как соответствующие числовые характеристики двумерного случайного вектора дискретного типа.
Выборочная линейная регрессия на по выборке , определяется уравнением
Выборочные средние находятся по формулам:
.
Вычислим суммы квадратов отклонений от среднего и произведений отклонений от средних:
Дисперсия находится по формулам: ,; коэффициент корреляции считается как
.
Линейная регрессия
В регрессионном анализе изучается связь между зависимой переменной и одной или несколькими независимыми переменными. Пусть переменная зависит от одной переменной . При этом предполагается, что переменная принимает фиксированные значения, а зависимая переменная имеет случайный разброс из-за ошибок измерения, влияния неучтенных факторов и т.д. Каждому значению переменной соответствует некоторое вероятностное распределение случайной величины . Предположим, что случайная величина в среднем линейно зависит от значений переменной . Это означает, что условное математическое ожидание случайной величины при заданном значении переменной имеет вид
Функция переменной, определяемая правой частью формулы, называется линейной регрессией на , а параметры и - параметрами линейной регрессии. На практике параметры линейной регрессии неизвестны и их оценки определяют по результатам наблюдений переменных и .
Пусть проведено независимых наблюдений случайной величины при значениях переменной при этом измерения величины дали следующие результаты:
Так как эти значения имеют "разброс" относительно регрессии, то связь между переменными и можно записать в виде линейной регрессионной модели:
где - случайная ошибка наблюдений, причем Значение дисперсии ошибок наблюдений неизвестно, и оценка ее определяется по результатам наблюдений.
Задача линейного регрессионного анализа состоит в том, чтобы по результатам наблюдений ,
получить наилучшие точечные и интервальные оценки неизвестных параметров и модели;
проверить статистические гипотезы о параметрах модели;
проверить достаточно ли хорошо модель согласуется с результатами наблюдений.
Задача линейного регрессионного анализа решается в предположении, что случайные ошибки не коррелированны, имеют и одну и ту же дисперсию и нормально распреде?/p>