Исследование регрессии на основе численных данных
Курсовой проект - Математика и статистика
Другие курсовые по предмету Математика и статистика
7. Точность коэффициентов регрессии
Увеличивая u, мы увеличиваем его стандартное отклонение, следовательно, увеличиваем стандартные отклонения и . Чем больше число наблюдений, тем меньше дисперсии оценок. Чем большей информацией мы располагаем, тем более точными будут наши оценки. Чем больше дисперсия X, тем меньше будут дисперсия коэффициентов регрессии.
Коэффициенты регрессии вычисляются на основании предположения, что наблюдаемые изменения Y происходят вследствие изменений Х, но в действительности они лишь отчасти вызваны изменением Х, а отчасти вариациями u. Чем меньше дисперсия Х, тем больше, вероятно, будет относительное влияние фактора случайности при определении отклонений Y и тем более вероятно, что регрессионный анализ может оказаться неверным. Важные значения имеют дисперсия случайного члена и дисперсия Х.
Дисперсия случайного члена нам неизвестна, но мы можем получить ее оценку на основе остатков. Разброс остатков относительно линии регрессии будет отражать неизвестный разброс u относительно линии y=x, хотя в общем остаток и случайный член в любом данном наблюдении не равны друг другу. Следовательно, выборочная дисперсия остатков, которую мы можем измерить, сможет быть использована для оценки дисперсии случайного члена, которую мы получить не можем.
Рассматривая теоретические дисперсии оценок и и оценку случайного члена, можно получить оценки теоретических дисперсий для и и после извлеченного квадратного корня оценки их стандартных отклонений. Вместо термина оценка стандартного отклонения функции плотности вероятности коэффициента регрессии будем использовать термин стандартная ошибка коэффициента регрессии.
Стандартная ошибка дает только общую оценку степени точности коэффициентов регрессии. Она позволяет получить некоторое представление о кривой функции плотности вероятности. Однако она не несет информации о том, находится ли полученная оценка в середине распределения и, следовательно, является точной или в хвосте распределения и, таким образом, относительно неточна.
Чем больше дисперсия случайного члена, тем, очевидно, больше будет выборочная дисперсия остатков и, следовательно, существеннее стандартные ошибки коэффициентов в уравнении регрессии, что позволяет с высокой вероятностью заключить, что полученные коэффициенты неточны. Однако это всего лишь вероятность. Возможно, что в какой-то конкретной выборке воздействия случайного фактора в различных наблюдениях будут взаимно погашены и в конечном итоге коэффициенты регрессии будут точны. Проблема состоит в том, что, вообще говоря, нельзя утверждать, произойдет это или нет.
8. Доверительные интервалы
Вопрос стоит в том, насколько сильно гипотетическое значение может отличаться от результата эксперимента, прежде чем они станут несовместимыми. Гипотетическое значение ? является совместимым с результатом оценивания регрессии (b), если оно удовлетворяет двойному неравенству:
b-с.о.(b)*tкрит < ? < b+с.о.(b)* tкрит
Любое гипотетическое значение ?, которое удовлетворяет этому соотношению, будет автоматически совместимо с оценкой b, иными словами, не будет опровергаться ею. Множество этих значений, определенных как интервал между нижней и верхней границами неравенства, известно как доверительный интервал для величины ?.
9. F-статистика
F-статистика используется для проверки качества оценивания регрессии и записывается как отношение объясненной суммы квадратов (в расчете на одну независимую переменную к остаточной сумме квадратов) в расчете на одну степень свободы
SS сумма квадратов отклонений (с.к.о.)
Df число степеней свободы (с.с.)
MS с.к.о. деленная на с.с.
F-статистика MS регрессии деленная на MS остатка
Задание
Необходимо исследовать регрессию на основе численных данных. Задана истинная зависимость: y=a+bx, x?[a,b]
Вариант №10
y=4+3x, x?[5,20]
Практическая часть
I.
Задана истинная зависимость y = 3*x + 4, x принадлежит промежутку [5;20].
1. На промежутке [5;20] выберем 30 значений, равноудаленных от соседних, таким образом, составим выборку для X. Вычислим для этой выборки значения Y:
XY5195,4020,205,8121,446,6223,856,7724,326,8724,616,9424,817,0225,068,1228,358,1328,389,4432,329,4632,3910,1234,3610,4235,2710,8936,6711,0237,0612,1940,5812,4641,3812,5341,6012,6341,8813,2843,8313,9345,8014,6247,8614,9448,8215,3950,1818,0858,2318,1458,4219,3862,1419,5062,5119,8863,6419,9963,962064
2. Используя генератор случайных чисел, находим по 30 значений Ui , Vi.Выборку производим из нормальной генеральной совокупности N(0;1).
UiVi0,17465-0,139180,6087662,2004860,2569660,415696-0,40546-0,77361-0,507021,0261560,148453-0,275990,693411,8122410,3559410,428406-1,705960,4889220,6381240,200499-0,797040,1099580,7178440,5161770,6764840,5220410,481091-2,68454-0,660890,1712340,690980,560749-1,05002-0,11743-0,77062-1,049351,7541240,002257-0,70798-1,37519-0,62831-1,6882-1,998560,206826-0,059510,115040,6568031,57218-1,15063-0,321910,580555-0,62645-0,36795-0,293760,839377-1,40617-1,53361-1,85625-1,882142,009965
3. Полагая вместо Xi значения X+Ui, а вместо Yi Y+Vi, получим две зависимые выборки:
XiYi5,1746518,860826,14253422,801796,68660623,704616,10291922,751526,32363225,518117,31007925,208898,5256829,309058,40748728,583046,45179328,962179,03071429,378277,73013729,691499,91474932,1068912,5005839,9943112,5409437,49511,4387840,4702513,5111943,021411,8402442,5533412,5774142,9947417,0651149,9352115,3464350,7880515,4984350,6920314,1387152,6186416,171652,8083917,3914855,776216,8493457,67819,0497558,7811318,1845659,3637719,8043459,4887217,6991659,8420418,1178666,00997
4. По полученным значениям находим уравнение линейной регрессии (ExcelАнализ данныхРегрессия)
y = 2,959989002*x+ 4,977076691
а также:
коэффициент детерминации R2 0,957421057
доверитель