Книги по разным темам Pages:     | 1 |   ...   | 7 | 8 | 9 | 10 | 11 |   ...   | 20 |

Определенную указанным образом модельнаблюдений мы будем называть нормальнойлинейной моделью сp объясняющимипеременными. Иначе ее еще называют нормальнойлинейной моделью множественной регрессии переменной y на переменныеx1,..., xp. Термин УмножественнаяФ указывает на использование вправой части модели наблюдений двух иболее объясняющих переменных, отличных от постоянной.Термин УрегрессияФ имеет определенные исторические корни и используется лишь всилу традиции.

Оценивание неизвестных коэффициентов моделиметодом наименьших квадратов состоит вминимизации по всем возможным значениямсуммы квадратов

Минимум этой суммы достигается при некоторомнаборе значений коэффициентов

так что

Это минимальное значение мы опятьобозначаем RSS, так что

и называемостаточной суммой квадратов.

Коэффициент детерминации R2 определяется как

где

Обозначая

(подобранные -fitted- значения объясняющей переменной пооцененной линейной модели связи), и определяяостаток (residual) от i-го наблюдениякак

мы получаем:

Обозначая

- объясненнаямоделью (explained)сумма квадратов, или регрессионная сумма квадратов, мы также, как и в случае простойлинейной регрессии с, имеем разложение

так что

И опять, это разложение справедливо толькопри наличии постоянной составляющей в модели линейной связи. При этом, также, здесь

т.е. коэффициент детерминации равенквадрату выборочного коэффициента корреляции междупеременными и. Последний называется множественным коэффициентом корреляции (multiple-R).

Для поиска значений, минимизирующих сумму

следует приравнять нулю частные производныеэтой суммы (как функции от ) по каждому из аргументов. В результате получаем систему нормальных уравнений

или

Это система линейных уравненийс неизвестными. Ее можно решать или методом подстановки или по правилу Крамера сиспользованием соответствующих определителей. В векторно-матричной форме этасистема имеет вид

где

- матрица значений объясняющихпеременных в наблюдениях;

- транспонированнаяматрица;

и

соответственно, вектор-столбец значенийобъясняемой переменной в наблюдениях и вектор-столбец оценокнеизвестных коэффициентов. Система нормальных уравнений имеет единственное решение, есливыполнено условие

(4) матрица XTX невырождена, т.е. ееопределитель отличен от нуля:

которое можно заменить условием

(4’) столбцы матрицы X линейно независимы.

При выполнении этого условияматрица (размера ) имеет обратную к ней матрицу. Умножая втаком случае обе части последнего уравнения слева на матрицу, находим искомоерешение системы нормальных уравнений:

Введем дополнительныеобозначения

,,,.

Тогда модель наблюдений

можно представить в матрично-векторнойформе

Вектор подобранных значений имеетвид

и вектор остатков равен

Определяющим для всего последующегоявляется то обстоятельство, что в нормальной линейной модели снесколькими объясняющими переменными оценкикоэффициентов какслучайные величины имеют нормальныераспределения (хотя эти случайные величиныуже не являются независимыми всовокупности).

Действительно, поскольку, тооценки являютсялинейными комбинациями значений, т.е.имеют вид

где - коэффициенты,определяемые значениями объясняющих переменных. Поскольку же унас - наблюдаемые значения случайных величин, тоявляется наблюдаемымзначением случайной величины которуюмы также будем обозначать :

Ранее мы выяснили, что при нашихпредположениях

~

Поэтому случайныевеличины такжебудут нормальными каклинейные комбинации независимых нормально распределенных случайныхвеличин.

Можно показать, что математическое ожиданиеслучайной величины равно

( является несмещенной оценкойистинного значения коэффициента ), адисперсия этой случайной величины равна -му диагональному элементуматрицы :

Рассмотренная ранее модель простой линейной регрессии

вкладывается в модель множественнойлинейной регрессии с :

,,,.

Матрица имеет вид

Учитывая, что

находим:

2.5. НОРМАЛЬНАЯ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ:ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
ДЛЯ КОЭФФИЦИЕНТОВ

Рассматривая нормальную модель линейноймножественной регрессии

с ~ i. i. d., мы установили, что оценка наименьших квадратовнеизвестного истинного значения коэффициента при — ой объясняющей переменнойимеет нормальное распределение, причем

Рассмотрим теперь случайнуювеличину

получаемую путем вычитания из случайнойвеличины ее математического ожидания и деления полученной разности накорень из дисперсии (т. е. путем центрирования и нормирования случайной величины ). Присовершении этих двух действий мы не выходим из семейства нормальных случайныхвеличин, получая опять же нормальную случайную величину, но только уже с другими математическиможиданием и дисперсией. Используя упомянутые ранее свойства математическогоожидания и дисперсии, находим:

так что

~

Иными словами, в результате центрирования инормирования случайной величины мы получили случайную величину, имеющуюстандартное нормальное распределение, т. е. нормальное распределение снулевым математическим ожиданием и единичной дисперсией. Функцию распределения и функцию плотности распределения такойслучайной величины обозначают, соответственно, как и :

Для каждого значения, определимсимволом число, для которого, так что если случайная величинаимеет стандартное нормальное распределение, то тогда

Такое число называется квантилью уровня p стандартногонормального распределения.

Заштрихованнаяплощадь под графиком плотности стандартногонормального распределения находится правее квантили уровня;

эта квантиль равна. Поэтому площадь подкривой, лежащая левее точки, равна, а заштрихованная площадь равна. Последняя величина есть вероятность того,что случайная величина, имеющая стандартное нормальное распределение, примет значение, превышающее.

Если мы возьмем какое-нибудь число впределах от до,, ивыделим интервал

то получим следующую картину:

Из симметрии функции плотности нормальногораспределения вытекает равенство площадей областей, заштрихованных на последнемрисунке. Но площадь правой заштрихованной области равна ; следовательно, таковаже и площадь левой заштрихованной области. Это, в частности, означает, чтовероятность того, что случайная величина примет значение, не превышающее, равна, так что

Часть площади под кривой стандартнойнормальной плотности, лежащая в пределах выделенногоинтервала, меньше единицы на сумму площадейзаштрихованных областей (лхвостов), т. е. равна

Эта величина равна вероятности того, что случайная величина, имеющая стандартное нормальноераспределение, примет значение в пределах указанногоинтервала2:

Но ранее мы установили, что стандартноенормальное распределение имеет случайная величина

Поэтому для этой случайной величинысправедливо соотношение

так что с вероятностью, равной,выполняется двойное неравенство

т. е.

Иными словами, свероятностью, равной 1-α, случайныйинтервал

накрывает истинное значение коэффициентаθ j. Такой интервал называетсядоверительным интервалом для θ jс уровнем доверия (доверительной вероятностью)1-α, или (1-α)-доверительным интервалом, или100(1-α)-процентным доверительным интервалом для θ j.

Последний рисунок был получен при значенииα = 0.05. Поэтомуплощади заштрихованных областей (лхвосты) равны 0.025,сумма этих площадей равна 0.05, и площадьобласти под кривой в пределах интерваларавна 1-0.05 = 0.95. Остаетсязаметить, что

так что случайный интервал

является 95%-доверительным интервалом для θ j. Его длина

пропорциональна —среднеквадратической ошибке (среднеквадратическомуотклонению) оценки коэффициента θ j.

Хотелось бы, конечно, прямо сейчаспостроить доверительные интервалы для коэффициентов линейной модели покаким-нибудь реальным статистическим данным. Однако этому препятствует тообстоятельство, что в выражения для дисперсий

входит неизвестное нам значение σ 2.

2.6. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ
КОЭФФИЦИЕНТОВ: РЕАЛЬНЫЕ
СТАТИСТИЧЕСКИЕДАННЫЕ

Итак, практическому построениюдоверительных интервалов для коэффициентов нормальной модели линейноймножественной регрессии

с ~ i. i.d. препятствует вхождение в выражения длядисперсий

неизвестного значения σ 2.

Единственный выход из этого положения— заменить неизвестное значение σ 2 какой-нибудь подходящей его оценкой(estimate), которую можно было бы вычислить наосновании имеющихся статистических данных. Такого родаоценки принято называть статистиками (statistics).

В данной ситуации такой подходящей оценкойдля неизвестного значения является статистика

Поскольку сумма является квадратичной функцией от случайных величин, то она является случайной величиной, а следовательно,случайной величиной является и статистика S2. Математическое ожидание этойслучайной величины равно :

т. е. — несмещенная оценка для.

Замечание. Вчастном случае модельнаблюдений принимает вид

(случайная выборка из распределения N(θ1,σ2)).Несмещенной оценкой для служит

Оценкой наименьших квадратов для параметраявляется, так что, и

Таким образом, выборочная дисперсияпеременной, получаемая делением именно на (а не на ), являетсянесмещенной оценкой для в модели случайной выборки из нормальногораспределения, имеющего дисперсию. Этим и объясняется сделанный нами выборнормировки при определении выборочных дисперсий и ковариаций.

При выполнении стандартных предположенийотношение

имеет стандартное распределение, называемоераспределением хи-квадрат с (n-p) степенямисвободы. Такое же распределение имеет суммаквадратов случайных величин, независимых всовокупности и имеющих одинаковое стандартное нормальноераспределение. Приграфик функции плотности этого распределения имеетвид

Для обозначения распределения хи-квадрат сΚ степенями свободы используют символ χ2(Κ).

Итак, мы не знаем истинногозначения и поэтому впопытке построить доверительный интервал для вынуждены заменитьнеизвестное нам значение на его несмещенную оценку

Соответственно, вместо отношения

приходится использоватьотношение

Однако последнее отношение как случайная величина уже не имеет стандартного нормального распределения, поскольку в знаменателе теперь стоит не постоянная, аслучайная величина.

Тем не менее, распределение последнегоотношения также относят к стандартным, и оно известно под названиемt-распределения Стьюдента с (n-p) степенямисвободы.

Для распределения Стьюдента с Κ степенями свободы принято обозначение t(Κ). Квантиль уровня р такого распределения будем обозначать символом tp (K). График функции плотностираспределения Стьюдента симметричен относительно нуля и похож на график функцииплотности нормального распределения. Например, при Κ=10 онимеет следующий вид (левый график).

Для сравнения, справа приведен графикфункции стандартного нормального распределения. Отличие графиков стольневелико, что визуально они почти неразличимы. Квантили этих двух распределенийразличаются более ощутимо:

Распределение Стьюдента имеет более тяжелые хвосты. Из приведенныхзначений квантилей следует, например, что случайная величина, имеющаястандартное нормальное распределение, может превысить значение 1.645алишь свероятностью 0.05. В то же самое время, с такой же вероятностью 0.05аслучайнаявеличина, имеющая распределение Стьюдента с 10астепенями свободы, принимаетзначения, большие, чем 1.812.

Впрочем, для значений квантилираспределения Стьюдента практически совпадают с соответствующими квантилями cтандартногонормального распределения.

Итак,

~.

Поэтому для этой случайной величинывыполняется соотношение

так что с вероятностью, равной,выполняется двойное неравенство

т. е.

Иными словами, свероятностью, равной 1-α, случайныйинтервал

накрывает истинное значение коэффициентаθ j, т. е. является 95%-доверительным интервалом для θ jв случае, когда не известноистинное значение σ2адисперсии случайныхошибок. В среднем, длинатакого интервала больше, чем длина доверительного интервала с тем же уровнемдоверия, построенного при известном значении.

Замечание.Выбор конкретного значения определяет компромисс между желаниемполучить более короткийдоверительный интервал и желанием обеспечить болеевысокий уровень доверия.

Попытка повысить уровень доверия,выраженная в выборе меньшего значения, приводит к квантили с более высоким значением, т. е. кбольшему значению. Но длина доверительного интервала пропорциональна. Следовательно,увеличение уровня доверия сопровождается увеличениемширины доверительного интервала (при тех же статистическихданных).

Так, для можно приближенно считать,что

,

где — квантильуровня стандартногонормального распределения. Соответственно, выбирая уровень доверия равным, или, мы получаемдлязначения, приблизительно равные. Это означает, что переход от уровнядоверия к уровню доверия сопровождается увеличением длиныдоверительного интервала приблизительно в раза, а дополнительноеповышение уровня доверия до увеличивает длину доверительного интервалаеще примерно в раза.

Теперь мы в состоянии перейти к построениюинтервальных оценок параметров моделей линейной регрессии для различного родасоциально-экономических факторов на основании соответствующих статистическихданных.

Пример.Вернемся к модели зависимости уровня безработицы средибелого населения США от уровня безработицы среди цветного населения. Запишемлинейную модель наблюдений в виде

Получаем: =. Коэффициент оцениваетсявеличиной дисперсия оценивается величиной. Для построения— доверительного интервала для остается найти квантиль уровняраспределения Стьюдента с степенями свободы. Используя, например,ТаблицуаА.2аиз книги Доугерти (стр.368), находим:. Соответственно, получаем-доверительный интервал дляв виде

т. е.

Для имеем, ; -доверительный интервал для имеетвид

т. е.

В связи с этим примером, отметим дваобстоятельства.

(а) Доверительный интервал для коэффициентадопускает как положительные, так и отрицательные значения этого коэффициента.

(б) Каждый из двух построенных интерваловимеет уровень доверия ; однако это неозначает, что с той же вероятностью сразуоба интервала накрываютистинные значения параметров,.

Pages:     | 1 |   ...   | 7 | 8 | 9 | 10 | 11 |   ...   | 20 |    Книги по разным темам