Последняя система является системой двух линейных уравнений с двумя неизвестными и может быть легко решена, например,методом подстановки.
Из первого уравнения системынаходим:
так что точка действительно лежит на прямой. Подстановка полученного выражения для во второе уравнение системыдает
откуда
Заметим еще, что
Последние соотношения позволяют получитьболее употребительную форму записи выражения для (вотклонениях от средних значений)
которая в паре с выражением
дает явное и простое решение задачиотыскания оценок, на основе принципа наименьших квадратов.
Разумеется, такое решение может существоватьтолько при выполнении условия
что равносильно отличию от нуля определителя системы.Действительно, этот определитель равен
Последнее условие называется условием идентифицируемостимодели наблюдений,и означает попросту, что невсе значения совпадают между собой. При нарушении этого условия все точки, лежат на одной вертикальной прямой
Оценки и обычноназывают оценками наименьших квадратов (least squares estimates), или LS — оценками. Обратим еще развнимание на полученное выражение для. Нетрудновидеть, что в это выражение входят уже знакомые нам суммы квадратов,участвовавшие ранее в определении выборочной дисперсии и выборочной ковариации так что, в этих терминах,
Отсюда, в частности, видно, что значения близки кнулю, если ковариация между наблюдаемыми значениями переменных и близка кнулю. (Однако, близость кнулю здесь следует понимать как относительную, с учетом реальных значений выборочной дисперсии.) Кроме того, знак совпадает сознаком ковариации, поскольку.
Вычисление значений и для нашего примера даетзначения
Таким образом, наилучшая прямая имеетвид
и мы принимаем ее в качестве аппроксимациидля листинной модели линейной связи между переменными и. Этааппроксимация указывает на то, что при изменении переменной на единицу (измерения ) переменная изменяется в среднем на единиц(измерения ).
Факт горизонтальности прямой при и наличие уэтой прямой наклона при,позволяют произвести некоторую детализацию структуры остатков С этой целью, опять рассмотримдиаграмму рассеяния, сосредоточившись на какой-нибудь одной точке. Пусть внашем примере это точка A =(7.1, 3.3). Опустим из этой точки перпендикуляр на ось абсцисс. Он пересечетпрямую в точке B = (7.1, 3.118) и прямую в точкеC = (7.1, 3.183), так чторасстояние по вертикали от точки A до прямой, равное AB = 3.3 —3.118= 0.182, раскладывается в сумму
Отсюда находим, что расстояние по вертикалиот точки A до прямойравно AC = AB — CB = 0.182 —(3.183 — 3.118) =0.117.
Вообще, для любой точки на диаграммерассеяния можно записать:
где - ордината точки наилучшей прямой,имеющей абсциссу. Возведемобе части последнего представления в квадрат и просуммируем левые и правыечасти полученных для каждого i равенств:
Входящая в правую часть сумма
называется чаще всего остаточной суммой квадратов (residual sum of squares) и имеет аббревиатуру RSS (Доугерти,Айвазян-Мхитарян, Себер), хотя в литературе по эконометрике можно встретить итакие варианты аббревиатур как SSR (Green), а также ESS (error sum of squares — Harvey, Chatterjie) и SSE (Магнус-Катышев-Пересецкий).Поэтому, при чтении различных руководств поэконометрике следует обратить особое внимание на то, какие именно термины иобозначения используются авторами.
Заметим, что если, то и.Следовательно, при
При, по самому определению прямой,имеем
Тенденция линейной связи междуи выражена вмаксимальной степени, если. При этом, все точки, i= 1, 2,..., n, располагаются на однойпрямой. Тенденция линейнойсвязи между переменными и не обнаруживается вовсе, еслисовпадает с Таким образом, есть определенныеоснования предложить в качестве меры выраженностив данных наблюдений линейной связи между переменными величину
называемую коэффициентом детерминации.Этот коэффициент изменяется в пределах от (при,т. е. ) до (при ),
Вернемся, однако, к полученному ранеепредставлению в виде
и рассмотрим третью сумму в правой частиэтого представления. Имеем:
Но
(см. первое уравнение из системы нормальныхуравнений). К тому же,
(см. второе уравнение из системы нормальныхуравнений). Таким образом,
и, следовательно, справедливопредставление
так что
т. е. получено второе представлениедля в виде
Стоящую здесь в числителе сумму квадратов мыбудем называть суммой квадратов, объясненной моделью(explained sum ofsquares), и будемиспользовать для ее обозначения аббревиатуру ESS, так что
Сумму квадратов, стоящую в знаменателе,будем называть полной суммой квадратов (total sum of squares) и будем использовать для ее обозначенияаббревиатуру TSS, такчто
Напомним также, что нами уже была определенаостаточная сумма квадратов
Все эти три суммы квадратов связанысоотношением
которое представляет собой разложение полной суммы квадратовна сумму квадратов, объясненную моделью, и остаточнуюсумму квадратов. Используя эти три суммы, мы находим также, что
Таким образом, значение R2атем выше,чем больше доля объясненной моделью суммы квадратов ESS по отношению к полной суммеквадратов TSS.
Термины полнаяи лобъясненная моделью суммы квадратов имеютследующее происхождение. Полная сумма квадратов соответствует значениюRSS в ситуации, когдаи наилучшая прямая имеет вид, отрицающий наличие линейной зависимостиот. Вследствие этого,привлечение информации о значениях переменнойне дает ничего нового для объяснения измененийзначений от наблюдения к наблюдению. Степень этой изменчивости мы ужехарактеризовали значением выборочной дисперсии
при этом,и.
В ситуации, когда, мы имеем нетривиальноепредставление с, и поэтому можно записать:
Но
где — переменная, принимающая вi - м наблюдении значение.(Здесь мы использовали тот факт, что так что и.) К томуже,
где— переменная, принимающая в i -м наблюдении значение. (Здесь мы использовали тотфакт, что.)
В итоге, мы получаем разложение
показывающее, что изменчивостьпеременной (степенькоторой характеризуется значением ) частично объясняется изменчивостьюпеременной (степень которой характеризуется значением ). Не объясненнаяпеременной часть изменчивости переменной соответствует изменчивостипеременной (степень которой характеризуется значением ).
Таким образом, вспомогательнаяпеременная берет на себя объяснение некоторой части изменчивости значенийпеременной, и эта объясненная часть будет тем больше, чем выше значениекоэффициента детерминации, который мы теперь можем записать также ввиде
Поскольку переменная получаетсялинейным преобразованием переменной, то изменчивость однозначно связанас изменчивостью, так что, в конечном счете, построенная модель объясняет частьизменчивости переменной изменчивостью переменной. Поэтому, принять говорить в такомконтексте о переменной как об объясняемой переменной, а о переменной— как об объясняющей переменной.
Вернемся опять к нашему примеру. В этомпримере
ESS = 0.043474
RSS = 0.161231
TSS =0.204705,
так что
= 0.043474/16 = 0.002717,
= 0.161231/16 =0.010077,
= 0.012784,
= 0.043474/0.204705 = 0.212374.
Значение коэффициента детерминации оказалосьдостаточно малым, и один из последующих вопросов будет состоять в том, скольблизким к нулю должно быть значение R2, чтобы мы могли говорить опрактическом отсутствиилинейной связи между переменными.
1.4. СВОЙСТВА ВЫБОРОЧНОЙ КОВАРИАЦИИ,ВЫБОРОЧНОЙ ДИСПЕРСИИ И ВЫБОРОЧНОГО КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
Вернемся теперь к определению выборочнойковариации и отметим некоторые ее свойства.
Пусть— некоторая постоянная, а — переменные, принимающие в - м наблюдении значения, (n — количество наблюдений). Тогдаможно рассматривать как переменную, значения которой в- м наблюдении равно, и
так что
Далее, очевидно, что
и что
Кроме того,
так что
Наконец,
так что
На основе этих свойств, в частности,находим, что
(постоянная не обладаетизменчивостью),
(при изменений единицы измерения переменнойв раз, во столько же раз изменяется и величина стандартного отклоненияэтой переменной),
(сдвиг начала отсчета не влияет наизменчивость переменной).
Наконец,
т. е.
(дисперсия суммы двух переменных отличаетсяот суммы дисперсий этих переменных на величину, равную удвоенному значениюковариации между этими переменными).
Что касается выборочного коэффициентакорреляции, то еслиизменяются начало отсчета и единицаизмерения, скажем, переменной, так что вместозначений мы получаем значения
переменной, тотогда
Иными словами, выборочный коэффициенткорреляции,инвариантен относительновыбора единиц измерения и начала отсчета переменных и.
В то же время, этого нельзя сказать обоценке коэффициентав модели наблюдений. Действительно, если,скажем, мы переходим к новой единице измерения переменной, так что вместозначений наблюдаются значения переменной, то тогда оценкакоэффициента в моделинаблюдений равна
Таким образом, изменяя единицу измеренияпеременной (илипеременной ), мы можем получать существенно различные значения, от скольугодно малых до сколь угодно больших. (Желательно выбирать единицы измерениятаким образом, чтобы сравниваемые переменные имели одинаковый порядок.)Близость значений к нулю всегда должна интерпретироваться с оглядкой наиспользуемые единицы измерения переменныхи.
Отметим, в этой связи, полезноепредставление в виде
Действительно,
откуда и вытекает указанное представление.Из этого представления получаем, в частности, что при Var (x) = Var(y) имеет место равенство, и тогда выраженность линейной связи между и непосредственно отражается в близостизначения к или.
Рассмотрим теперь коэффициенткорреляции между переменнымии, где, а и — оценки наименьших квадратовпараметров и гипотетической линейной связи между переменными и. Замечая,что (т.к.а поопределению), находим:
Но ранее мы уже получили (при выводеразложения для ) соотношение
которое, с учетом соотношения, приводит кравенству
евая часть которого есть не что иноекак
Следовательно,
так что
Последнее соотношение показывает, чтокоэффициент детерминации равен квадрату коэффициента корреляции междупеременными и, такчто при достаточно сильно выраженной линейной связи между переменными и,что соответствует значению, близкому к, оказывается близким к икоэффициент корреляции между переменнымии.
По причинам, которые будут ясны издальнейшего рассмотрения, называют множественным коэффициентом корреляции(multiple-R, множественный-R).
Отметим также, что переменнаяизмеряется в тех же единицах, что и переменная, и при изменении масштаба измеренияпеременной значение не изменяется. Отсюда вытекает, что коэффициентдетерминации R2аинвариантен относительно изменения масштаба и начала отсчета переменных и.
Заметим, наконец, что
(здесь sign(z)=-1 для z<0, sign(z)=0 дляz=0, sign(z)=1 для z>0)
Поскольку же
то и
так что
и мы можем установить значение R2аещедо построения модели линейной связи.
Замечание
Если, то и ; если, то и, так чтовсегда
1.5. ОБРАТНАЯ МОДЕЛЬ ПРЯМОЛИНЕЙНОЙСВЯЗИ
Пусть наша задача состоит в оцениваниимодели прямолинейной связи между некоторыми переменнымии наоснове наблюденийn пар значений этихпеременных. Мы уже рассмотрели вопрос об оценивании параметров такой связи,исходя из модели наблюдений. Что изменится, если мы будем исходить излобратной модели
Пусть — оценкипараметров и вмодели наблюдений, а — оценки параметров в модели наблюдений.Тогда
т. е.
или
В то же время, по первой модели наблюдениймы получаем наилучшую прямую
а по второй — прямую
Первую прямую мы можем записать ввиде
Сравнивая коэффициенты при в двухпоследних уравнениях, находим, что эти коэффициенты равны в том и только в том случае, когдавыполнено соотношение
т. е.
или, с учетом предыдущего, когда.
Что касается отрезков на осях, то они будутсовпадать тогда и только тогда, когда
или
Но
так что
При получаем
В то же время,
так что при совпадают и отрезки наосях, т. е. наилучшая прямая одна и таже при обеих моделях наблюдений, и это есть прямая, накоторой расположены всенаблюдаемые точки
Иными словами, наилучшие прямые, построенныепо двум альтернативным моделям, совпадают в том и только в том случае, когдавсе точки, расположены наодной прямой (так что ); при этом,. В противном случае,и подобранныелнаилучшие прямые имеют разные угловыекоэффициенты.
Кстати, в рассмотренном нами примере суровнями безработицы, диаграмма рассеяния с переставленными осями (соответствующимимодели наблюдений ) имеет вид
Рис. 5
Количество точек с совпадающими знакамиотклонений координат от средних значений равно 10 (4+ 6, с учетом совпадений),а число точек с противоположными знаками отклонений координат от среднихзначений равно 7 (4+3, с учетом совпадений). Соответственно, лоблако точекимеет некоторую вытянутость вдоль наклонной прямой, проведенной через лцентроблака. Наилучшая прямая имеет вид
коэффициент детерминации равен
Произведение угловых коэффициентов0.125265аи 1.695402анаилучших прямых в прямой и лобратной моделях наблюденийравно 0.212374аи совпадает со значением R2.
Отметим, что несовпадение наилучших прямых,конечно, связано с тем, что в этих двух альтернативных моделях наблюдений мыминимизировали различные суммы квадратов: в прямой модели мы минимизировали сумму квадратов отклоненийточек от подбираемой прямой в направлении, параллельном оси, а во втором— в направлении,параллельном оси.
1.6. ПРОПОРЦИОНАЛЬНАЯ СВЯЗЬ МЕЖДУПЕРЕМЕННЫМИ
Хотя на практике не рекомендуетсяотказываться от включения свободного члена в уравнение подбираемойпрямолинейной связи, если только его отсутствие не обосновывается надежнойтеорией (как в физике — закон Ома), мы все же иногда сталкиваемся с необходимостью подборапрямой, проходящей через начало координат. Позднее мы приведем соответствующиепримеры.
Итак, пусть мы имеем наблюдения, ипредполагаем, что гипотетическая линейная связь междупеременными иимеет вид
(пропорциональнаясвязь между переменными),так что ей соответствует модель наблюдений
.
Pages: | 1 | 2 | 3 | 4 | 5 | ... | 20 | Книги по разным темам