Применение метода наименьших квадратов вэтой ситуации сводится к минимизации суммы квадратов невязок
по всем возможным значениям. Последняя сумма квадратов являетсяфункцией единственнойпеременной (приизвестных значениях ), и точка минимума этой функции легко находится. Для этогомы приравниваем нулю производную по :
(нормальное уравнение)
откуда получаем:
или
Отсюда видно, что при такомподборе
и точка уже не лежит, как правило, на подобраннойпрямой
Более того, в такой ситуации
где
и поэтому использовать для вычислениякоэффициента детерминации выражение
не имеет смысла. В этой связи полезнорассмотреть следующий искусственный пример.
Пример
Пусть переменные и принимают в четырех наблюденияхзначения, приведенные в следующей таблице
i | 1 | 2 | 3 | 4 |
xi | 10 | 3 | –10 | -3 |
yi | 11 | 3 | -9 | -3 |
соответствующей диаграммерассеяния
и мы предполагаем пропорциональную связь между этимипеременными, что соответствует модели наблюдений Для этихданных
так что При этом,
RSS = (11—10)2 +(3-3)2+ (-9+10)2+ (-3+3)2 = 2,
TSS = (11-0.5)2+(3-0.5)2+(-9-0.5)2+(-3-0.5)2 =219,
ESS = (10-0.5)2+(3-0.5)2+(-10-0.5)2+(-3-0.5)2 =219,
так что здесь, и вычисление поформуле
приводит к значению. Но последнее возможнотолько если все точки лежат на одной прямой, а у нас это не так. Заметимтакже, что в этом примере сумма остатков, что невозможно в модели с включениемв правую часть постоянной составляющей.
Можно, конечно, попытаться справиться свозникающим при оценивании модели без постоянной составляющей затруднением,попросту игнорируянарушение соотношения и определяя коэффициент детерминации соотношением
,
и именно такое значение приводится впротоколах некоторых пакетов программ анализа статистических данных, напримерпакета ECONOMETRIC VIEWS (TSP). Для нашего иллюстративного примера с четырьмянаблюдениями использование последнего приводит к значению, которое непротиворечит интуиции и представляется разумным. Однако, к сожалению, и такойподход к определению коэффициента детерминации не решает проблемы, поскольку, впринципе, при оценивании модели без постоянной составляющей возможны ситуации,когда, что приводит к отрицательным значениям.
Пример
Пусть переменные и принимают в четырех наблюденияхзначения, приведенные в следующей таблице
i | 1 | 2 | 3 | 4 |
xi | 0 | 0.2 | 0.4 | 3 |
yi | 0.5 | 0.8 | 1.2 | 2 |
что соответствует диаграммерассеяния
и мы предполагаем пропорциональную связьмежду этими переменными, что соответствует модели наблюдений Для этихданных. При этом,,, и вычисление по формуле приводит котрицательному значению
Преодолеть возникающие затруднения можно,если определить в модели наблюдений без постоянной составляющейформулой
,
в которой используется сумма квадратовнецентрированных значенийпеременной (отклонений значений переменной от нулевогоуровня). При такомопределении, неотрицательность коэффициентагарантируется наличиемсоотношения
которое отражает геометрическую сущность методанаименьших квадратов (аналог знаменитой теоремы Пифагора для многомерногопростанства) и выполняется как для модели безпостоянной составляющей, так и для модели с наличием постоянной составляющей вправой части модели наблюдений. Деля обе частипоследнего равенства на приходим к соотношению
из которого непосредственно следует,что
(Доказать заявленное равенство не сложно.Действительно,
Но
(см. нормальное уравнение), что и приводит кискомому результату.)
В последнем примере использованиеопределения с не центрированными дает.
1.7. ПРИМЕРЫ ПОДБОРА ЛИНЕЙНЫХ МОДЕЛЕЙСВЯЗИ МЕЖДУ ДВУМЯ ФАКТОРАМИ. ФИКТИВНАЯ ЛИНЕЙНАЯ СВЯЗЬ
В этом разделе мы рассмотрим примеры подборалинейных моделей связи для конкретных данных.
Пример 1
В следующей таблице приведены данные обизменении потребительского спроса на куриные яйца семи семейных хозяйств взависимости от цены на этот продукт в течение 15анедель:
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Спрос | 12 | 10 | 13 | 11.5 | 12 | 13 | 12 | 12 | 12 | 13 |
Цена | 0.54 | 0.51 | 0.49 | 0.49 | 0.48 | 0.48 | 0.48 | 0.47 | 0.44 | 0.44 |
i | 11 | 12 | 13 | 14 | 15 |
Спрос | 13.5 | 14 | 13.5 | 14.5 | 13 |
Цена | 0.43 | 0.42 | 0.41 | 0.40 | 0.39 |
(спрос измерялся в дюжинах, цена— в долларах).Диаграмма рассеяния для этих данных имеет следующий вид:
Предполагая, что модель наблюдений имеетвид где —спрос в i-ю неделю, а— цена в i-ю неделю, мы получаем следующие оценкидля неизвестных параметров и модели линейной связи между ценой испросом: Таким образом, подобранная модель линейной связи имеет видПри этом,
так что коэффициент детерминации оказываетсяравным т. е. изменчивость цен объясняет 51.4% изменчивости спроса накуриные яйца. На диаграмме рассеяния изображена прямая линия, соответствующаяподобранной модели линейной связи.
Пример 2
В следующей таблице приведены данные огодовом потреблении свинины на душу населения в США (в фунтах) и оптовых ценах насвинину (в долларахза фунт) за период с 1948апо 1961агод:
Год | Потр. | Цена | Год | Потр. | Цена | |
1948 | 67.8 | 0.5370 | 1955 | 66.6 | 0.4256 | |
1949 | 67.7 | 0.4726 | 1956 | 67.4 | 0.4111 | |
1950 | 69.2 | 0.4556 | 1957 | 61.5 | 0.4523 | |
1951 | 71.9 | 0.4655 | 1958 | 60.2 | 0.4996 | |
1952 | 72.4 | 0.4735 | 1959 | 67.6 | 0.4183 | |
1953 | 63.5 | 0.5047 | 1960 | 65.2 | 0.4433 | |
1954 | 60.0 | 0.5165 | 1961 | 62.2 | 0.4448 |
Для этих данных диаграмма рассеяния имеетвид
Предполагая, что модель наблюдений имеетвид где —потребление свинины в i-йгод рассматриваемого периода, а — оптовая цена на свинину в этомгоду, мы получаем следующие оценки для неизвестных параметров и моделилинейной связи между оптовой ценой и потреблением: Таким образом,подобранная модель линейной связи имеет вид При этом,
,,
так что коэффициент детерминации здесьоказывается равным. Изменчивость оптовой цены объясняет здесь лишь 5.5%изменчивости потребления свинины.
Пример 3
Рассмотрим данные о размерах совокупногорасполагаемого дохода и совокупных расходах на личное потребление в США впериод с 1970апо 1979агод. Обе величины выражены в текущих долларахСША.
Год | Расп. доход | Потребление |
1970 | 695.2 | 621.7 |
1971 | 751.9 | 672.4 |
1972 | 810.3 | 737.1 |
1973 | 914.0 | 811.7 |
1974 | 998.1 | 887.9 |
1975 | 1096.2 | 976.6 |
1976 | 1194.3 | 1084.0 |
1977 | 1313.5 | 1204.0 |
1978 | 1474.3 | 1346.7 |
1979 | 1650.5 | 1506.4 |
Этим данным соответствует диаграммарассеяния
Предполагая, что модель наблюдений имеетвид где —совокупные расходы на личное потребление в i-й год рассматриваемого периода,а — совокупныйрасполагаемый доход в этом году, мы получаем следующие оценки для неизвестныхпараметров и модели линейной связи между совокупным располагаемым доходоми совокупными расходами на личное потребление: Таким образом, подобраннаямодель линейной связи имеет вид При этом,
,,
так что коэффициент детерминации здесьоказывается равным. Изменчивость совокупного располагаемого дохода объясняетздесь более 99.95% изменчивости совокупных расходов на личноепотребление.
Впрочем, не следует слишком оптимистически интерпретироватьблизкие к единице значения коэффициента детерминации как указание на то,что изменения значений объясняемой переменной практически полностьюопределяются именно изменениями значений объясняющей переменной. В этой связи,рассмотрим следующий поучительный пример.
Пример 4
Pages: | 1 | ... | 2 | 3 | 4 | 5 | 6 | ... | 20 | Книги по разным темам