Книги по разным темам Pages:     | 1 |   ...   | 2 | 3 | 4 | 5 | 6 |   ...   | 20 |

Применение метода наименьших квадратов вэтой ситуации сводится к минимизации суммы квадратов невязок

по всем возможным значениям. Последняя сумма квадратов являетсяфункцией единственнойпеременной (приизвестных значениях ), и точка минимума этой функции легко находится. Для этогомы приравниваем нулю производную по :

(нормальное уравнение)

откуда получаем:

или

Отсюда видно, что при такомподборе

и точка уже не лежит, как правило, на подобраннойпрямой

Более того, в такой ситуации

где

и поэтому использовать для вычислениякоэффициента детерминации выражение

не имеет смысла. В этой связи полезнорассмотреть следующий искусственный пример.

Пример

Пусть переменные и принимают в четырех наблюденияхзначения, приведенные в следующей таблице

i

1

2

3

4

xi

10

3

–10

-3

yi

11

3

-9

-3

соответствующей диаграммерассеяния

и мы предполагаем пропорциональную связь между этимипеременными, что соответствует модели наблюдений Для этихданных

так что При этом,

RSS = (11—10)2 +(3-3)2+ (-9+10)2+ (-3+3)2 = 2,

TSS = (11-0.5)2+(3-0.5)2+(-9-0.5)2+(-3-0.5)2 =219,

ESS = (10-0.5)2+(3-0.5)2+(-10-0.5)2+(-3-0.5)2 =219,

так что здесь, и вычисление поформуле

приводит к значению. Но последнее возможнотолько если все точки лежат на одной прямой, а у нас это не так. Заметимтакже, что в этом примере сумма остатков, что невозможно в модели с включениемв правую часть постоянной составляющей.

Можно, конечно, попытаться справиться свозникающим при оценивании модели без постоянной составляющей затруднением,попросту игнорируянарушение соотношения и определяя коэффициент детерминации соотношением

,

и именно такое значение приводится впротоколах некоторых пакетов программ анализа статистических данных, напримерпакета ECONOMETRIC VIEWS (TSP). Для нашего иллюстративного примера с четырьмянаблюдениями использование последнего приводит к значению, которое непротиворечит интуиции и представляется разумным. Однако, к сожалению, и такойподход к определению коэффициента детерминации не решает проблемы, поскольку, впринципе, при оценивании модели без постоянной составляющей возможны ситуации,когда, что приводит к отрицательным значениям.

Пример

Пусть переменные и принимают в четырех наблюденияхзначения, приведенные в следующей таблице

i

1

2

3

4

xi

0

0.2

0.4

3

yi

0.5

0.8

1.2

2

что соответствует диаграммерассеяния

и мы предполагаем пропорциональную связьмежду этими переменными, что соответствует модели наблюдений Для этихданных. При этом,,, и вычисление по формуле приводит котрицательному значению

Преодолеть возникающие затруднения можно,если определить в модели наблюдений без постоянной составляющейформулой

,

в которой используется сумма квадратовнецентрированных значенийпеременной (отклонений значений переменной от нулевогоуровня). При такомопределении, неотрицательность коэффициентагарантируется наличиемсоотношения

которое отражает геометрическую сущность методанаименьших квадратов (аналог знаменитой теоремы Пифагора для многомерногопростанства) и выполняется как для модели безпостоянной составляющей, так и для модели с наличием постоянной составляющей вправой части модели наблюдений. Деля обе частипоследнего равенства на приходим к соотношению

из которого непосредственно следует,что

(Доказать заявленное равенство не сложно.Действительно,

Но

(см. нормальное уравнение), что и приводит кискомому результату.)

В последнем примере использованиеопределения с не центрированными дает.

1.7. ПРИМЕРЫ ПОДБОРА ЛИНЕЙНЫХ МОДЕЛЕЙСВЯЗИ МЕЖДУ ДВУМЯ ФАКТОРАМИ. ФИКТИВНАЯ ЛИНЕЙНАЯ СВЯЗЬ

В этом разделе мы рассмотрим примеры подборалинейных моделей связи для конкретных данных.

Пример 1

В следующей таблице приведены данные обизменении потребительского спроса на куриные яйца семи семейных хозяйств взависимости от цены на этот продукт в течение 15анедель:

i

1

2

3

4

5

6

7

8

9

10

Спрос

12

10

13

11.5

12

13

12

12

12

13

Цена

0.54

0.51

0.49

0.49

0.48

0.48

0.48

0.47

0.44

0.44

i

11

12

13

14

15

Спрос

13.5

14

13.5

14.5

13

Цена

0.43

0.42

0.41

0.40

0.39

(спрос измерялся в дюжинах, цена— в долларах).Диаграмма рассеяния для этих данных имеет следующий вид:

Предполагая, что модель наблюдений имеетвид где —спрос в i-ю неделю, а— цена в i-ю неделю, мы получаем следующие оценкидля неизвестных параметров и модели линейной связи между ценой испросом: Таким образом, подобранная модель линейной связи имеет видПри этом,

так что коэффициент детерминации оказываетсяравным т. е. изменчивость цен объясняет 51.4% изменчивости спроса накуриные яйца. На диаграмме рассеяния изображена прямая линия, соответствующаяподобранной модели линейной связи.

Пример 2

В следующей таблице приведены данные огодовом потреблении свинины на душу населения в США (в фунтах) и оптовых ценах насвинину (в долларахза фунт) за период с 1948апо 1961агод:

Год

Потр.

Цена

Год

Потр.

Цена

1948

67.8

0.5370

1955

66.6

0.4256

1949

67.7

0.4726

1956

67.4

0.4111

1950

69.2

0.4556

1957

61.5

0.4523

1951

71.9

0.4655

1958

60.2

0.4996

1952

72.4

0.4735

1959

67.6

0.4183

1953

63.5

0.5047

1960

65.2

0.4433

1954

60.0

0.5165

1961

62.2

0.4448

Для этих данных диаграмма рассеяния имеетвид

Предполагая, что модель наблюдений имеетвид где —потребление свинины в i-йгод рассматриваемого периода, а — оптовая цена на свинину в этомгоду, мы получаем следующие оценки для неизвестных параметров и моделилинейной связи между оптовой ценой и потреблением: Таким образом,подобранная модель линейной связи имеет вид При этом,

,,

так что коэффициент детерминации здесьоказывается равным. Изменчивость оптовой цены объясняет здесь лишь 5.5%изменчивости потребления свинины.

Пример 3

Рассмотрим данные о размерах совокупногорасполагаемого дохода и совокупных расходах на личное потребление в США впериод с 1970апо 1979агод. Обе величины выражены в текущих долларахСША.

Год

Расп. доход

Потребление

1970

695.2

621.7

1971

751.9

672.4

1972

810.3

737.1

1973

914.0

811.7

1974

998.1

887.9

1975

1096.2

976.6

1976

1194.3

1084.0

1977

1313.5

1204.0

1978

1474.3

1346.7

1979

1650.5

1506.4

Этим данным соответствует диаграммарассеяния

Предполагая, что модель наблюдений имеетвид где —совокупные расходы на личное потребление в i-й год рассматриваемого периода,а — совокупныйрасполагаемый доход в этом году, мы получаем следующие оценки для неизвестныхпараметров и модели линейной связи между совокупным располагаемым доходоми совокупными расходами на личное потребление: Таким образом, подобраннаямодель линейной связи имеет вид При этом,

,,

так что коэффициент детерминации здесьоказывается равным. Изменчивость совокупного располагаемого дохода объясняетздесь более 99.95% изменчивости совокупных расходов на личноепотребление.

Впрочем, не следует слишком оптимистически интерпретироватьблизкие к единице значения коэффициента детерминации как указание на то,что изменения значений объясняемой переменной практически полностьюопределяются именно изменениями значений объясняющей переменной. В этой связи,рассмотрим следующий поучительный пример.

Пример 4

Pages:     | 1 |   ...   | 2 | 3 | 4 | 5 | 6 |   ...   | 20 |    Книги по разным темам