70 Оглавление Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 I Введение в социально-экономическую статистику 15 1. Основные понятия 17 1.1. Краткая историческая справка . . . . . . . . . . . . . . . . . . . . 17 1.2.

Книги по разным темам Pages: | 1 | ... | 68 | 69 | 70 | 71 | 72 | ... | 82 |

При доказательстве этого утверждения считается, что одинаковы первые Nстрок в матрице Z:

x1 1N1 z1 e = a +.

X Z e Система нормальных уравнений для оценки a записывается следующим образом:

x1 1N1 z a 1 z1 Z = 1 z1 Z N1 NX Z или, после умножения векторов и матриц, 1 z1 x1=1 z1 xN1 N 1 z1 x1 + Z X =(1 z1 1N1 z1 + Z Z)a N1 N N1z1 x1 + Z X =(N1z1z1 + Z Z)a.

Сокращенная модель записывается следующим образом:

N1x1 N1z1 N = a +.

X Z e 20.2. Дисперсионный анализ с повторениями Видно, что система нормальных уравнений для оценки параметров этой модели в точности совпадает с системой нормальных уравнений для исходной модели, т.е. оценки параметров в исходной и сокращенной моделях одинаковы.

Остаточная сумма квадратов в исходной модели равна e e1 + e e, (20.13) в сокращенной модели Ч N12 + e e. (20.14) Пусть первые N1 наблюдений в исходной модели имеют нижний индекс 1i, гд е i =1,..., N1. Тогд а e1i = x1i - z1a = + x1i - x1 - z1a = 1 +(x1i - x1) xи e e1 = e2 = 1 1i = (1 - (x1i - x1))2 = N12 +21 (x1i - x1) + (x1i - x1)2.

----------=Сравнение (20.13) и (20.14) с учетом полученного результата завершает доказательство.

В исходной модели (20.1) строки матрицы Z, относящиеся к одной конечной группе, одинаковы, что позволяет в конечном счете перейти к сокращенной модели, IK существенно меньшей размерности. В исходной модели N = NI, ипусть I=IxI, s2 Ч средняя и дисперсия в I-й конечной группе, I s2 = NIs2 Ч внутригрупповая дисперсия, e I N x = NIxI Ч общая средняя, N s2 = NI(xI - x)2 Ч общая межгрупповая дисперсия.

q N Еще в пункте 4.3 было доказано, что s2 = s2 + s2.

e q На основании этого тождества, учитывая, что количество степеней свободы внутригрупповой дисперсии равно N - K - 1, а межгрупповой Ч K, можно проверить статистическую гипотезу о значимости влияния всех факторов сразу на изучаемую переменную. Но в данном случае можно провести более детальный анализ 620 Глава 20. Дисперсионный анализ влияния отдельных факторов и их сочетаний, аналогичный тому, который проводился в случае модели без повторений. В таком анализе используется сокращенная модель, дающая (как это было показано выше) такие же оценки параметров регрессии, что и исходная модель, но представляющая не всю дисперсию, а только межгрупповую:

G NXG = N ZJ J = N ZJbJ, (20.15) b J= где XG Ч вектор средних по конечным группам xI, N Ч диагональная матрица численностей конечных групп NI.

Эта модель отличается от моделей (20.4) и (20.5) только наличием матричного множителя N. Но это отличие принципиальное. Оно влечет потерю всех тех хороших свойств, которыми обладала модель без повторений. В частности, матрица M в общем случае перестает быть блочно-диагональной, эффекты разных сочетаний факторов становятся зависимыми, а дисперсионное тождество теряет простую структуру.

С моделью (20.15) можно работать как с обычной регрессионной моделью, используя известные критерии проверки разных статистических гипотез (понимая при этом, что результаты проверки будут неоднозначны, в силу взаимозависимостей регрессоров). Но следует иметь в виду, что оценки параметров в этой модели смещены (что, впрочем, не влияет на результаты проверки гипотез). В частности, b0 = x.

Для того чтобы исключить смещенность оценок, необходимо правильно строить матрицы C, используемые при устранении линейных зависимостей в матрице Z.

Это связано с тем, что теперь должны равняться нулю не простые, а взвешенные суммы компонент векторов J по каждому элементу нижнего мультииндекса I(J).

В частности, если Nij Ч численность группы, в которой j-й фактор находится j на ij-м уровне, то j j - ( j N2 Nkj ) N Cj = Ikj-(понятно, что когда численности всех конечных групп равны единице, эта матрица приобретает обычную структуру).

Можно показать, что специальный выбор структуры матриц CJ может обеспечить максимальную разреженность матрицы M, т.е. обеспечить равенство нулю блоков M0G(G = 0), MJJ (J J). Работая со структурой матриц CJ, можно обнаружить частный случай, когда модель с повторениями обладает теми 20.3. Упражнения и задачи же свойствами, что и модель без повторений. Этот случай имеет место, если каждый последующий (более младший) фактор делит все полученные ранее группы в одинаковой пропорции. Однако усилия, которые необходимы для доказательства этих фактов, далеко не соответствуют их практической значимости. Так, вряд ли можно ожидать, что ряд групп, имеющих разную численность, можно разбить на подгруппы в одинаковой пропорции Ч хотя бы в силу целочисленности образуемых подгрупп.

В принципе, с моделью межгрупповой дисперсии (20.15) можно работать и без сомножителя N, т.е. в рамках хороших свойств модели без повторений. Для этого достаточно предположить, что исходная модель (20.1) неоднородна по дисперсии ошибок в разных наблюдениях. А именно: считать, что дисперсия ошибки наблюдения обратно пропорциональна численности конечной группы, в которую оно входит (чем больше наблюдений Ч повторений Ч в конечной группе, тем меньше дисперсия ошибки в отдельном наблюдении). Тогда сокращенная модель будет однородной по дисперсии и для ее оценки окажется применим простой МНК.

20.3. Упражнения и задачи Упражнение Провести дисперсионный анализ (без повторений) данных, приведенных в таблице 20.1:

Таблица 20.Имеются 2 фактора по 3 уровня каждый (I, II, III и A, B, C, соответственно). Рассчитать коэффициенты b, а также Z, Z, A B C b, C1, C2, C12, B1, B2, B12, M, m.

I 3 0 II 0 7 Упражнение III 2 8 В Таблице 20.2 приведены данные о зарплатах 52-х преподавателей американского колледжа: SX Ч пол (жен. Ч 1, муж. - 0); ученое звание: RK1 Ч assistant professor, RK2 Ч associate professor, RK3 Ч full professor;

DG Ч ученая степень (доктор Ч 1, магистр Ч 0); SL Ч средний заработок за академический год, долл.

2.1. Провести дисперсионный анализ с помощью обычной регрессии.

2.2. Провести дисперсионный анализ с помощью взвешенной регрессии, когда совокупность наблюдений с одинаковыми значениями независимых факторов заменяется одним групповым наблюдением.

622 Глава 20. Дисперсионный анализ Таблица 20.2. (Источник: S. Weisberg (1985), Applied Linear Regression, 2nd Ed, New York: Wiley, page 194) SX RK1 RK2 RK3 DG SL SX RK1 RK2 RK3 DG SL 0 0 0 1 1 36350 0 0 1 0 1 0 0 0 1 1 35350 1 0 0 1 1 0 0 0 1 1 28200 0 0 1 0 0 1 0 0 1 1 26775 0 0 1 0 0 0 0 0 1 0 33696 1 1 0 0 0 0 0 0 1 1 28516 0 0 1 0 0 1 0 0 1 0 24900 0 1 0 0 0 0 0 0 1 1 31909 1 0 1 0 0 0 0 0 1 0 31850 1 0 1 0 0 0 0 0 1 0 32850 0 0 1 0 1 0 0 0 1 1 27025 1 1 0 0 1 0 0 1 0 1 24750 0 1 0 0 1 0 0 0 1 1 28200 0 1 0 0 1 0 0 1 0 0 23712 0 1 0 0 1 0 0 0 1 1 25748 0 1 0 0 1 0 0 0 1 1 29342 0 1 0 0 0 0 0 0 1 1 31114 0 0 1 0 1 0 0 1 0 0 24742 1 1 0 0 1 0 0 1 0 0 22906 0 1 0 0 1 0 0 0 1 0 24450 0 1 0 0 1 0 1 0 0 0 19175 1 1 0 0 1 0 0 1 0 0 20525 1 1 0 0 1 0 0 0 1 1 27959 0 1 0 0 1 1 0 0 1 1 38045 1 1 0 0 1 0 0 1 0 1 24832 1 1 0 0 1 0 0 0 1 1 25400 1 1 0 0 1 20.3. Упражнения и задачи 2.3. Учесть эффекты второго порядка: добавить в регрессию попарные произведения исходных фиктивных переменных. Значимы ли они Задачи Таблица 20.A B 1. Что является отличительной особенностью модели дисперI 43 сионного анализа по сравнению с лобычными моделями регрессионного анализа II 4 2. С помощью таблицы 20.3 задана классификация по двум III 8 факторам.

Запишите матрицы фиктивных переменных для главных эффектов.

3. Какую структуру имеет матрица ковариаций оценок в дисперсионном анализе без повторений 4. Как называется в дисперсионном анализе то, что в регрессионном анализе называется объясненной и остаточной дисперсией 5. При проведении дисперсионного анализа с повторениями по усредненным наблюдениям используется взвешенная регрессия. С какой целью это делается 6. Если в дисперсионном анализе без повторений отбросить эффекты высшего порядка, то как изменятся значения параметров оставшихся эффектов 7. В модели полного дисперсионного анализа без повторений с одним фактором, имеющим три уровня, запишите матрицу нецентральных вторых моментов для матрицы регрессоров Z.

8. Сколько наблюдений нужно иметь для применения модели дисперсионного анализа без повторений в случае четырех факторов, каждый из которых может принимать три уровня, если учитывать только эффекты первого порядка 9. Сколько наблюдений нужно иметь для применения модели полного дисперсионного анализа без повторений в случае двух факторов, каждый из которых может принимать три уровня 10. Для модели дисперсионного анализа с двумя факторами, первый из которых имеет три уровня, а второй Ч два, рассчитать матрицу C12.

11. Рассмотрим модель дисперсионного анализа с двумя факторами, первый из которых принимает два уровня, а второй Ч три уровня. Рассчитайте матрицы Z1, Z2.

624 Глава 20. Дисперсионный анализ 12. В первой группе 20 человек, а во второй Ч 30 человек. Дисперсия оценок по Эконометрии в первой группе равна 1.5, а во второй Ч 1. Вычислите остаточную дисперсию в модели дисперсионного анализа.

13. В первой группе 20 человек, а во второй Ч 30 человек. Средняя оценка по Эконометрии в первой группе равна 3.5, а во второй Ч 4. Вычислите объясненную дисперсию в модели дисперсионного анализа.

14. В первой группе 20 человек, а во второй Ч 30 человек. Средняя оценка по Философии в первой группе равна 4.5, а во второй Ч 3. Вычислите коэффициенты в модели дисперсионного анализа.

15. В первой группе 20 человек, а во второй Ч 30 человек. Средняя оценка по Эконометрии в первой группе равна 3.5, а во второй Ч 4. Дисперсия оценок в первой группе равна 1.5, а во второй Ч 1. Вычислите общую дисперсию оценок двум группам.

16. Проводится дисперсионный анализ без повторений с двумя факторами, один из которых принимает три уровня, а другой Ч четыре. Как вычисляется статистика для проверки значимости эффектов второго порядка Какое она имеет распределение (сколько степеней свободы) Рекомендуемая литература 1. Болч Б., Хуань К.Дж. Многомерные статистические методы для экономики. Ч М.: Статистика, 1979. (Гл. 5) 2. Себер Дж. Линейный регрессионый анализ. Ч М.: Мир, 1980.

3. Шеффе Г. Дисперсионный анализ. Ч М.: Наука, 1980.

Глава Модели с качественными зависимыми переменными При изучении экономических явлений на дезагрегированном уровне (уровне отдельных экономических субъектов) возникает потребность в новых методах. Дело в том, что стандартные эконометрические методы, такие как классическая модель регрессии, предназначены для анализа переменных, которые могут принимать любое значение на числовой прямой, причем предполагается фактически, что распределение изучаемой переменной похоже на нормальное. Модели, в которых диапазон значений зависимой переменной ограничен, называют моделями с ограниченной зависимой переменной. Среди них важную роль играют модели, в которых изучаемая переменная дискретна и может принимать только некоторые значения (конечное число), либо даже имеет нечисловую природу (так называемые модели с качественной зависимой переменной). Модели такого рода помогают, в частности, моделировать выбор экономических субъектов. В качестве примера можно привести выбор предприятия: внедрять какую-то новую технологию или нет. Если индивидуальный выбор исследовать методами, предназначенными для непрерывных переменных, то будет неправомерно проигнорирована информация о поведенческой структуре ситуации.

21.1. Модель дискретного выбора для двух альтернатив Анализ дискретного выбора основывается на микроэкономической теории, которая моделирует поведение индивидуума как выбор из данного множества аль626 Глава 21. Модели с качественными зависимыми переменными тернатив такой альтернативы, которая бы максимизировала его полезность. Этот выбор с точки зрения стороннего наблюдателя, однако, не полностью предопределен. Исследователь не может наблюдать все факторы, определяющие результат выбора конкретного индивидуума. Коль скоро ненаблюдаемые факторы случайны, то выбор двух индивидуумов может быть разным при том, что наблюдаемые факторы совпадают. С его точки зрения это выглядит как случайный разброс среди индивидуумов с одними и теми же наблюдаемыми характеристиками.

Предполагается, что выбор осуществляется на основе ненаблюдаемой полезности альтернатив u(x). Если u(1) >u(0), то индивидуум выбирает x =1, если u(1) < u(0), то индивидуум выбирает x = 0. В простейшем случае полезность является линейной функцией факторов: u(1) = z1 и u(0) = z0. Чтобы модель была вероятностной, ее дополняют отклоняющими факторами, так что u(1) = z1 + 1, u(0) = z0 + 0.

Предполагается, что распределение отклонений 1 и 0 непрерывно.

Заметим, что для описания выбора вполне достаточно знать разность между полезностями вместо самих полезностей:

x = u(1) - u(0) = z(1 - 0) +1 - 0 = z +, при этом оказывается, что в основе выбора лежит переменная x, которая пред ставляет собой сумму линейной комбинации набора факторов z и случайного отклонения, имеющего некоторое непрерывное распределение:

x = z +.

Эта переменная является ненаблюдаемой. Наблюдается только дискретная величина x, которая связана с x следующим образом: если x больше нуля, то x =1, если меньше, то x =0.

Ясно, что по наблюдениям за x и z мы могли бы оценить коэффициенты только с точностью до множителя. Умножение ненаблюдаемых величин x, и на один и тот же коэффициент не окажет влияния на наблюдаемые величины x и z. Таким образом, можно произвольным образом нормировать модель, например, положить дисперсию ошибки равной единице.

Кроме того, в этой модели есть дополнительный источник неоднозначности:

одним и тем же коэффициентам могут соответствовать разные пары 0 и 1.

Таким образом, можно сделать вывод, что исходная модель выбора принципиально неидентифицируема. Однако это не мешает ее использованию для предсказания результата выбора, что мы продемонстрируем в дальнейшем.

21.1 Оценивание модели с биномиальной зависимой переменной Без доказательства отметим, что если в модели выбора 1 и 0 имеют распре-y деление F (y) =e-e (распределение экстремального значения) и независимы, то = 1 - 0 имеет логистическое распределение. При этом получается модель, называемая логит.

Если 1 и 0 имеют нормальное распределение с параметрами 0 и инезависимы, то = 1 - 0 имеет стандартное нормальное распределение. При этом получается модель, называемая пробит.

Модели логит и пробит рассматривались в главе 9.

21.2. Оценивание модели с биномиальной зависимой переменной методом максимального правдоподобия Предыдущие рассуждения приводят к следующей модели:

x = z +, 0, x<0, x = 1, x>0.

Пусть F() Ч функция распределения отклонения. Выведем из распределения распределение x, а из распределения x Ч распределение x:

Pr(x =1) =Pr(x>0) = Pr(z + >0) = Pr( >-z) =1 - F(-z).

Pages: | 1 | ... | 68 | 69 | 70 | 71 | 72 | ... | 82 |

Книги по разным темам