69 Оглавление Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 I Введение в социально-экономическую статистику 15 1. Основные понятия 17 1.1. Краткая историческая справка . . . . . . . . . . . . . . . . . . . . 17 1.2.

Книги по разным темам Pages: | 1 | ... | 67 | 68 | 69 | 70 | 71 | ... | 82 |

1.2. Разделите выборку на две части. Одна часть Ч 20 первых наблюдений, другая часть Ч 20 остальных наблюдений. Считать, что дисперсия ошибки в первой части равна 1, а во второй части Ч 4.

а) Оцените обычную регрессию, воспользовавшись первой частью выборки. Найдите матрицу ковариаций полученных оценок.

б) Используя информацию, полученную на шаге (а), как априорную информацию о математическом ожидании и ковариационной матрице коэффициентов, оцените байесовскую регрессию для второй части выборки.

608 Глава 19. Байесовская регрессия Таблица 19.№ X Z № X Z № X Z № X Z 1 6.7 2.2 11 2.4 1.2 21 4.8 1.8 31 Ц1.4 1.2 5.5 1.8 12 5.8 0.8 22 3.3 0.8 32 Ц0.9 3 4.8 1.5 13 5.7 2.5 23 5.2 2.5 33 4.2 0.4 3 0.3 14 Ц0.9 1.7 24 5.4 2.1 34 Ц1.4 5 4.9 1.9 15 9.3 2.7 25 4.5 2.8 35 Ц2.6 1.6 2.8 0.7 16 3 2.2 26 3.8 1 36 3.1 0.7 2.7 0.8 17 Ц2.9 2.8 27 3.9 1.4 37 2.5 1.8 7 2.1 18 Ц1.5 1.8 28 6.4 2.4 38 Ц0.8 2.9 5.8 1.4 19 1.8 0.7 29 2.7 0.8 39 1.7 0.10 6.3 2.3 20 8.3 2.9 30 4.2 0.1 40 Ц0.1 1.в) Оцените регрессию, используя все наблюдения. Регрессия должна быть взвешенной, т.е. наблюдения каждой из частей нужно разделить на корень из соответствующей дисперсии. Найдите ковариационную матрицу оценок. Сравните с результатом, полученным на шаге (б). Совпадают ли коэффициенты и ковариационные матрицы Задачи 1. Чем отличается байесовская регрессия от обычной регрессии с точки зрения информации о коэффициентах Приведите формулы для оценки параметров по этим двум регрессиям.

2. Налоговая инспекция считает, что предприятия в среднем недоплачивают налог на прибыль в 80% случаев. Вероятность того, что в ходе проверки некоторого предприятия будет выявлено такое нарушение, равна 40%д ля предприятия, которое недоплачивает налог, и 10% для предприятия, которое полностью выплачивает налог (ошибочно). Вычислите апостериорную вероятность того, что данное предприятие недоплачивает налог на прибыль, если в ходе проверки не было выявлено нарушений.

3. Студент может либо знать, либо не знать предмет и либо сдать, либо не сдать экзамен по этому предмету. Вероятность того, что студент знает предмет 19.3. Упражнения и задачи равна 0.3. Если студент знает предмет, то вероятность того, что он сдаст экзамен, равна 0.9, а если не знает, то 0.6. Какова вероятность, что студент не знает предмет, если он сдал экзамен 4. Предположим, что исследователь исходит из априорной информации, что коэффициенты регрессии распределены нормально с некоторым математическим ожиданием и ковариационной матрицей, а дисперсия ошибки равна некоторой известной величине. Исследователь получил какие-то данные и вычислил по ним апостериорное распределение. Затем он получил дополнительные данные и использовал прежнее апостериорное распределение как априорное. Можно ли утверждать, что новое апостериорное распределение будет нормальным Ответ обоснуйте.

5. Случайная величина имеет нормальное распределение с математическим ожиданием и дисперсией 16. Априорно известно, что имеет распределение N(2, 9). Выборочное среднее по выборке длиной N равно 1. Найдите апостериорное распределение в зависимости от N.

6. Чему равна апостериорная оценка параметра, если его априорная оценка имеет нормальное распределение с математическим ожиданием 2 и дисперсией 0.25, а выборочная оценка равна 8 по выборке длиной 10 7. Априорная оценка параметра имеет нормальное распределение с математическим ожиданием 2 и дисперсией 0.5, а выборочная оценка по выборке длиной 20 равна 2. Запишите плотность распределения апостериорных оценок.

8. Оценка параметра по первойчасти выборки равна 0 при дисперсии оценки 1, а по второй части выборки она равна 1 при дисперсии 2. Найдите оценку параметра по всей выборке.

9. Оценки регрессии по первой выборке совпадают с оценками по объединению двух выборок. Что можно сказать об оценках по второй выборке Докажите свое утверждение.

Рекомендуемая литература 1. Зельнер А. Байесовские методы в эконометрии. Ч М.: Статистика, 1980.

(Гл. 2, 3).

2. Лимер Э. Cатистический анализ неэксперементальных данных. Ч М.: Финансы и статистика, 1983.

610 Глава 19. Байесовская регрессия 3. Справочник по прикладной статистике. В 2-х т. Т 2. / Под ред. Э. Ллойда, У. Ледермана. Ч М.: Финансы и статистика, 1990. (Гл. 15).

4. Judge G.G., Griffiths W.E., Hill R.C., Luthepohl H., Lee T. Theory and Practice of Econometrics. Ч New York: John Wiley & Sons, 1985. (Ch. 4).

Глава Дисперсионный анализ В этой главе продолжается рассмотрение темы, начатой в пункте 4.3. Здесь анализируются модели дисперсионного анализа в общем виде и доказываются некоторые из сделанных ранее утверждений.

Как и прежде, исходная совокупность xi, i =1,..., N сгруппирована по n факторам; j-й фактор может находиться на одном из kj уровней. Регрессионная модель дисперсионного анализа общего вида получается исключением из модели регрессии с фиктивными переменными, полученной в конце пункта 9.1, лобычных регрессоров:

G X = ZJJ +, (20.1) J= где ZJ = Zj (матрица Zj имеет размерность N kj, и в ее ij-м столбце jJ единицы стоят в строках тех наблюдений, в которых j-й фактор находится на ij-м уровне, остальные элементы равны 0), или, как это следует из структуры Z и, представленной в пункте 9.1, в покомпонентной записи:

G J xI, iI = 0 + I(J) + I,iI, (20.2) J=где I Ч мультииндекс конечной группы, I = I1,..., IK (см. обозначения вп. 1.9);

iI Ч линейный индекс элемента в конечной группе, iI = 1,..., NI, NI Ч численность конечной группы;

612 Глава 20. Дисперсионный анализ J I(J) (по сравнению с обозначениями, используемыми в п. 4.3, добавлен верхний индекс J, необходимый в данной главе для более точной идентификации параметра) Ч параметр эффекта сочетания (совместного влияния) факторов J на данный элемент совокупности (на значение изучаемой переменной в данном наблюдении).

1,J Так, например, если n =3, I = {2, 3, 1}, J = {1, 3}, то I(J) = 2,1.

В пункте 9.1 отмечено, что в модели (20.1) на регрессорах существует много линейных зависимостей и поэтому непосредственно оценить ее нельзя. Для исключения линейных зависимостей регрессоров проводится следующее преобразова ние. Предполагая, что суммы компонент вектора J по всем значениям каждого элемента нижнего мультииндекса I(J) равны нулю (в принятых ниже обозначени ях: ZjJ =0 для всех j J), переходят к вектору J путем исключения из J bJ всех тех его компонент, для которых хотя бы один элемент нижнего мультииндекса равен единице (благодаря сделанному предположению их всегда можно восстановить, поскольку они линейно выражаются через оставшиеся компоненты). Теперь модель можно записать в форме без линейных зависимостей регрессоров:

G X = ZJJ +, (20.3) J= где ZJ = ZJCJ, а CJ = Cj, матрица Cj имеет следующую структуру:

jJ -1kj-.

Ikj-При этом, как и для модели (20.1), остается справедливым соотношение ZJ = Zj.

jJ Эквивалентность моделей (20.1) и (20.3) очевидна, т.к. J = CJJ.

В этой главе сначала рассматривается частный случай, когда численности всех конечных групп NI равны единице, т.е. для каждого сочетания уровней факторов имеется строго одно наблюдение.

20.1. Дисперсионный анализ без повторений n В этом случае N = K = kj = kj, регрессионные модели (20.1) и (20.3) G j=записываются без случайной ошибки, т.к. изучаемая переменная в точности раз20.1. Дисперсионный анализ без повторений лагается по эффектам всех возможных взаимодействий факторов (здесь и далее модели записываются в оценках параметров, т.е. меняются на b):

G X = ZJ J, (20.4) b J=G X = ZJbJ, (20.5) J=а модель в покомпонентном представлении (20.2) еще и без линейного внутригруппового индекса:

G xI = b0 + bJ. (20.6) I(J) J=Модель (20.5) можно переписать более компактно:

X = Zb. (20.7) Поскольку матрицы ZJ имеют размерности N KJ ( KJ = (kj - 1), - J G K0 =1), а KJ = K = N (как это было показано в п. 4.3), то матрица Z - J=квадратна, и b = Z-1X. Но для получения общих результатов, имеющих значение и для частных моделей, в которых эффекты высоких порядков принимаются за случайную ошибку, используется техника регрессионного анализа:

1 b = M-1m =( Z Z)-1 Z X.

N N В этом параграфе сделанные утверждения будут иллюстрироваться примером, в котором n =2, k1 = k2 =2 и модели (20.4) и (20.5) записываются следующим образом:

x11 1 1 0 1 0 1 0 0 0 b x12 1 1 0b1 0 1b2 0 1 0 0b 1 1 = b0 + + +, x21 1 0 1 b1 1 0 b2 0 0 1 0b2 2 x22 1 0 1 0 1 0 0 0 1 b614 Глава 20. Дисперсионный анализ x11 -1 - x12 1 -1 1 - = b0 + b1 + b2 + b12.

2 2 x21 1 1 -1 - x22 1 1 1 Каждая из матриц ZJ является прямым произведением ряда матриц и векторов:

Ikj, если j J ZJ =.

G 1kj, если j J / В этом легко убедиться, рассуждая по индукции. Так, в рассматриваемом примере:

1 1 1 0 Z0 =, Z1 =, 1 1 0 1 1 1 0 1 0 1 Z2 =, Z12 =.

1 0 1 0 1 0 Матрицы CJ можно представить следующим образом:

Cj, если j J CJ = Cj =.

J G 1, если j J / Тогда, используя свойство коммутативности прямого и лобычного умножения матриц (см. п. 9.1), можно показать следующее:

Ikj, если j J Cj, если j J ZJ = ZJCJ = = G 1kj, если j J 1, если j J / / Cj, если j J =. (20.8) G 1kj, если j J / 20.1. Дисперсионный анализ без повторений Теперь можно уточнить структуру матрицы M. Она состоит из блоков MJJ = ZJ ZJ, N и все внедиагональные блоки (при J = J), благодаря (20.8), равны 0.

Действительно, Cj, если j J Cj, если j J MJJ = N G 1, если j J 1kj, если j J / / kj и, если j J, J, то в ряду прямых произведений матриц возникает матрица / (точнее, вектор-столбец) Cj 1kj ; если j J, J, то появляется матрица (вектор/ строка) 1 Cj. И та, и другая матрица (вектор-столбец или вектор-строка) по kj построению матриц Cj равны нулю. Следовательно, MJJ =0 при J = J.

Для диагональных блоков выполняются следующие соотношения:

1 MJJ = MJ = kjCj Cj = Cj Cj = Mj, N KJ J J J G-J 1 где Mj = Cj Cj = (1kj-11 + Ikj-1).

kj-kj kj В рассматриваемом примере M = I4.

Вектор m состоит из блоков mJ :

1 1 mJ = ZJ X = CJ ZJ X = CJ XJ, N N KJ KJ где XJ = ZJ X Ч вектор-столбец средних по сочетаниям значений фактоN ров J. Его компоненты в пункте 4.3 обозначались xI(J) ( xJ Ч добавлен верхI(J) ний индекс J Ч является средним значением x по тем наблюдениям, в которых 1-й фактор из множества J находится на ij1-м уровне, 2-й Ч на ij2-м уровне и т.д.); X0 = XG = X. Это следует из структуры матрицы ZJ.

x, После решения системы нормальных уравнений mJ = MJbJ, J =1,..., G и перехода к полным векторам параметров эффектов получается следующее:

J b = CJ(CJ CJ)-1CJ XJ = BJXJ = BjXJ, J где Bj = Cj(Cj Cj)-1Cj = Ikj - 1kj ( 1kj =1kj 1 ), B0 =1.

kj kj 616 Глава 20. Дисперсионный анализ В рассматриваемом примере -1 -1 1 -1 -1 1 1 - B0 =1, B1 = B2 =, B12 =.

-1 1 -1 1 1 - 1 -1 -1 В силу блочной диагональности матрицы B, параметры разных эффектов bJ (разных по J) не зависят друг от друга, и исключение из уравнения некоторых из них не повлияет на значения параметров оставшихся эффектов. Кроме того, это доказывает справедливость приведенного в пункте 4.3 дисперсионного тождества (4.41).

Действительно, воспользовавшись одной из формул (6.18) для объясненной дисперсии, которая в данном случае равна полной дисперсии, можно получить следующее:

G G G G 1 J J s2 = bJ MJbJ = bJ CJ CJbJ = b b = s2, J KJ KJ J=1 J=1 J=1 J=т.е. то, что и требуется.

Введенное в пункте 4.3 рекуррентное правило расчета параметров эффектов, когда параметры более младших эффектов рассчитываются по значениям параметров более старших эффектов, действует, поскольку наряду с соотношениями (20.4) и (20.6) выполняются аналогичные соотношения для всех средних:

XJ = ZJJ J, (20.9) b 0,JJ где суммирование ведется от нуля и по всем подмножествам J (J J), а ZJJ Ч матрица фиктивных переменных для сочетания факторов J в модели, для которой полным набором факторов является J, т.е.

Ikj, если j J ZJJ = XG = X, ZJG = ZJ, J 1kj, если j J / xJ = b0 + bJ. (20.10) I(J) I(J) JJ 20.1. Дисперсионный анализ без повторений Для доказательства этого факта обе части соотношения (20.5) умножаются KJ слева на ZJ (текущим множеством в сумме становится J):

N G KJ KJ ZJ X = ZJ ZJbJ, (20.11) N N J= и рассматривается произведение ZJ ZJ из правой части полученного соотношения, которое представляется следующим образом:

Ikj, если j J Cj, если j J. (20.12) G 1, если j J 1kj, если j J / / kj Возможны четыре случая.

1) j J, j J, тогда в этом произведении возникает сомножитель 1 Cj, / kj который равен нулю, т.е. в правой части соотношения (20.11) остаются только такие слагаемые, для которых J J.

2) j J, j J, тогда возникает сомножитель kj, и, следовательно, каждое / / N слагаемое в правой части (20.11) получает сомножитель, который сокращаKJ KJ ется с уже имеющимся сомножителем.

N 3) j J, j J, тогда возникает сомножитель Cj.

4) j J, j J, тогда возникает сомножитель 1kj.

/ Таким образом, рассматриваемое произведение в точности равно ZJJ. Поскольку левая часть соотношения есть XJ по определению, доказательство завершено.

Соотношение (20.9) дает правило расчета bJ, если все параметры более старших эффектов известны. При J =0 это соотношение означает X0 = = b0.

x Далее последовательно рассчитываются параметры все более младших эффектов.

Техника применения F -критерия для проверки степени значимости отдельных факторов и их сочетаний приведена в пункте 4.3. Здесь важно отметить, что она применима только в рамках гипотезы о нормальности распределения x.

618 Глава 20. Дисперсионный анализ 20.2. Дисперсионный анализ с повторениями Переходя к более общему и более сложному случаю модели дисперсионного анализа с повторениями (20.1), полезно воспользоваться следующим подходом.

Если в модели регрессионного анализа X = Z + несколько строк матрицы Z одинаковы, то можно перейти к сокращенной модели, в которой из всех этих строк оставлена одна, а в качестве соответствующей компоненты вектора X взято среднее по этим наблюдениям с одинаковыми значениями независимых факторов. Это агрегированное наблюдение в соответствии с требованием ОМНК должно быть взято с весом Ng, гд е Ng Ч количество одинаковых строк в исходной модели, поскольку, как известно, дисперсия средней ошибки в этом наблюдении в Ng раз меньше дисперсии исходных ошибок. Значения оценок параметров в исходной и сокращенной моделях будут одинаковыми, но полная и остаточная суммы квадратов в исходной модели будут больше, чем в сокращенной, на сумму квадратов отклонений переменных x по исключенным наблюдениям от своей средней.

Pages: | 1 | ... | 67 | 68 | 69 | 70 | 71 | ... | 82 |

Книги по разным темам

Blog