2. Размерность k параметра должна быть фиксированной.
Контрпример. Пусть xi i N, 2I2, i = 1,..., n, yi i т.е. у нас 2n наблюдений для оценивания k = (n + 1)-мерного параметра. Увы, n xi + yi 1 p p i = i, 2 = (xi - yi)2.
2 4n i=3. Желательно, чтобы множество было замкнутым.
Контрпример. Рассмотрим смесь нормально распределённых величин:
N (, 2) с вероятностью, z N (0, 1) с вероятностью.
Здесь q = (m, s2), = (, 2), = (-, +) (0, +).
Проблема возникает из-за невключения нуля в допустимое множество:
1 1 2 1 1 f(z|m, s2) = e-(z-m) /2s2 + e-z /2, 2 2s2 n тогда f(zi|m, s2) max достигается выбором = z1, 2 0, если f(z1|, 2) i=f > 0.
4 Асимптотическая эффективность ММП-оценок Приведём иногда встречающееся утверждение об асимптотической эффективности ММП-оценок.
Неверный результат. Оценка максимального правдоподобия асимптотически эффективна в классе состоятельных асимптотически нормальных оценок.
Это неверно из-за существования так называемых суперэффективных оценок. Пусть оценка, которую мы считаем эффективной, состоятельна и асимптотически нормальна, т.е.
d n( - ) N (0, V).
Построим следующую оценку :
0, если || < n-, =, в противном случае.
Тогда 0, если = d n( - ) N (0, V), если = 0.
Если истинный параметр равен 0, построенная оценка более эффективна, чем изначальная; в остальных случаях она настолько же эффективна. Вместе с тем такое улучшение эффективности нам неинтересно, т.к. улучшается оно только в частном, маловероятном и заранее непредсказуемом случае.
Верный результат. Пусть = arg max E[h(z, q)] q для некоторой h(z, q) = log f(z|q), и это верно, какое бы истинное ни было.
Пусть оценки и n arg max h(zi, q) q i=состоятельны и асимптотически нормальны. Тогда оценка асимптотически по крайней мере не менее эффективна, чем.
Доказательство. Запишем условие первого порядка для :
h(z, ) E = 0.
q Продифференцируем дважды по, переписав математическое ожидание в виде интеграла:
h(z, ) f(z|) dz = 0, q 2h(z, ) h(z, ) log f(z|) f(z|) dz + f(z|) dz = 0.
q q q q или в терминах математических ожиданий, E[h] + E[hs ] = 0, где для краткости мы обозначили h(z, ) 2h(z, ) log f(z, ) h, h, s.
q q q q Теперь рассмотрим разность матриц V - V = (E[h])-1E[hh](E[h])-1 - (E[ss ])-1.
Необходимо показать, что это - неотрицательно определенная матрица. Действительно, V - V = (E[hs ])-1(E[hh ] - E[hs ](E[ss ])-1E[sh ])(E[sh ])-1.
Обозначим u = h - E[hs ](E[ss ])-1s, что есть проекционная ошибка линейной проекции h на s. Тогда E[uu ] = E[hh ] - E[hs ](E[ss ])-1E[sh ] - E[hs ](E[ss ])-1E[sh ]+ +E[hs ](E[ss ])-1E[ss ](E[ss ])-1E[sh ] = E[hh ] - E[hs ](E[ss ])-1E[sh ].
Получившаяся матрица положительно полуопределена по построению. Как следствие, оценка максимального правдоподобия в смысле асимптотической эффективности не может быть хуже любой другой экстремальной оценки.
Другими словами, ММП-оценка асимптотически эффективна в классе экстремальных оценок того же самого параметра.
5 Условный метод максимального правдоподобия Обычно эконометрические модели формируются в терминах условных плотностей или вероятностей y|x. Рассмотренная же нами теория справедлива для совместного распределения всей пары. Обычно совместная плотность распределения f(y, x|q) не специфицирована - мы не хотим предполагать форму плотности x, так как x, как правило, - экзогенная переменная, поведение которой мы не собираемся моделировать.
Пусть специфицирована только условная плотность f(y|x, q), и пусть маржинальная плотность f(x) независима от q (это серьезное предположение, но оно часто оправдано экзогенностью x).
Пример (Нормальная линейная регрессия).
y|x N (x, 2), тогда q = (b s2), = ( 2), и 1 (y - x b)log f(y|x, q) = const - log s2 -.
2 2sСовместная плотность распадается на произведение f(y, x|q) = f(y|x, q)f(x), и, следовательно, log f(y, x|q) = log f(y|x, q) + log f(x).
Тогда n n = arg max log f(y, x|q) = arg max log f(y|x, q), q q i=1 i=т.к. маржинальная лог-плотность log f(x) не оказывает влияния на максимизацию.
Итак, при предположении о независимости f(x) от q теория остаётся верна.
Продолжаем рассматривать начатый пример:
y - x b x ss(y|x, q) = 1 (y - x b)2, - + 2s2 2s xx y - x b - - x s(y|x, q) s2 s= y - x b 1 (y - x b)2, q - x s4 2s4 s E [xx ] s(y|x, ) I() = -E =.
q 2 0 Нули в I() означают асимптотическую нескоррелированность оценок компонент и 2. Итак, мы получили асимптотические свойства условный-ММП-оценок:
d n( - ) N (0, 2(E[xx ])-1), d n(2 - 2) N (0, 24).
Из асимптотической нескоррелированности и асимптотической нормальности следует асимптотическая независимость оценок компонент. Мы вывели асимптотические свойства, пропустив этап построения самой оценки. Через этот этап чаще всего приходится проходить, прибегая к численным методам, но в данном случае оценки выводятся в явном виде:
n n = arg max - log s2 - (yi - x ib)2, 2 2sb,si=откуда -n n = xix i xiyi, i=1 i=т.е. ММП-оценка совпала с МНК-оценкой, и n 2 = (yi - x i)2, n i=т.е. ММП-оценка 2 совпала с обычно используемой оценкой дисперсии без корректировки на степени свободы.
Пример (Модель бинарного выбора). Пусть 1, x + e 0, y = e|x N (0, 1).
0, x + e < 0, Тогда y|x Bernoulli((x )), так как P r{y = 1|x} = P r{e -x |x} = 1 - (-x ) = (x ).
Условная плотность (или, точнее говоря, вероятностная масса) есть f(y|x, b) = (x b)y(1 - (x b))1-y.
Параметр здесь только b, поскольку и 2 одновременно не идентифицируются. Мы фиксируем 2 на 1. Далее, log f(y|x, b) = y log (x b) + (1 - y) log(1 - (x b)) и n = arg max yi log (x b) + (1 - y) log(1 - (x b)).
b i=Нет никакой надежды получить в явном виде оценку для параметра. О состоятель p d ности и асимптотической нормальности n( - ) N (0, V) мы уже знаем.
Остается найти асимптотическую дисперсионную матрицу. Условная скор-функция есть (x b) -(x b) y - (x b) s(y|x, b) = y + (1 - y) x = (x b)x.
(x b) 1 - (x b) (x b)(1 - (x b)) Легче возвести в квадрат s(y|x, b), чем брать ее производную по b, поэтому (y - (x ))2 (x )I() = E (x )2xx = E xx.
(x )2(1 - (x ))2 (x )(1 - (x )) Здесь использовался факт, что условная дисперсия E[(y - E[y|x])2|x] для условного распределения Бернулли - это условная вероятность успеха, помноженная на условную вероятность провала (x )(1 - (x )). Асимптотическая дисперсионная матрица легко состоятельно оценивается:
-n 1 (x i)V = xix i.
n (x i)(1 - (x i)) i=Поскольку здесь суммируются с положительными весами квадраты векторов, оценка положительно определена по построению.
Ранее для этого примера мы строили НМНК- и ВНМНК-оценки на основе регрессии E[y|x] = (x ), и в случае ВНМНК, скедастичной функции V [y|x] = (x )(1 - (x )).
Из сравнения асимптотических дисперсионных матриц следует, что ВНМНК-оценка и ММП-оценка асимптотически эквивалентны, хотя только вторая явно использует спецификацию плотности.
В обоих примерах мы имели дело с условным распределением и обходились с ним как с совместным, так как x предполагался экзогенным в обоих примерах. Интересно также рассмотреть более общий случай, когда хотя бы один параметр совместного распределения сидит и условном, и в маржинальном плотностях. Такие случаи редки в экономической практике, но интересно, что же здесь следует делать.
Пусть q = (q1, q2, q3), = (1, 2, 3), f(y, x|q1, q2, q3) = f(y|x, q1, q2)f(x|q2, q3). Имея спецификацию совместной плотности, можно построить оценки разных компонент :
J n J Совместный-ММП-оценки: = arg max log f(yi, xi|q1, q2, q3), q1,q2,qJ i=n C Условный-ММП-оценки: = arg max log f(yi|xi, q1, q2), C q1,qi=n M Маржинальный-ММП-оценки: = arg max log f(xi|q2, q3).
M q2,qi=В итоге мы имеем 2 способа оценивания 1, 3 способа оценивания 2 и 2 способа оценивания 3.
Результат. При благоприятных условиях все три оценки состоятельны (каждая для C C M своих частей, естественно) и асимптотически нормальны. Более того, 1, 2, 2 и M J J J 3 не могут быть более асимптотически эффективными, чем 1, 2 и 3.
6 Тестирование в контексте метода максимального правдоподобия Существует триада асимптотически эквивалентных тестов: тест Вальда W, тест отношения правдоподобия LR и тест множителей Лагранжа LM.
юбая нулевая гипотеза имеет структуру H0 : 0. Сначала рассмотрим простую нулевую гипотезу H0 : = 0, т.е. множество 0 = {0} состоит из одного элемента. Тогда 1. Тестовая статистика Вальда есть d W = n( - 0) I(0)( - 0) 2.
k Вместо 0 внутри I(0) можно взять ; число степеней свободы предельного распределения равно размерности параметра. Матрица I (0), обратная к асимптотической дисперсионной матрице, пивотизирует тестовую статистику.
2. Тест отношения правдоподобия основан на значениях логарифмической функции правдоподобия n ln(q) = log f(zi|q).
i=Разложим ln(0) по формуле Тэйлора до второго порядка вокруг :
1 1 1 ln() 1 1 2ln() ln(0) - ln() = (0 - ) + (0 - ) (0 - ), n n n q 2 n q q где ln() = q p согласно условиям первого порядка для. При нулевой гипотезе 0 и p 0, так что 1 2ln() s(z, 0) p E = -I(0).
n q q q В итоге d LR = 2(ln() - ln(0) 2.
k Асимптотически эта статистика ведет себя как Вальдовская и, как следствие, имеет такое же асимптотическое распределение.
3. Тест множителей Лагранжа (скор-тест). Нам известен следующий факт о скорфункции: если нулевая гипотеза верна, то E[s(z, 0)] = 0.
Согласно ЦПТ, при нулевой гипотезе n d s(zi, 0) N (0, I(0)).
n i=Пивотизировав эту статистику, получим:
n n d LM = s(zi, 0) I(0)-1 s(zi, 0) 2.
k n i=1 i=Название тест множителей Лагранжа - это следствие интерпретации истинного скор как множителя Лагранжа для следующей оптимизационной задачи:
max ln(q).
q=n В случае составной нулевой гипотезы, однако, такая интерпретация не работает.
Пример. Пусть z1,..., zn i.i.d. Bernoulli() и H0 : = 0, где 0 < 0 < 1. Тогда n ln(q) = zi log q + (1 - zi) log(1 - q).
i=Из условия первого порядка для ММП-оценки находим n n zi 1 - zi 0 = - = zi.
n 1 - i=1 i=Скор и информационная матрица равны z 1 - z z - q s(z, q) = - =, q 1 - q q(1 - q) (z - )2 I() = E =.
2(1 - )2 (1 - ) Выпишем тестовые статистики:
n( - 0)W =, 0(1 - 0) n 1 - LR = 2 zi log + (1 - zi) log = 0 1 - i= 1 - = 2n log + (1 - ) log, 0 1 - n 1 zi - LM = 0(1 - 0) = W.
n 0(1 - 0) i=Теперь рассмотрим составную нулевую гипотезу H0 : g () = 0, r k, rт.е. 0 = {, g() = 0}. В этом случае g() g() d W = ng() [G(I())-1G ]-1g() 2, где G, G, r rk d LR = 2(ln() - ln(R)) 2, где R = arg max ln(q), r qn n -d LM = s(zi, R) I(R) s(zi, R) 2.
r n i=1 i=Какую статистику лучше использовать Все три асимптотически эквивалентны, хотя численно разные (в частных случаях они могут совпадать, а иногда их можно даже ранжировать). Соображения, которые можно использовать при выборе тестовой статистики, следующие:
Инвариантиность к перепараметризации H0. Например, одну и ту же нулевую гипотезу можно сформулировать как 1 = 2, либо как 1/2 = 1. W-статистика не инвариантна к такой перепараметризации, LR - инвариантна, а LM - инвариантна или нет в зависимости от обстоятельств и способа её построения.
Удобство использования. Если относительно несложно оценить и ограниченную модель, и неограниченную, то лучше использовать LR-статистику (хотя бы из-за инвариантности относительно перепараметризации). Если сложно оценить ограниченную модель, можно отдать предпочтение W-статистике, если же сложно оценить неограниченную модель, стоит предпочесть LM-статистику.
7 ММП-оценивание в моделях временных рядов Пусть теперь данные z1,..., zT представляют собой стационарный временной ряд.
T Поскольку наблюдения не независимы, L(z1,..., zT, q) = f(zt|q), функция прав t=доподобия не распадается на произведение маржинальных плотностей. Оказывается, что функцию правдоподобия все равно можно разложить на произведение, но посложнее:
L(z1,..., zT, q) = f(zT |zT -1,..., z1)L(z1,..., zT -1, q) =....
Предположим, что zt обладает марковским свойством, т.е.
f(zt|zt-1,... ) = f(zt|zt-1,..., zt-p) для некоторого конечного p. Тогда T p L(z1,..., zT, q) = f(zt|zt-1,..., zt-p, q) f(zt|zt-1,..., z1, q) t=p+1 t=Точный метод максимального правдоподобия даёт точный-ММП-оценку E = arg max log L(z1,..., zT, q).
q Подсчитать такую оценку сложно, поэтому предпочитают использовать приближенный подход, дающий приближённый-ММП-оценку T A = arg max log f(zt|zt-1,..., zt-p, q), q t=1+p p которая игнорирует зависимость log f(zt|zt-1,..., z1, q) от q.
t=Точный и приближенный методы максимального правдоподобия асимптотически эквивалентны, хотя численно оценки могут сильно отличаться. Рассмотрим примеры использования метода максимального правдоподобия в моделях временных рядов, имея в виду приближенный ММП.
Пример 1. Рассмотрим авторегрессию порядка p с нормальными инновациями yt|xt N (x t, 2), где xt = (1 yt-1... yt-p) и = ( 1... p). Обозначим = ( 2). Приближенная логарифмическая функция правдоподобия равна T 1 (yt - x tb)lA(y1,..., yT, q) = const - log s2 +, 2 2st=1+p а ММП-оценки - -T T = xtx t xtyt, t=1+p t=1+p T 2 = (yt - x t)2.
T - p t=1+p Если бы мы работали не с приближённым правдоподобием, а точным, у нас бы не вывелись оценки в явной форме. Нам бы пришлось еще учесть сумму с индексом, бегущим от 1 до p, и учесть плотности для начальных y-ков, условные на предыстории, а предыстория у них у всех разная. Поэтому нам бы пришлось это нормальное распределение интегрировать и находить для каждого из этих p наблюдений свою условную плотность.
Пример 2. Рассмотрим модель бегущего среднего порядка p c нормальными инновациями:
yt = + t + 1t-1 +... + pt-p t|It-1 N (0, 2).
Обозначим q = (m f1... fp s2) и = ( 1... p 2). Приближенная логарифмическая функция правдоподобия равна T 1 t(q)lA(y1,..., yT, q) = const - log s2 +, 2 2st=1+p где t(q) = yt - m - f1t-1(q) - - fpt-p(q).
Поскольку у нас рекурсивное соотношение, нужны стартовые значения. Для асимптотических свойств неважно откуда, поэтому проще всего из нулевых:
0 = -1 = = -p = 0.
Максимизировать всё равно приходится численно. Из-за того, что есть произвол в выборе стартовых значений, разные исследователи, работающие с одними и теми же данными над одной и той же задачей, могут получить разные численные результаты.
Это нормально.
Pages: | 1 | 2 | 3 | 4 | ... | 7 | Книги по разным темам