Книги по разным темам Pages:     | 1 | 2 | 3 | 4 |   ...   | 30 |

T Далее, при yi =1 получаем i = 1 - xi, а при yi = 0 имеем T i = -xi, так что (при фиксированном xi ) i может принимать в i -м наблюдении только два значения, и (условные) вероятности этих значений равны T T P{ = 1 - xi xi}= P{yi = 1 xi}= xi, i T T P{ = -xi xi}= P{yi = 0 xi}=1 - xi.

i 12 Глава Соответственно, случайная величина i имеет условное математическое ожидание T T T T E(i xi ) = (1- xi ) P{i = 1- xi xi}+(- xi ) P{i = -xi xi}= T T T T =(1- xi ) xi - xi (1- xi )= и условную дисперсию D(i xi ) = E(i2 xi)-(E(i xi )) = E(i2 xi)= 2 T T T T =(1- xi ) xi +(- xi ) (1- xi )= T T T T T T = xi (1- xi )[xi +(1- xi )]= xi (1- xi ).

Таким образом, здесь возникает также проблема гетероскедастичности, осложненная еще и тем, что в выражения для дисперсий входит и (неизвестный) вектор параметров.

i Предположим, что yi индексирует наличие или отсутствие собственного автомобиля у i -й семьи, а xi - средний ежемесячный доход, приходящийся на каждого члена этой семьи (в условных единицах). Естественно предполагать, что вероятность наличия автомобиля возрастает с ростом xi. Если использовать линейную модель yi = + xi + i, i =1,K, n, то E(yi xi ) = P{yi =1 xi}= + xi, так что если значение xi увеличить на единицу, то вероятность наличия автомобиля увеличится на величину, равную ( + (xi +1))-( + xi)=, независимо от того, сколь большим или малым является среднедушевой доход xi.

Между тем такое положение вряд ли можно считать оправданным. Скорее можно предположить, что для семей с малыми доходами наличие автомобиля - большая редкость, и некоторое Модели с дискретными объясняемыми переменнымиЕ увеличение среднедушевого дохода лишь ненамного увеличит вероятность приобретения автомобиля такой семьей. Для семей с весьма высокими доходами возрастание вероятности наличия автомобиля также не может быть существенным, поскольку такие семьи, как правило, уже обладают автомобилем. Большее влияние увеличения дохода на возрастание вероятности наличия автомобиля должно наблюдаться для семей со УсреднимиФ доходами, т.е. в Упереходной зонеФ от доходов, еще не позволяющих обзавестись собственным автомобилем, к доходам, уже обеспечившим возможность приобретения собственного автомобиля.

Возьмем прямоугольную систему координат, в которой по оси абсцисс будем откладывать размеры среднедушевых семейных доходов. Пусть x(1) = min{x1,K, xn}, x(n) = max{x1,K, xn}, так что x(1) x x(n) - интервал значений среднедушевых доходов рассматриваемых семей. Разобъем этот интервал на некоторое количество m подинтервалов одинаковой длины l = (x(n) - x(1))/ m.

Построим над каждым таким подинтервалом прямоугольник, нижнее основание которого совпадает с этим подинтервалом. Пусть в пределы j -го подинтервала ( j =1,K, m ) попадают среднедушевые доходы n семей, и при этом лишь у n из этих семей имеется j j,автомобиль. (Для определенности, значения xi, лежащие на границе двух соседних подинтервалов, будем относить к подинтервалу, расположенному левее.) Тогда высоту прямоугольника, построенного над j -м подинтервалом, положим равной hj = nj,1 / nj.

При этом мы предполагаем, что общее количество рассматриваемых семей n достаточно велико, так что можно взять не слишком малое количество подинтервалов m, и при этом все еще иметь достаточное количество значений xi в каждом подинтервале.

14 Глава Построим теперь ломаную с концами в точках (x(1),0) и (x(n),1), узлы которой совпадают с серединами верхних сторон построенных прямоугольников. Эта ломаная является графиком некоторой кусочно-линейной функции Gn(x). И если P{yi =1 xi = x}= G(x), то функция Gn(x) в какой-то мере УоцениваетФ функцию G(x).

Правда, если функцию G(x) естественно считать неубывающей (возрастающей) по x, то в силу случайных причин функция Gn (x) вполне может иметь и участки убывания. Тем не менее при большом количестве наблюдений и достаточном количестве подинтервалов график функции Gn(x) отражает в общих чертах форму УистиннойФ функции G(x), так что по поведению функции Gn (x) можно судить о совместимости или о несовместимости линейной модели с данными наблюдений.

Рассмотрим (искусственно смоделированную) выборку, состоящую из 1000 семей со среднедушевыми месячными доходами от 100 до 2100 условных единиц, среди которых 510 семей имеют собственный автомобиль.

Построенная по этим данным ломаная (график функции Gn (x) ) имеет следующий вид:

Модели с дискретными объясняемыми переменнымиЕ 0.0.0.0.100 600 1100 1600 X и указывает на то, что УистиннаяФ функция G(x) имеет скорее не линейную, а S-образную форму.

Если, тем не менее, исходить из линейной модели наблюдений, то метод наименьших квадратов дает для параметров такой модели следующие оценки: = -0.237628, = 0.000680, так что условная вероятность P{yi = 1 xi} оценивается как P{yi = 1 xi}= -0.237628 + 0.000680 xi.

При xi 349 правая часть принимает отрицательные значения, а при xi 1821 - значения, превышающие единицу, что выходит за пределы интервала возможных значений вероятности.

Заметим теперь, что в число функций, имеющих S-образную форму и значения в пределах от 0 до 1, входит целый ряд функций распределения, используемых в теории вероятностей и математической статистике, например, нормальные функции распределения.

G_n 16 Глава Если использовать функцию нормального распределения 2 N(, ), имеющего математическое ожидание и дисперсию, то тогда x 1 (z - )2.

dz G(x) = exp 2 - Замена переменной (z - )/ = t приводит это соотношение к виду ( x- ) / 1 x - G(x) = e-t / 2dt =, z -t / где (z) = e dt - функция стандартного нормального распределения N(0,1), математическое ожидание которого равно нулю, а дисперсия равна единице.

x - Соотношение G(x) = можно записать также в виде G(x) = ( + x), где = - /, =1/.

Таким образом, используя для аппроксимации G(x) функцию нормального распределения, мы приходим к модели yi = ( + xi )+ i, i =1,K, n.

Оценив параметры и этой модели, мы тем самым получим и оценки параметров функции нормального распределения, аппроксимирующего функцию G(x) :

= - /, =1/.

Проблема, однако, в том, каким образом производить оценивание.

Модели с дискретными объясняемыми переменнымиЕ Заметим, что функция G(x) = ( + x) нелинейна по параметрам, так что мы имеем здесь дело с нелинейной моделью регрессии. Следуя принципу наименьших квадратов, для получения оценок и надо минимизировать по и сумму квадратов n Q(, )= - ( + xi )).

(yi i=Однако в отличие от линейной модели, получающиеся здесь нормальные уравнения нелинейны, не имеют решения в явном виде, и для получения приближенных значений оценок и приходится использовать итерационные процедуры. Как и в рассмотренном ранее случае линейной модели, здесь возникает и проблема гетероскедастичности: условные дисперсии ошибок равны D(i xi ) = ( + xi )(1- ( + xi )).

Соответственно, для учета различия этих дисперсий при разных i следует использовать взвешенный метод наименьших квадратов, т.е. минимизировать по и сумму квадратов n Q(, )= (yi - ( + xi )), wi i=где веса wi определяются соотношением wi = 1/ D(i xi ) = [( + xi )(1- ( + xi ))]-1.

К сожалению, эти веса зависят не только от xi, но и от значений параметров и, которые нам не известны и которые как раз и подлежат оцениванию. Поэтому для реализации итерационной процедуры оценивания необходимы некоторые начальные оценки весов i0, i =1,K, n, а для этого необходимы начальные оценки iзначений Gi = G(xi ) = ( + xi ), которые дали бы оценки весов в виде -i0 =[i0(1- i0)].

18 Глава Поскольку же у нас yi = 0 или yi =1, то единственная разумная возможность - положить i0 = 1, если yi =1, и i0 = 0, если yi = 0.

Однако в обоих случаях вес i0 не определен (знаменатель равен нулю).

Ввиду отмеченных выше трудностей в применении метода наименьших квадратов к рассмотренным моделям, мы используем альтернативный метод оценивания, широко применяемый в прикладных исследованиях, а именно - метод максимального правдоподобия.

Однако прежде чем переходить к изложению этого метода, мы должны заметить, что в качестве объясняющих факторов в моделях рассмотренного типа могут выступать несколько переменных, и тогда мы получаем модель вида yi = G(1xi1 +L+ xip)+ i, i =1,K, n, p которую обычно называют моделью бинарного выбора.

1.2. Использование метода максимального правдоподобия для оценивания моделей бинарного выбора Итак, пусть наша задача состоит в оценивании параметров модели бинарного выбора yi = G(1xi1 + L + xip )+, i =1,K, n, p i где G(z) - S-образная функция распределения, имеющего плотность g(z)= G (z). В соответствии с введенными выше T обозначениями 1xi1 +L+ xip = xi, так что p T G(1xi1 + L + xip )= G(xi ). Мы предполагаем, что при p фиксированных значениях объясняющих переменных в n наблюдениях, что соответствует фиксированным значениям Модели с дискретными объясняемыми переменнымиЕ векторов xi, случайные ошибки 1,K,n статистически T независимы и E( xi ) = 0, так что P{yi =1 xi}= E(yi xi ) = G(xi ).

i Тогда при фиксированных xi статистически независимы и случайные величины G(1xi1 + L + xip )+ i, i =1,K, n, т.е.

p статистически независимы y1,K, yn. В силу этого (условная при фиксированных xi, i =1,K, n ) совместная вероятность получения конкретного набора наблюдений y1,K, yn (конкретного набора нулей и единиц) равна произведению n n yi 1- yi yi 1- yi T T (P{yi =1 xi}) (P{yi = 0 xi}) = (G(xi )) (1 - G(xi )).

i=i=Правая часть этого выражения является при фиксированных xi, i =1,K, n, функцией от вектора неизвестных параметров, n yi 1- yi T T L( ) = L( x1,K, xn )= (G(xi )) (1 - G(xi )) i=и интерпретируется как функция правдоподобия параметров 1,K,. Дело в том, что при различных наборах значений 1,K, p p получаются различные L( ), т.е. при фиксированных xi, i =1,K, n, вероятность наблюдать конкретный набор значений y1,K, yn может быть более высокой или более низкой, в зависимости от значения.

Метод максимального правдоподобия предлагает в качестве оценки вектора параметров использовать значение =, максимизирующее функцию правдоподобия, так что n yi 1- yi T T L()= max L()= max (G(xi )) (1 - G(xi )).

i=Использование свойства монотонного возрастания функции ln(z), позволяет найти то же самое значение, максимизируя логарифмическую функцию правдоподобия ln L( ). В нашем случае 20 Глава n n ln L( )= yi ln G(xiT)+ - yi )ln(1 - G(xiT)).

(i=1 i=Мы не будем углубляться в технические детали соответствующих процедур максимизации, имея в виду, что такие процедуры УвстроеныФ во многие прикладные пакеты статистических программ для персональных компьютеров и читатель при необходимости может ими воспользоваться. Заметим только, что если не имеет место чистая мультиколлинеарность объясняющих переменных (т.е. если матрица X = (xij) значений p объясняющих переменных в n наблюдениях имеет ранг p, так что ее столбцы линейно независимы), то тогда функция L( ) имеет единственный локальный максимум, являющийся и глобальным максимумом, что гарантирует сходимость соответствующих итерационных процедур к оценке максимального правдоподобия.

Мы рассмотрим теперь результаты применения метода максимального правдоподобия для оценивания параметров и моделей yi = G( + xi )+, i =1,K, n, i по упомянутым выше смоделированным данным. При этом мы используем предусмотренную в пакете Econometric Views (EVIEWS) возможность выбора в качестве G(z) функций z -t / (z) = e dt - функция стандартного нормального распределения N(0,1) (пробит-модель), ez (z) = - функция стандартного логистического 1+ ez распределения (логит-модель), Модели с дискретными объясняемыми переменнымиЕ G(z) =1 - exp(- ez ) - функция стандартного распределения экстремальных значений (минимума) I-го типа (распределение Гомпертца, гомпит-модель).

Заметим, что функции плотности первых двух распределений являются четными функциями (графики этих плотностей симметричны относительно оси ординат), тогда как функция плотности последнего из трех распределений не обладает таким свойством. Ее график асимметричен и скошен в сторону отрицательных значений аргумента.

0.0.0.0.-6 -4 -2 0 2 4 Результаты оценивания указанных трех моделей по смоделированным данным (1000 наблюдений) с использованием пакета EVIEWS таковы: В четвертом столбце приведены значения отношений оценок коэффициентов к стандартным ошибкам, рассчитанным по асимптотическому нормальному распределению оценок максимального правдоподобия. В связи с этим, здесь и в последующих таблицах указанное отношение называется не t -статистикой, а z статистикой. P-значения, приводимые в пятом столбце, соответствуют стандартному нормальному распределению.

22 Глава Пробит-модель:

Variable Coefficient Std. Error z-Statistic Prob.

C -3.503812 0.200637 -17.46343 0.X 0.003254 0.000178 18.25529 0.Логит-модель:

Variable Coefficient Std. Error z-Statistic Prob.

C -6.357013 0.411837 -15.43576 0.X 0.005892 0.000368 16.01461 0.Гомпит-модель:

Variable Coefficient Std. Error z-Statistic Prob.

C -3.022612 0.162178 -18.63764 0.X 0.003344 0.000168 19.93322 0.Полученные значения оценок параметров и в первой модели ( = -3.503812, = 0.003254 ) соответствуют оценкам =1076.77 и = 307.31 параметров функции нормального распределения, УсглаживающейФ построенную ранее функцию Gn(x), график которой представляет ломаную. Заметим, что в действительности при моделировании данных мы использовали в качестве G(x) функцию нормального распределения с параметрами =1100 и = 300. Следующий график позволяет сравнить поведение Х кусочно-линейной функции Gn(x), Х теоретической функции G(x), соответствующей нормальному распределению N(1100, 3002), Х оцененной функции (x), соответствующей нормальному распределению N(1076.77, 307.312).

Модели с дискретными объясняемыми переменнымиЕ 1.0.0.G_N THEOR 0.ESTIM 0.0.500 1000 1500 X На следующем графике добавлены для сравнения также и оцененные функции (x) для логит- и гомпит-моделей 1.0.0.0.0.0.G_N THEOR PROBIT LOGIT GOMPIT Кривые, получаемые по пробит- и логит-моделям, отличаются очень мало как друг от друга, так и от теоретической кривой. В то же время кривая, полученная по гомпит-модели, представляется 24 Глава менее удовлетворительной. Разумеется, хотелось бы иметь некоторые количественные критерии для сравнения разных моделей и для проверки адекватности каждой из рассматриваемых моделей данным наблюдений. Мы займемся теперь этой проблемой.

1.3. Показатели качества моделей бинарного выбора, критерии согласия с имеющимися данными, сравнение альтернативных моделей Прежде всего обратим внимание на следующее обстоятельство.

Pages:     | 1 | 2 | 3 | 4 |   ...   | 30 |    Книги по разным темам