p i Здесь i - случайная ошибка, отражающая влияние на значение y i неучтенных дополнительных факторов. Вместе со значениями xi1,K, xip наблюдаются также значения переменной yi, которая может принимать K различных значений, в соответствии со следующей схемой:
48 Глава 1, если y i,1, i K yi = если i,k -1 < y i,k, k, i K K, если y >, i,K -i где i,1 < L < i,k < L < i,K -1 - пороговые значения, вообще говоря, ненаблюдаемые.
Предполагая, что ошибки 1,K,n - независимые в совокупности (и независимые от xij, j =1,K, p ) случайные величины, имеющие одинаковое нормальное распределение i ~ N(0, ), мы получаем порядковую пробит-модель.
Рассмотрим частный случай, когда K = 3 и пороговые значения одинаковы для всех субъектов исследования, так что i,1 1, i,2 и 1, если y 1, i 2, yi = если 1 < y, i > 3, если y.
i При этом P{yi =1 xi}= P{yi 1 xi}= P{1xi1 +L+ xip + i 1 xi}= p = P{i (1 - 1) -(2xi2 +L+ xip) xi}= p (2xi2 +L+ xip).
- 1) (p = Модели с дискретными объясняемыми переменнымиЕ P{yi = 2 xi}= P{1 < yi xi}= = P{1 < 1xi1 +L+ xip + i xi}= p (2xi2 +L+ xip) - 1) ( p = 2 (2xi2 +L+ xip), - 1) (p - P{yi = 3 xi}= P{yi > xi}= P{1xi1 +L + xip + i > xi}= 2 p = P{i > ( - 1) -(2xi2 +L+ xip) xi}= 2 p (2xi2 +L+ xip).
- 1) ( p =1- 2 Пусть мы имеем в наличии только значения yi, xi1,K, xip, i =1,K, n. Применяя метод максимального правдоподобия, мы, как и в случае пробит-модели с двумя исходами, не можем однозначно восстановить значения параметров 1,K,, если не известны p значения, 1 и. Поэтому и здесь для однозначной идентификации коэффициентов 1,K, необходима какая-то p нормализация. В стандартной модели предполагается, что =1 и 1 = 0, хотя возможны и другие нормализации.
Используя стандартную нормализацию и обозначая =, мы получаем в модели с тремя исходами:
T P{yi = 1 xi}= P{yi 0 xi}= (- xi ), T T P{yi = 2 xi}= P{0 < yi xi}= ( - xi )- (- xi ), T P{yi = 3 xi}= P{yi > xi}=1- ( - xi ).
При этом коэффициент допускает двойное истолкование. В j соответствии с моделью для y, положительное значение этого i 50 Глава коэффициента означает, что переменная y возрастает с i возрастанием j-й объясняющей переменной. В соответствии с приведенными выражениями для вероятностей получения значений yi =1, yi = 2 и yi = 3, последнее приводит к возрастанию вероятности P{yi = 3 xi} и к убыванию вероятности P{yi =1 xi}. Что же касается вероятности P{yi = 2 xi}, то здесь возможно как возрастание, так и убывание этой вероятности, в зависимости от конкретной ситуации.
Прогнозирование по оцененной модели производится в соответствии со следующим соглашением. Прогнозное значение i полагается равным k0, если P{yi = k0 xi} = max P{yi = k xi}.
k =1,K,K П р и м е р Рассмотрим теперь выборку, состоящую из 1000 семей со среднедушевым месячным доходом от 100 до 2100 условных единиц (у.е.), среди которых 499 семей не имеет собственного автомобиля, 369 семей имеет один автомобиль, 132 семьи имеют два автомобиля. Выборка получена посредством моделирования; при этом был использован процесс порождения данных в виде y = xi + i, i =1,K,1000, i где i - независимые в совокупности (и независимые от xi ) случайные величины, имеющие одинаковое нормальное распределение i ~ N(0,3002), т.е. = 300. Здесь K = 3 и границы 1 и были выбраны равными, соответственно, 1 = 1100 и 1 =1850, так что в результате получаем порядковую пробит-модель 1, если y 1, i 2, yi = если 1 < y, i > 3, если y, i Модели с дискретными объясняемыми переменнымиЕ где y1 =1, если i -я семья не имеет автомобиля, y1 = 2, если i -я семья имеет один автомобиль, и y1 = 3, если i -я семья имеет два (или более) автомобиля. На следующем графике показана зависимость полученных значений y от xi i Y* 1000 LEVELLEVEL--x Горизонтальные линии соответствуют разделительным порогам LEVEL1=1100 и LEVEL2=1850.
Наблюдения с y 1100 встречаются в группе семей с доходами i от 200 до 1600 у.е. Наблюдения с 1100 < y 1850 встречаются в i группе семей с доходами от 548 до 2094 у.е. Наблюдения с y > 1850 встречаются в группе семей с доходами от 1318 у.е. и i выше. Важно отметить, что эти группы пересекаются, и это связано как раз с наличием случайной составляющей в уравнении полезности. Если бы этой составляющей не было, то мы имели следующую картину.
52 Глава x И тогда мы получили бы разбиение на три непересекающиеся группы. Для всех семей с доходами, не превышающими 1100 у.е., yi =1. Для всех семей с доходами, превышающими 1100 у.е., но не превышающими 1850 у.е., yi = 2. Для всех семей с доходами, превышающими 1850 у.е., yi = 3.
Представим теперь, что мы имеем в распоряжении только выборочные данные, т.е. пары (xi, yi ), i =1,K,1000. Оценивание методом максимального правдоподобия порядковой пробит-модели с нормализацией =1, = 0 (именно такая нормализация используется в пакете EVIEWS), дает следующие результаты:
Coefficient Std. Error z-Statistic Prob.
X 0.003361 0.000158 21.31648 0. Limit Points 3.693723 0.185109 19.95431 0.6.306692 0.279737 22.54510 0. Иначе говоря, нормализованная модель оценивается как Модели с дискретными объясняемыми переменнымиЕ y = 0.003361xi + ui, i где ui ~ N(0,1), и 1, если y 3.693723, i 2, yi = если 3.693723 < y 6.306692, i > 3, если y 6.306692.
i Если учесть, что мы сами смоделировали выборку и поэтому знаем значение, то переход к модели с = 300 соответствует оцененной модели y = 300 0.003361 xi + 300 ui = 1.0083 xi + i, i где i ~ N(0,3002), и 1 = 3003.693723 =1108.1169, = 3006.306692 =1892.0076.
Как видим, параметры оцененной модели очень близки к параметрам истинной модели. Результаты прогнозов по оцененной модели приведены в следующей таблице.
Ошибка Кол-во Кол-во yi i yi - i набл. набл.
1 499 1 500 -2 369 2 387 -3 132 3 113 Содержимое таблицы отражает следующая диаграмма.
54 Глава Объемы групп с y=k Истинные Прогнозные k Для сравнения приведем результаты прогнозов по тривиальной модели, не учитывающей в уравнении для y влияние доходов i-й i семьи:
Ошибка Кол-во Кол-во yi i yi - i набл. набл.
1 499 1 1000 -2 369 2 0 3 132 3 0 Приведем также сводную таблицу количеств правильных и неправильных прогнозов для значений yi =1, 2,3.
Модели с дискретными объясняемыми переменнымиЕ i =1 i =2 i =438 61 yi =62 265 yi =0 61 yi =Таким образом, из 1000 прогнозов правильными оказались 774, т.е. 77.4%. При этом значения yi =1 правильно прогнозируются в 438 случаях из 499, т.е. в 87.8% случаев; значения yi = 2 правильно прогнозируются в 71.8% случаев; значения yi = 3 правильно прогнозируются в 53.8% случаев.
1.6.2. Мультиномиальная модель В целом ряде случаев не существует естественного упорядочения альтернатив, благодаря которому и возникает монотонная связь между непрерывной латентной переменной и наблюдаемой переменной, принимающей конечное количество значений.
Пусть мы имеем K таких альтернатив (мы занумеруем их в произвольном порядке числами 1,K, K ) и пусть i -й субъект исследования приписывает k -й альтернативе полезность uik, так что T uik = 1xi1,k +L+ xip,k + ik = xik + ik, i =1,K, n, p T где xik = (xi1,k,K, xip,k), а ik ( i =1,K, n, k =1,K, K ) - независимые в совокупности (и независимые от xik ) случайные величины, имеющие одинаковое распределение.
Предположим, что i -й субъект выбирает альтернативу k, если для него эта альтернатива имеет максимальную полезность. В этом случае мы полагаем yi = k. Тогда (условная при заданных значениях xik, k =1,K, K ) вероятность того, что i -й субъект выберет альтернативу k, равна 56 Глава T T P{yi = k }= Puik = max uij = Pxik + ik > max (xij + ij ).
j=1,K,K, jk j =1,K,K Выразить такую вероятность в явном виде весьма проблематично.
Однако если предположить, что общим для всех случайных величин ik является стандартное распределение экстремальных значений (максимума) I-го типа с функцией распределения G(z) = exp(- e-z), - < z <, (это распределение часто называют также распределением Гумбеля), то формула для вычисления вероятности P{yi = k } принимает достаточно простой вид, а именно:
T exp(xik) P{yi = k }= T T T exp(xi1)+ exp(xi2)+L+ exp(xiK ).
Заметим, однако, что если и числитель и знаменатель правой T части последнего выражения разделить на exp(xi1), то получим T T exp(xik - xi1) P{yi = k }= T T T T 1+ exp(xi2 - xi1)+L+ exp(xiK - xi1).
Следовательно, каким бы ни было значение линейной комбинации T xi1, вероятность P{yi = k } будет зависеть только от разностей T T T T (xi2 - xi1),K,(xiK - xi1). Это обстоятельство приводит к естественной нормализации, при которой полагают T xi1 = 0, i =1,K, n, так что тогда T exp(xik ) P{yi = k }= T T 1+ exp(xi2)+L+ exp(xiK ).
Такую модель разные авторы называют по-разному. Так, в книгах [Verbeek (2000)] и [Amemiya (1985)] об этой модели говорится как о мультиномиальной логит-модели (multinomial logit model). В книгах [Green (1993)] и [Davidson, MacKinnon (1993)] эта модель Модели с дискретными объясняемыми переменнымиЕ именуется условной логит-моделью (conditional logit model), а под мультиномиальной логит-моделью подразумевается модель T k exp(xi ) P{yi = k }= T T 2 T K exp(xi 1)+ exp(xi )+L+ exp(xi ), в которой объясняющие переменные специфичны только в отношении самих субъектов исследования (но не в отношении альтернатив), а специфичными в отношении альтернатив являются k T коэффициенты модели. Соответственно, здесь = (1,k,K, ) - p,k вектор коэффициентов при объясняющих переменных в представлении функции полезности для k -й альтернативы:
T k uik = 1,k xi1 +L+ xip + ik = xi + ik, i =1,K, n.
p,k Последняя модель под названием мультиномиальной логитмодели появляется и в пакете EVIEWS. Поскольку в этой модели xi не зависят от альтернативы, являясь собственными атрибутами субъекта, то T k exp(xi ( - 1)) P{yi = k }= T 2 T K 1+ exp(xi ( - 1))+L+ exp(xi ( - 1)), 2 так что эта вероятность зависит только от разностей -, K K, - 1, и для нормализации можно положить вектор равным нулевому вектору. При такой нормализации T k exp(xi ) P{yi = k }= T 2 T K 1+ exp(xi )+L+ exp(xi ).
В этом случае (условная при фиксированных xij, j =1,K, p, i =1,K, n ) совместная вероятность получения конкретного набора наблюдений y1,K, yn (конкретного набора значений 1,K, K ) равна произведению 58 Глава dik n K n K T k exp(xi ) ik = k})d = (P{yi T 2 T K 1+ exp(xi )+L + exp(xi ), i=1 k =1 i=1 k =где 1, если yi = k, dik = 0, если yi k.
Правая часть этого выражения является при фиксированных xi, i =1,K, n, функцией от вектора неизвестных параметров, 1 K = (,K, )T :
dik n K T k exp(xi ) L( ) = L( x1,K, xn)= T 2 T K 1+ exp(xi )+L+ exp(xi ), i=1 k =и эта функция как функция правдоподобия является объектом максимизации по. Результатом такой максимизации являются оценки максимального правдоподобия для векторов T k коэффициентов =(1,k,K, ), k =1,K, K.
p,k П р и м е р Рассмотрим смоделированную ситуацию, в которой, как и в последней модели, переменные специфичны только в отношении самих субъектов исследования.
Пусть xi1 1, xi2 - типичное количество посещений продуктового магазина в неделю i -й семьей (от 1 до 7), xi3 - среднемесячный доход на одного члена i -й семьи (от 50 до 250 у.е.).
Выбранная модель порождения данных имитирует поведение семей, проживающих в одном и том же многоэтажном доме и приобретающих продукты в трех продуктовых магазинах, ближайших к этому дому. Каждая семья отдает предпочтение одному из трех магазинов, так что мы имеем здесь 3 альтернативы.
Магазины различаются тремя сравнительными характеристиками:
Модели с дискретными объясняемыми переменнымиЕ ассортиментом (наименее разнообразный из трех, наиболее разнообразный из трех, промежуточный), удаленностью от дома (наибольшая, наименьшая, средняя) и уровнем цен (максимальный, минимальный, средний). Альтернативы были занумерованы числами 1,2,3 произвольным образом. В итоге была получена следующая нумерация.
Характеристики k-го магазина k Ассортимент Удаленность Уровень цен 1 Богатый Максимальная Средний 2 Бедный Минимальная Минимальный 3 Промежуточный Средняя Максимальный Предполагается, что i -я семья приписывает k -й альтернативе полезность uik, где uik = k1xi1 + k 2xi2 + k3xi3 + ik, i =1,K,1000, где ik ( i =1,K,1000, k =1, 2,3 ) - независимые в совокупности (и независимые от xij ) случайные величины, имеющие одинаковое распределение с функцией распределения G(z) = exp(- e-z), - < z <.
При этом мы используем нормализацию 11 = 0, 12 = 0, 13 = 0.
Остальные коэффициенты выбраны следующим образом:
21 = -0.8, 22 =1.0, 23 = -0.0032, 31 = -0.4, 32 = 0.3, 33 = 0.0032, так что функции полезности для трех альтернатив имеют вид ui1 = i1, ui2 = - 0.8 + xi2 - 0.0032xi3 + i2, ui3 = - 0.4xi1 + 0.3xi2 + 0.0032xi3 + i3.
60 Глава Их поведение иллюстрирует следующий график.
UUU0 --В соответствии с моделью порождения данных, i -я семья выбирает альтернативу k, если для этой семьи альтернатива k имеет максимальную полезность. В этом случае полагаем yi = k.
Результаты оценивания методом максимального правдоподобия:
Coefficient Std. Error z-Statistic Prob.
-1.655130 0.358914 -4.611496 0.1.270612 0.097636 13.01381 0.-0.001778 0.002134 -0.833304 0.-1.031242 0.327444 -3.149372 0.0.439590 0.087563 5.020273 0.0.006283 0.001957 3.211368 0. Все оцененные коэффициенты, за исключением 23, имеют высокую статистическую значимость.
Модели с дискретными объясняемыми переменнымиЕ Сравним истинные и оцененные значения коэффициентов:
Истинное Оценка значение -0.8 -1.1.0 1.-0.0032 -0.-0.4 -1.0.3 0.0.0032 0.Знаки оцененных коэффициентов соответствуют знакам истинных значений коэффициентов. Кроме того, соблюдается упорядочение значений соответственных коэффициентов, имеющих одинаковые знаки:
< 31 и < 31, > 32 и > 32.
На основании полученных оценок коэффицентов можно вычислить прогнозные значения вероятностей P{yi = k } предпочтения альтернатив k =1,2,3, полагая T k exp(xi ) P{yi = k }= T 2 T 1+ exp(xi )+ exp(xi ), и, используя эти прогнозные значения, дать предсказание номера альтернативы, которую предпочтет семья из рассматриваемого дома с заданной частотой посещения продуктового магазина и заданным уровнем месячного дохода на одного члена семьи. Можно, например, предсказывать для i -й семьи в качестве предпочтительной альтернативу k, если P{yi = k }> P{yi = l }, l k.
62 Глава Применяя такое правило к нашему примеру, получаем следующие результаты.
Pages: | 1 | ... | 3 | 4 | 5 | 6 | 7 | ... | 30 | Книги по разным темам