1 2 Альтернатива ( k ) Истинный объем группы k 146 603 Прогноз объема группы k 101 664 Здесь под группой k подразумевается группа семей (среди рассматриваемых 1000 семей), отдающих предпочтение альтернативе k.
Следующая диаграмма отображает содержимое таблицы.
Объемы групп 400 Истинные Прогнозные k Предсказанные объемы групп правильно воспроизводят упорядочение между наблюдаемыми размерами групп: в обоих случаях максимальное количество семей предпочитает альтернативу 2 и минимальное количество семей предпочитает альтернативу 1.
Хотя индивидуальные прогнозы и не являются главной целью в подобных исследованиях, мы все же приведем сводную таблицу Модели с дискретными объясняемыми переменнымиЕ количеств правильных и неправильных прогнозов для значений yi =1,2,3.
i =1 i =2 i =yi =48 26 yi =11 550 yi =42 88 Таким образом, из 1000 прогнозов правильными оказались 719, т.е.
71.9%. При этом значения yi =1 правильно прогнозируются в случаях из 146, т.е. только в 32.9% случаев, тогда как значения yi = 2 правильно прогнозируются в 91.2% случаев; значения yi = 3 правильно прогнозируются в 48.2% случаев.
П р и м е р В следующей ситуации, в отличие от предыдущих примеров, одна из переменных специфична только в отношении альтернатив, а другая зависит и от альтернативы и от субъекта.
Пусть storesk - количество магазинов в k -м (из трех) торговом центре, distik - расстояние от места проживания i -й семьи до k -го торгового центра. Выбранная модель порождения данных имитирует поведение 1000 семей, предпочитающих совершать покупки в этих трех торговых центрах. Каждая семья отдает предпочтение одному из трех торговых центров, так что мы имеем здесь 3 альтернативы. Альтернативы были занумерованы числами 1,2,3 произвольным образом.
Здесь переменная storesk специфична только в отношении альтернатив, тогда как значения переменной distik зависят и от альтернативы и от конкретной семьи.
Предполагается, что i -я семья приписывает k -й альтернативе полезность uik, uik = 1storesk + 2distik + ik, i =1,K,1000, 64 Глава где ik ( i =1,K,1000, k =1, 2,3 ) - независимые в совокупности (и независимые от storesk и distik ) случайные величины, имеющие одинаковое распределение с функцией распределения G(z) = exp(- e-z), - < z <.
Коэффициенты выбраны следующим образом:
1 = 0.6, 2 = -1.0, так что функции полезности для трех альтернатив имеют вид ui1 = 0.6stores1 - disti1 + i1, ui2 = 0.6stores2 - disti2 + i2, ui3 = 0.6stores3 - disti3 + i3.
В соответствии с моделью порождения данных, i -я семья выбирает альтернативу k, если для этой семьи альтернатива k имеет максимальную полезность. В этом случае полагаем yi = k.
Результаты оценивания методом максимального правдоподобия:
Coefficient Std. Error z-Statistic Prob.
0.932414 0.061646 15.12519 0.-1.521518 0.101902 -14.93120 0.Будем опять предсказывать для i -й семьи в качестве предпочтительной альтернативу k, если P{yi = k }> P{yi = l }, l k.
Применяя такое правило к нашему примеру, получаем следующие результаты.
1 2 Альтернатива ( k ) Истинный объем группы k 674 275 Прогноз объема группы k 681 272 Модели с дискретными объясняемыми переменнымиЕ Следующая диаграмма отображает содержимое таблицы.
Объемы групп Истинные Прогнозные З а м е ч а н и е Как мы уже отмечали выше, в рассмотренной нами мультиномиальной логит-модели, в которой объясняющие переменные специфичны только в отношении самих субъектов исследования, T k exp(xi ( - 1)) P{yi = k }= T 2 T K 1+ exp(xi ( - 1))+L+ exp(xi ( - 1)).
Отсюда вытекает, что T k P{yi = k } exp(xi ( - 1)) T k m = T m P{yi = m } exp(xi ( - 1))= exp(xi ( - )), т.е. отношение вероятностей выбора альтернатив k и m определяется только параметрами уравнений для полезностей этих 66 Глава двух альтернатив и собственными атрибутами i -го субъекта и не зависит от параметров уравнений для полезностей остальных K - альтернатив.
З а м е ч а н и е Если рассматривается условная логит-модель (с постоянными значениями коэффициентов во всех K уравнениях полезности), в которой объясняющие переменные специфичны в отношении альтернатив, то, как уже говорилось выше, в такой ситуации T exp(xik ) P{yi = k }= T T exp(xi1)+ L + exp(xiK ), так что здесь T P{yi = k } exp(xik ) T T = T P{yi = m} exp(xim )= exp((xik - xim)), т.е. отношение вероятностей выбора альтернатив k и m определяется только общим параметром уравнений для полезностей различных альтернатив и значениями в i -м наблюдении объясняющих переменных, соответствующих k -й и m -й альтернативам. Это отношение не зависит от значений в i -м наблюдении объясняющих переменных, соответствующих остальным K - 2 альтернативам. Такое свойство независимости оказывается нежелательным во многих ситуациях.
З а м е ч а н и е Пусть среди объясняющих переменных в условной логитмодели (с постоянными значениями коэффициентов во всех K уравнениях полезности) имеются переменные, специфичные только в отношении субъектов (т.е. значения этих переменных для i -го субъекта не зависят от альтернативы). Пусть, соответственно, T T T xik =(vik, wi ), Модели с дискретными объясняемыми переменнымиЕ T где vik - вектор значений для i -го субъекта переменных, значения T которых зависят от альтернативы, а wi - вектор значений для i -го субъекта переменных, значения которых не зависят от альтернативы; соответственно разбивается и вектор коэффициентов:
T T T =(, ).
Тогда T T exp(vik + wi ) P{yi = k }= T T T T exp(vi1 + wi )+L+ exp(viK + wi )= T exp(vik) = T T exp(vi1)+L+ exp(viK ), так что эта вероятность не зависит от значений переменных, специфичных только в отношении субъектов.
Чтобы (в рамках модели с постоянным вектором коэффициентов) учесть возможное влияние таких переменных на вероятности P{yi = k }, модель надо модифицировать. Одним из возможных способов модификации является создание группы дамми переменных для альтернатив (DUMMY для альтернативы k принимает значение 1, если yi = k, и принимает значение 0 в противном случае) и умножение каждой из них на переменные, не зависящие от альтернатив. Тем самым достигается изменение коэффициентов при этих переменных в зависимости от альтернатив.
1.7. Цензурированная модель регрессии (тобит - модель) Развивая пример с наличием или отсутствием у семьи собственного автомобиля, представим, что мы имеем следующие данные. Для семей, имеющих автомобиль, известна стоимость этого автомобиля si (если в семье несколько автомобилей, то si - суммарная стоимость этих автомобилей). Таким образом, здесь мы 68 Глава наблюдаем пары (xi, price _ observedi ), где xi - среднедушевой месячный доход i-й семьи, si, если i - я семья имеет автомобиль, price _ observedi = 0, если i - я семья не имеет автомобиля.
Обратимся к смоделированной выборке, состоящей из семей со среднедушевым месячным доходом от 100 до 1600 у.е. Для удобства наблюдения переупорядочены в соответствии в возрастанием xi, так что x1 x2 L x1000.
Диаграмма рассеяния для этих данных имеет весьма специфический вид:
0 600 1200 x Обращает на себя внимание большое количество точек, расположенных на оси абсцисс. Таких точек 418, и это означает, что 418 из 1000 рассматриваемых семей не имеет собственного автомобиля. В то же время среди семей, владеющих автомобилем, минимальное значение цены автомобиля равно 2002 у.е., и это может просто означать, что на автомобильном рынке, в том числе и вторичном, просто нет автомобилей с ценой менее 2000 у.е.
price_observed Модели с дискретными объясняемыми переменнымиЕ Как проводить статистический анализ подобных данных Можно попытаться, например, использовать все 1000 наблюдений и оценить по этим наблюдениям методом наименьших квадратов линейную статистическую модель price _ observedi = + xi + i.
При этом оцененная модель имеет вид Variable Coefficient Std. Error t-Statistic Prob.
C -2427.821 121.0156 -20.06205 0.X 6.915595 0.126948 54.47591 0.R-squared 0.С другой стороны, можно проигнорировать наблюдения с price _ observedi = 0 и произвести оценивание той же линейной модели только по таким наблюдениям (в количестве 582). При таком подходе получаем Variable Coefficient Std. Error t-Statistic Prob.
C -1037.189 274.4903 -3.778599 0.X 6.119677 0.233812 26.17353 0.R-squared 0.541521 Mean dependent var 5919.Следующий график позволяет сравнить значения price _ observedi, прогнозные значения, получаемые по первой модели (по наблюдениям), т.е.
pricef _1000i = + xi = -2427.821+ 6.915595 xi, и прогнозные значения, получаемые по второй модели (по наблюдениям), т.е.
pricef _ 582i = + xi = -1037.189 + 6.119677 xi.
70 Глава 0 600 1200 --PRICE_OBSERVED PRICEF_1000 PRICEF_Конечно, имея такую картину, мы вряд ли можем говорить об адекватном представлении данных этими двумя моделями.
Желательно было бы построить модель процесса, который мог породить такого рода данные. Для этой цели можно опять использовать идею латентной переменной, но в данной ситуации скорее следовало бы говорить о частично наблюдаемой переменной.
Обращаясь к той же выборке, состоящей из 1000 семей, рассмотрим линейную модель наблюдений price = + xi + i, i =1,K, n, i в которой price - цена, которую уплатила за покупку автомобиля i (автомобилей) i-я семья, если эта семья имеет автомобиль, или цена, которую уплатила бы за покупку автомобиля i-я семья, не имеющая автомобиля, если бы эта семья решила приобрести автомобиль.
Естественно предполагать, что при этом > 0, так что возрастание xi приводит в среднем к возрастанию price. Однако существенное i влияние других ненаблюдаемых факторов, объединяемых в случайную составляющую, может приводить к значительным Модели с дискретными объясняемыми переменнымиЕ отклонениям переменной price от Усредней линииФ i price = + x. Возможные отрицательные значения price i свидетельствуют о наличии факторов, в той или иной степени препятствующих планированию каких бы то ни было расходов на покупку автомобиля.
Предположим теперь, что i-я семья покупает автомобиль по цене price, если последняя превышает минимально возможную i стоимость автомобиля на рынке (первичном и вторичном), т.е.
если price >.
i В такой модели наблюдений значения переменной price i наблюдаются лишь для части наблюдений - только для семей, имеющих автомобиль. Для остальных семей известно только, что price. Такие данные называют цензурированными (в данном i случае данные цензурированы слева на уровне ), а саму модель получения этих данных называют цензурированной линейной моделью. При этом мы наблюдаем цензурированную переменную price, если price >, i i price _ censoredi =, если price.
i В нашем примере диаграмма рассеяния переменных xi, price _ censoredi принимает вид 72 Глава 0 600 1200 x Если значение известно, то вместо переменной price можно i рассмотреть переменную yi = price -.
i Значения последней также наблюдаются только для семей, имеющих автомобиль. Для остальных семей положим yi = 0, так что price -, если price >, i i yi = 0, если price.
i Диаграмма рассеяния переменных xi, yi в нашем примере имеет вид price_censored Модели с дискретными объясняемыми переменнымиЕ 0 600 1200 x Теперь мы можем поставить вопрос о подходящем методе оценивания параметров цензурированных линейных моделей.
Обычно при рассмотрении подобных ситуаций опираются на предположение нормальности распределения ошибок i.
(Впрочем, имеющиеся пакеты статистических программ позволяют проводить статистический анализ и для других распределений ошибок. Например, в пакете EVIEWS допускается использование вместо нормального распределения ошибок логистического распределения и распределения экстремальных значений первого типа.) Будем предполагать, что мы имеем дело с некоторым показателем yi, значения которого наблюдаются только при условии yi > 0 (в нашем примере в качестве такого показателя выступала переменная price - 2000 ). Пусть в правую часть модели i для этого показателя включаются p объясняющих переменных (показателей, характеризующих i-й субъект), т.е.
y = 1xi1 +L + xip + i, i =1,K, n, p i y 74 Глава и ошибки 1,K,n - независимые в совокупности (и независимые от xij, j =1,K, p ) случайные величины, имеющие одинаковое нормальное распределение i ~ N(0, ). Наблюдаемыми являются значения xij, j =1,K, p, i =1,K, n, и значения переменной yi, y, если y > 0, i i yi = 0, если y 0.
i О такой цензурированной модели регрессии говорят как о стандартной тобит-модели (tobit model).
В стандартной тобит-модели для фиксированных значений xij, j =1,K, p, имеем y ~ N(1xi1 +L+ xip, ), p i и E(y xij, j = 1,K, p)= 1xi1 +L+ xip, p i т.е.
T E(y xi)= xi, i где, как и ранее, обозначено xi = (xi1,K, xip)T, = (1,K, )T. В p нашем примере значение коэффициента определяет изменение j ожидаемой суммы расходов на (возможную) покупку автомобиля для семьи с вектором показателей xi = (xi1,K, xip)T при увеличении на единицу значения j -го показателя.
Если для оценивания коэффициентов использовать только j наблюдения с yi > 0, то получаем усеченную модель регрессии yi = 1xi1 +L+ xip + i, i =1,K,n1, p где n1 - количество семей, имеющих автомобиль (среди всех n рассматриваемых семей). Конечно, при переходе к усеченной Модели с дискретными объясняемыми переменнымиЕ модели придется заново перенумеровать используемые nнаблюдений. В такой модели для значений w > 0 имеем P{0 < y w}, i P{yi w}= P{y w y > 0}= i i P{y > 0} i где T T T - xi y xi w - xi i P{0 < y w}= P < = i T T w - xi - xi = - и T T T T y - xi w - xi - xi xi P{y > 0}=1- P i =1- =.
i Если взять теперь производную dP{yi w} dw, то получим функцию плотности распределения случайной величины yi (условного при заданном xi ):
T T 1 w - xi xi pyi (w) =.
Отсюда получаем выражение для условного математического ожидания yi :
T xi T E(yi xi)= (w)dw = xi +, yi wp где обозначено (z) = (z) (z).
Таким образом, E(yi xi) - нелинейная функция от xi и, T причем E(yi xi)> xi.
76 Глава Рассмотрим теперь другой подход к оцениванию коэффициентов исходной модели y = 1xi1 +L + xip + i, i =1,K, n, p i при котором неполные наблюдения не отбрасываются, а учитываются при оценивании. В рамках этого подхода мы берем в качестве объясняемой переменную T T xi + i, если xi + i > yi =.
T 0, если xi + i В этом случае T xi xiT T P{yi = 0 xi}= P{ -xi }= - = 1-, i а для w > T T T yi - xi w - xi w - xi P{yi w xi}= P =.
Это приводит к следующему выражению для условного математического ожидания yi :
Pages: | 1 | ... | 4 | 5 | 6 | 7 | 8 | ... | 30 | Книги по разным темам