Аудит / Институциональная экономика / Информационные технологии в экономике / История экономики / Логистика / Макроэкономика / Международная экономика / Микроэкономика / Мировая экономика / Операционный анализ / Оптимизация / Страхование / Управленческий учет / Экономика / Экономика и управление народным хозяйством (по отраслям) / Экономическая теория / Экономический анализ Главная Экономика Экономика
С. Л. Печерский, А. А. Беляева. Теория игр для экономистов, 2001 | |
5.1. Обучение и эволюция |
|
В этой главе мы очень кратко коснемся того направления развития теории игр, которое касается моделей обучения и эволюции. Большая часть бескоалиционной теории игр фокусиру-ется на равновесии в играх и, в первую очередь, на равновесии по Нэшу и его уточнениях типа совершенного равновесия. Это, собственно, порождает вопрос о том, когда и почему мы можем надеяться на то, что наблюдаемое поведение в игре будет соответствовать одному из таких равновесий. Достаточно традиционное объяснение возникновения равновесия состоит в том, что оно является результатом анализа и самоанализа игроками в ситуации, когда правила игры, рациональность игроков, функции выигрышей игроков общеизвестны. Разумеется, и концептуально, и эмпирически здесь возникает целый ряд проблем. Во-первых, основная концептуальная проблема возникает в случае множественности равновесий, так как в отсутствие объяснения того, каким образом игроки приходят к одному и тому же равновесию, действия игроков вообще могут не соответствовать никакому равновесию. Во-вторых, крайне сомнительно, чтобы гипотеза общеизвестности выигрышей и рациональности была применима к многим играм, а ослабление этого условия, даже до лпочти общеизвестности, приводит уже к значительно более слабым заключениям. Наконец, теория равновесия очень плохо объясняет игру на ранних этапах большинства экспериментов, хотя значительно лучше ра-ботает в более поздних раундах (подробнее см., например, Fu- denberg, Levine, 1998). Исследование ограниченно рационального процесса приспособления к равновесию по Нэшу стало полем активных исследований последних лет. Появляющуюся литературу можно весьма условно разделить на две категории: обучение и эволюцию. В литературе по обучению обычно предполагается, что игроки могут вычислить наилучший ответ и проверить, как игроки совершенствуют свои представления о стратегиях своих оппонентов в фиксированном лматче. Напротив, эволюционный подход не предполагает обязательную способность оптимизировать и анализирует эволюцию поведения через пробы и ошибки и естественный отбор в популяции игроков. Как мы уже отмечали, хотя равновесный анализ доминирует в исследованиях стратегических игр, очень многих не удовлетворяет и беспокоит предположение о том, что игроки немедленно и безошибочно идентифицируют и играют определенный набор равновесных стратегий. Изучение процесса обучения является альтернативным и в некотором смысле дополняющим подходом к анализу поведения в играх. Типичный анализ рассматривает игру, разыгрываемую лповторно (неоднократно), и постулирует некоторые специфические правила, в соответствии с которыми игроки формируют ожидания, касающиеся того, каким будет текущий выбор игроков как функция предыдущих розыгрышей. Далее предполагается, что игроки пытаются максимизировать свои текущие выигрыши при данных ожиданиях; это определяет динамический процесс, порождающий последовательность розыгрышей, и анализ концентрируется на изучении поведения этой последовательности. Сходится ли такая последовательность розыгрышей? Если да, то приводит ли этот подход к поведению, предсказываемому равновесным анализом? Этот подход столь же почтенен, как и сам равновесный анализ: исследование Курно дуополии (Cournot, 1838), по существу, лявило миру и равновесие по Нэшу, и специфический процесс обучения (см. раздел 1.9). Курно исходил из того, что в каждом лраунде каждая фирма выбирает объемы производства, которые максимизируют ее прибыль в предположении (лгипотеза Курно), что конкурент продолжает выпускать тот же объем продукции, что и в предыдущем раунде. Называемая теперь лдинамикой лучшего ответа, эта динамика до сих пор привлекает внимание как одна из моделей обучения в играх (Bernheim, 1984; Moulin, 1986). В то же время представляется неразумным предполагать, что реальные фирмы будут вести себя таким специфическим образом, как это описано у Курно. Это относится к ситуации, когда динамика лучшего ответа приводит к несходящемуся, циклическому поведению, что может случиться при некоторых специфических функциях затрат и спроса. Циклы - это не единственная проблема, возникающая в моделях обучения. Например, Фуденберг и Крепе показали, что модели типа стационарного Байесова обучения, в соответствии с которым игроки анализируют прошлые наблюдения, как если бы поведение их конкурентов было стационарным, порождают такую последовательность, которая может сходиться, но к набору стратегий, отличному от любого совершенного равновесия (Fudenberg, Kreps, 1988). В действительности лрациональность каждого процесса обучения ситуативна: алгоритм, ведущий себя хорошо в некоторых ситуациях, может в других ситуациях работать скверно. Другим важным аспектом существующих моделей обуче- ния является то, что они, по сути дела, лвынуждают игроков не быть лискушенными, то есть игроки могут использовать только информацию о прошлой игре, не придавая никакого значения информации относительно информации конкурентов, выигрышей, рациональности. Подход, основанный на равновесии по Нэшу или рационализуемости, напротив, придает значение только информации о выигрышах. Реальные же игроки часто используют оба типа информации. Обратимся к играм двух лиц. Естественной точкой отсчета можно считать двух игроков, разыгрывающих игру повторяющимся образом и пытающихся предсказать игру соперника, исходя из предшествующей игры. Такую модель можно назвать моделью с фиксированными игроками (мы следуем здесь Fudenberg, Levine, 1998). В подобного рода ситуации игроки должны рассматривать не только то, каким образом будет играть в будущем оппонент, но также возможность того, что их собственная игра будет влиять на будущую игру оппонента. Например, игроки могут думать, что если они лведут себя хорошо, то будут вознаграждены лхорошим поведением оппонентов в будущем, или что они могут лнаучить своих оппонентов играть лучший ответ на определенное действие, разыгрывая его снова и снова. Рассмотрим следующую игру (рис. 1.): L R и / (1,0) (3,2) \ d ^ (2,1) (4,0)7 Рис. 1. Практически во всех моделях обучения игрок 1, игнорирующий повторяющееся разыгрывание, будет играть d, поскольку d - доминирующая стратегия, а потому максимизирует текущий ожидаемый выигрыш первого игрока при любых представлениях относительно оппонентов. Если, а это представляется правдоподобным, игрок 2 в конце концов лвыучит, что игрок 1 играет d, то система сойдется к (d, L) , причем выигрыш игрока 1 будет 2. Но если игрок 1 терпелив и знает, что второй лнаивно выбирает в каждом периоде ход, максимизирующий выигрыш в этом периоде при условии прогнозирования вторым игроком хода первого игрока, то игрок 1 может добиться большего, всегда играя и, что в конце концов лвынудит второго играть R, давая первому игроку 3. Теория обучения, как правило, абстрагируется от такого рода рассмотрений, экплицитно или имплицитно опираясь на модель, в которой стимул к попытке изменить будущую игру оппонентов слишком мал. Один класс моделей этого типа - это тот, в котором игроки ограничены в своем выборе , а дисконтирующие множители малы в сравнении с максимальной скоростью, с которой система может приспосабливаться. Второй класс моделей - это модели с большим числом игроков, взаимодействующих относительно анонимно, причем размер популяции (игроков) велик по сравнению с множителем дисконтирования. Мы можем погрузить игру двух (или п) лиц в такую лобстановку, уточняя механизм, в соответствии с которым пары игроков из популяции выбираются для разыгрывания этой игры. Здесь есть целый ряд моделей. |
|
<< Предыдушая | Следующая >> |
= К содержанию = | |
Похожие документы: "5.1. Обучение и эволюция" |
|
|