Последовательность решения многоэлементных и одноэлементных задач имеет много общего. Сначала необходимо построить компенсаторную систему стимулирования, реализующую некоторое (произвольное, или допустимое при заданных ограничениях) действие - первый этап - этап анализа согласованности стимулирования. В одноэлементных ОС в рамках гипотезы благожелательности для этого достаточно проверить, что при этом максимум целевой функции агента будет достигаться, в том числе и на реализуемом действии. В многоэлементных ОС достаточно показать, что выбор соответствующего действия является равновесной стратегией в игре агентов. Если равновесий несколько, то необходимо проверить выполнение для рассматриваемого действия дополнительной гипотезы о рациональном выборе агентов. В большинстве случаев достаточным оказывается введение аксиомы единогласия (агенты не будут выбирать равновесия, доминируемые по Парето другими равновесиями), иногда центру приходится вычислять гарантированный результат по множеству равновесных стратегий агентов и т.д. Далее следует приравнять стимулирование затратам и решить стандартную оптимизационную задачу - какое из реализуемых действий следует реализовывать центру - второй этап - этап согласованного планирования - см. также второй раздел.
В большинстве рассматриваемых в теории управления моделей стимулирования изучаются одноэлементные ОС, состоящие из одного управляющего органа (центра) и одного управляемого субъекта - агента. В настоящем разделе описывается предложенный в [14] метод, заключающийся в выборе системы стимулирования, реализующей оптимальный с точки зрения центра вектор действий агентов как равновесие в доминантных стратегиях1 (РДС) [5], что позволяет декомпозировать игру агентов и получить аналитическое решение задачи стимулирования.
Стимулирование в ОС со слабо связанными агентами. Описанные выше результаты решения задачи стимулирования могут быть непосредственно обобщены на случай, когда имеются n 2 агентов, функции затрат которых зависят только от их собственных действий (так называемые сепарабельные затраты), стимулирование каждого агента зависит только от его собственных действий, но существуют ограничения на суммарное стимулирование агентов. Такая модель называется ОС со слабо связанными агентами и является промежуточной между системами индивидуального и коллективного стимулирования.
Напомним, что равновесием в доминантных стратегиях называется такой вектор действий агентов, что каждому агенту выгодно выбирать соответствующую компоненту этого равновесия независимо от того, какие действия выбирают другие агенты - см. формальное определение ниже.
Пусть I = {1, 2, Е, n} - множество агентов, yi Ai - действие i-го агента, ci(yi) - затраты i-го агента, (yi) - стимулирование его i со стороны центра, i I, y = (y1, y2, Е, yn) - вектор действий агентов, y AТ = Ai. Предположим, что центр получает доход H(y) iI от деятельности агентов.
Пусть размеры индивидуальных вознаграждений агентов ограничены величинами {Ci}i I, то есть yi Ai (yi) Ci, i I.
i Если фонд стимулирования (ФЗП) ограничен величиной R, то есть R, то получаем (см. второй раздел), что максимальное Сi iI множество реализуемых действий для i-го агента зависит от соответствующего ограничения механизма стимулирования:
Pi(Ci) = [0, yi+(Ci)], i I.
Тогда оптимальное решение задачи стимулирования в ОС со слабо связанными агентами определяется следующим образом - максимизировать выбором индивидуальных ограничений {Ci}i I, удовлетворяющих бюджетному ограничению R, следуюСi iI щее выражение:
(R) = max)} H ( y1,..., yn), { yi Pi (Ci iI что является стандартной задачей условной оптимизации.
Отметим, что когда ФЗП фиксирован, затраты центра на стимулирование не вычитаются из его дохода. Если ФЗП является переменной величиной, то его оптимальное значение R* может быть найдено как решение следующей задачи:
R* = arg max [ (R) - R].
RПример 5. Пусть функции затрат агентов: ci(yi) = yi2 /2ri, i I, а функция дохода центра - H (y) = yi, где { }i I - положиi i iI тельные константы.
При заданных ограничениях {Ci}i I максимальное реализуемое действие каждого агента: yi+ (Ci) = 2riCi, i I. Задача свелась к определению оптимального набора ограничений {Ci }i I, удовлетворяющего бюджетному ограничению и максимизирующего целевую функцию центра:
2riCi max {Ci } iI i.
R Ci iI Решение этой задачи имеет вид:
ri iCi = R, i I.
rj j jI Оптимальный размер ФЗП равен R* = / 2. Х ri i iI Стимулирование в ОС с сильно связанными агентами. Обозначим y-i = (y1, y2, Е, yi-1, yi+1, Е, yn) A-i = Aj - ji обстановка игры для i-го агента. Интересы и предпочтения участников ОС - центра и агентов - выражены их целевыми функциями.
Целевая функция центра (, y) представляет собой разность между его доходом H(y) и суммарным вознаграждением (y), n выплачиваемым агентам: (y) = (y), где (y) - стимулироваi i i=ние i-го агента, (y) = ( (y), (y), Е, (y)). Целевая функция i-го 1 2 n агента fi(, y) представляет собой разность между стимулированиi ем, получаемым от центра, и затратами ci(y), то есть:
n (1) (, y) = H(y) - ( y).
i i=(2) fi(, y) = (y) - ci(y), i I.
i i Отметим, что и индивидуальное вознаграждение, и индивидуальные затраты i-го агента по выбору действия yi в общем случае зависят от действий всех агентов (случай сильно связанных агентов с несепарабельными затратами).
Примем следующий порядок функционирования ОС. Центру и агентам на момент принятия решения о выбираемых стратегиях (соответственно - функциях стимулирования и действиях) известны целевые функции и допустимые множества всех участников ОС. Центр, обладая правом первого хода, выбирает функции стимулирования и сообщает их агентам, после чего агенты при известных функциях стимулирования выбирают действия, максимизирующие их целевые функции.
Относительно параметров ОС введем следующие предположения:
- множество действий каждого агента совпадает со множеством неотрицательных действительных чисел;
- функции затрат агентов непрерывны, неотрицательны и yi Ai ci(y) не убывает по yi, i I; и y-i A-i ci(0, y-i) = 0.
- функция дохода центра непрерывна по всем переменным и достигает максимума при ненулевых действиях агентов.
Второе предположение означает, что независимо от действий других агентов любой агент может минимизировать свои затраты выбором нулевого действия. Остальные предположения - такие же, как и в одноэлементной модели (см. второй раздел).
Так как и затраты, и стимулирование каждого агента в рассматриваемой модели зависят в общем случае от действий всех агентов, то агенты оказываются вовлеченными в игру [5], в которой выигрыш каждого зависит от действий всех. Обозначим P( ) - множество равновесных при системе стимулирования стратегий агентов - множество решений игры (тип равновесия пока не оговаривается; единственно предположим, что агенты выбирают свои стратегии одновременно и независимо друг от друга, не имея возможности обмениваться дополнительной информацией и полезностью).
Как и в одноэлементной ОС, рассмотренной во втором разделе, гарантированной эффективностью (далее просто лэффективностью) стимулирования является минимальное (или максимальное - в рамках гипотезы благожелательности) значение целевой функции центра на соответствующем множестве решений игры:
(3) K( ) = min (, y).
yP( ) Задача синтеза оптимальной функции стимулирования заклю* чается в поиске допустимой системы стимулирования, имеющей максимальную эффективность:
* (4) = arg max K( ).
M Из результатов второго раздела следует, что в частном случае, когда агенты независимы (вознаграждение и затраты каждого из них зависят только от его собственных действий), то оптимальной (точнее - -оптимальной, где = ) является квазикомпенса i iI торная система стимулирования:
* * ci ( yi ) +, yi = yi i (5) (yi ) =, i I, i K yi yi* 0, где { }i I - сколь угодно малые строго положительные константы i (мотивирующие надбавки), а оптимальное действие y*, реализуемое системой стимулирования (5) как РДС, является решением следующей задачи оптимального согласованного планирования:
y* = arg max {H(y) - ( yi) }.
ci yA iI Если стимулирование каждого агента зависит от действий всех агентов (рассматриваемый в настоящем разделе случай коллективного стимулирования) и затраты не сепарабельны (то есть затраты каждого агента зависят в общем случае от действий всех агентов, что отражает взаимосвязь и взаимозависимость агентов), то определения множества равновесий Нэша1 EN( ) AТи РДС yd AТ имеют вид:
(6) EN( ) = {yN A | i I yi Ai N N N (yN) - ci( y ) (yi, y-i ) - ci(yi, y-i )}, i i yid Ai - доминантная стратегия i-го агента, тогда и только тогда, когда Напомним, что равновесием Нэша называется такой вектор действий агентов, что каждому агенту выгодно выбирать соответствующую компоненту этого равновесия при условии, что все остальные агенты выбирают равновесные действия.
yi Ai, y-i A-i ( yid, y-i) - ci( yid, y-i) (yi, y-i) - ci(yi, y-i).
i i Если при заданной системе стимулирования у всех агентов имеется доминантная стратегия, то говорят, что данная система стимулирования реализует соответствующий вектор действий как РДС.
Фиксируем произвольный вектор действий агентов y* AТ и рассмотрим следующую систему стимулирования:
* ci ( yi*, y-i ) +, yi = yi i (7) (y*, y) =, 0, i I.
i i 0, yi y* i В [14] доказано, что при использовании центром системы стимулирования (7) y* - РДС. Более того, если > 0, i I, то y* - i единственное РДС.
Содержательно, при использовании системы стимулирования (7) центр использует следующий принцип декомпозиции: он * предлагает i-му агенту - выбирай действие yi, а я компенсирую тебе затраты, независимо от того какие действия выбрали остальные агенты, если же ты выберешь любое другое действие, то вознаграждение будет равно нулю. Используя такую стратегию, центр декомпозирует игру агентов.
Если стимулирование каждого агента зависит только от его собственного действия, то, фиксировав для каждого агента обстановку игры, перейдем от (7) к системе индивидуального стимулирования следующим образом: фиксируем произвольный вектор действий агентов y* AТ и определим систему стимулирования:
* * ci ( yi*, y-i ) +, yi = yi i (8) (y*, yi) =, 0, i I.
i i 0, yi y* i Содержательно, при использовании системы стимулирования * (8) центр предлагает i-му агенту - выбирай действие yi, а я компенсирую тебе затраты, считая, что остальные агенты также * выбрали соответствующие компоненты - y-i, если же ты выберешь любое другое действие, то вознаграждение будет равно нулю. Используя такую стратегию, центр также декомпозирует игру агентов.
Отметим, что функция стимулирования (8) зависит только от * действия i-го агента, а величина y-i входит в нее как параметр.
Кроме того, при использовании центром системы стимулирования (8), в отличие от (7), каждый из агентов имеет косвенную информацию обо всех компонентах того вектора действий, который хочет реализовать центр. Для того, чтобы система стимулирования (8) реализовывала вектор y* как РДС, необходимо введение дополнительных (по сравнению со случаем использования (7)) предположений относительно функций затрат агентов - см. [14].
Здесь же уместно качественно пояснить необходимость введения неотрицательных констант { }i I в выражениях (5), (7) и (8).
i Если требуется реализовать некоторое действие как одно из равновесий Нэша, то эти константы могут быть выбраны равными нулю.
Если требуется, чтобы равновесие было единственным (в частности, чтобы агенты не выбирали нулевые действия - иначе при вычислении гарантированного результата в (3) центр вынужден рассчитывать на выбор агентами нулевых действий), то агентам следует доплатить сколь угодно малую, но строго положительную величину за выбор именно того действия, которое предлагается центром. Более того, величины { }i I в выражениях (5), (7) и (8) i играют важную роль и с точки зрения устойчивости компенсаторной системы стимулирования по параметрам модели. Например, если функция затрат i-го агента известна с точностью до / 2, i i то компенсаторная система стимулирования (7) все равно реализует действие y*.
Вектор оптимальных реализуемых действий агентов y*, фигурирующий в качестве параметра в выражении (7) или (8), определяется в результате решения следующей задачи оптимального согласованного планирования:
(9) y* = arg max {H(t) - (t)}, tA где v(t) = (t), а эффективность системы стимулирования (7), ci iI (9) равна следующей величине:
K* = H(y*) - (y*) Ц.
ci iI В [14] доказано, что система стимулирования (7), (9) является оптимальной, то есть, обладает максимальной эффективностью среди всех систем стимулирования в многоэлементных ОС.
Примеры. Рассмотрим несколько примеров решения задач синтеза оптимальных систем коллективного стимулирования в многоэлементных ОС.
Пример 6. Решим задачу стимулирования в ОС с двумя аген( yi + y3-i )2, i = 1, 2, где тами, имеющими функции затрат: ci(y) = 2ri - некоторый параметр, отражающий степень взаимозависимости агентов. Пусть функция дохода центра H(y) = y1 + y2, а фонд заработной платы ограничен величиной R. Если центр использует систему стимулирования (7), то задача стимулирования сводится к поиску оптимальных реализуемых действий:
H ( y) max y.
(y) + c2( y) R cПрименяя метод множителей Лагранжа, получаем, что решение имеет вид:
2R r2 + r1 * 2R r1 + r* y1 =, y2 =.
2 r1 + r2 -1 r1 + r2 -Подставляя равновесные действия агентов в целевую функцию центра, получаем, что оптимальный размер ФЗП равен (см.
также пример 5) r1 + rR* = arg max [ 2R(r1 + r2) /(1 - ) - R] =. Х R2( -1)Пример 7 (совместное производство). Рассмотрим многоэлементную двухуровневую ОС, состоящую из центра и n агентов.
Пусть целевая функция i-го агента fi(y, ri) представляет собой разность между доходом hi(y) от совместной деятельности и затратами ci(y, ri), где ri - параметр эффективности (тип) агента, то есть fi(y, ri) = hi(y) - ci(y, ri), i N.
Выберем следующий вид функций дохода и затрат:
yihi(y) = Y, i N, ci(y, ri) =, i N, i 2(ri yj ) i ji где Y = yi, =1. Для случая, когда в знаменателе стоит i iI iI ri знак Ц, предполагается, что yj <.
j i i Содержательно набор агентов может интерпретироваться как фирма, подразделения которой (агенты) производят однородную продукцию, реализуемую на рынке по цене. Суммарный доход Y распределяется между агентами в соответствии с фиксированными долями { }i I. Затраты агента возрастают по его действиям, i а эффективность деятельности определяется типом агента ri.
Pages: | 1 | ... | 9 | 10 | 11 | 12 | 13 | ... | 17 | Книги по разным темам