Варшавский В. И., Поспелов Д. А

Вид материалаДокументы

Содержание


Рii характеризуют вероятность того, что на следую­щем шаге автомат будет взаимодействовать с той же средой ei
М* — время жизни автомата с начальным сос­тоянием j при оптимальном переключении им сред, d(i) —
Подобный материал:
1   2   3   4   5   6   7   8   9   ...   13
§ 2.5. Как жить в динамическом мире?

До сих пор мы рассматривали стационарную сре­ду. Этакий застывший и неизменный мир. Такой мир возможен только в эксперименте. А в жизни любое животное живет в постоянно меняющейся среде. И задача выживания в динамическом мире куда слож-нее, чем адаптация к застывшему навеки стационар­ному миру. Законы изменения параметров внешней среды могут быть самыми различными. Трудно даже

40

Перечислить их виды. Поэтому при описании дина­мической среды мы поступим следующим образом. Рассмотрим k различных стационарных сред E1, E2, ..., Ek. И будем считать, что каждая такая среда представляет собой как бы мгновенную фото­графию состояния динамической среды. Эти фотогра­фии, меняясь, как кадры кинофильма, воссоздадут нам динамическую среду. На рис. 2.6 показано вза­имодействие автомата с таким миром.


К
оммутатор как бы подключает зверушку к той или иной стационарной среде. Как характеристики этих сред, так и законы работы коммутатора авто­мату заранее неизвестны. Адаптация состоит теперь не только в оценке значений Рi в степени m, где верхний индекс характеризует среду Ет, а и в определении законо­мерности смены сред коммутатором.

В' дальнейшем мы рассмотрим лишь один частный случай работы коммутатора. Связано это с тем, что в теории коллективного поведения именно он оказал­ся изученным наиболее глубоко. Остальные более сложные случаи еще ждут своего анализа. Предпо­ложим, что коммутатор производит подключение ста­ционарных сред на основании некоторой таблицы (матрицы), имеющей k строк и k столбцов. Элемент Pij, стоящий на пересечении i-й. строки этой таблицы и ее j-го столбца, есть вероятность того, что после среды Ei, воздействовавшей на вход автомата, к не­му будет подключена среда Ej. Элементы вида

41

Рii характеризуют вероятность того, что на следую­щем шаге автомат будет взаимодействовать с той же средой ei, что и на предшествующем шаге. Подоб­ную динамическую среду можно назвать переключающейся. Если подбирать значения Рij надлежащим образом, то переключающаяся среда может достаточно хорошо описывать многие динамические среды.

Что же изменяется при переходе зверушки в пе­ременчивый мир переключающейся среды? Остаются ли верными те основные положения, которые мы смогли постулировать при описании поведения в зас­тывших стационарных мирах?

Рассмотрим сначала ситуацию, часто встречаю­щуюся в русских народных сказках. Иванушка-дура­чок встречает свадьбу. И он начинает громко при­читать и плакать. Такое неадекватное поведение вы­зывает мгновенную реакцию. Жестоко битый Ива­нушка через некоторое время встречает похорон­ную процессию. Помня о своей неудаче, он начинает весело смеяться и плясать. И снова жестокая кара постигает простодушного героя. Он снова бит. Если свадьбы и похороны чередуются в строгом по­рядке, а Иванушка-дура­чок имеет единичную глу­бину памяти, то, как пока­зывает схема на рис, 2.7,

б
ыть ему всегда битому. Ибо действует он в противофазе с работой коммутатора, переключающего среду Ei = (l, 0) на среду Е2 = (0, 1) так, что каждый раз действие Иванушки вызывает сигнал наказания С вероятностью, равной единице. Если бы коммута­тор переключал среды не жестко детерминированно, а с некоторыми вероятностями, то на долю Ива­нушки выпадали бы и счастливые минуты. Он причитал и плакал бы на похоронах, а смеялся и пля­сал на свадьбах, хотя и в этих условиях ему прихо­дилось бы попадать в глупое положение и быть бито­му. Первое, что приходит в голову при анализе тяже­лой судьбы Иванушки, это то, что он действует, как автомат с малой глубиной памяти. Он не обладает инерционностью, которая была благом для автоматов, действующих в случайных средах. Но правы ли мы были, если бы поторопились с таким заключением?


42

В
едь если в динамическом мире смена ситуаций про­исходит с большой частотой, то инерционность вряд ли может служить хорошим средством для существования в этом мире. В'едь в динамическом мире надо быстро, оперативно следить за возникающими изменениями среды. И для каждого динамического мира нужна своя наилучшая глубина памяти, выбранная в зави­симости от скорости изменения обстановки, а вовсе не по принципу «чем больше, тем лучше». Это озна­чает, что не приходится и мечтать о том, что рас­смотренные нами конст­рукции зверушек будут вести себя целесообразно во всех динамических средах. И эксперименты неумолимо свидетельст­вуют об этом. На рис. 2.8 можно увидеть результа­ты одного такого экспе­римента. Он проводился с помощью ЭВМ. Испы­тывались автоматы с ли­нейной тактикой, имею­щие различное число со­стояний в лепестках. Для простоты считалось, что автоматы могут выбирать

одно из двух действий. Переключающаяся среда была устроена тоже достаточно просто. Она состояла из двух стационарных сред, отличающихся друг от дру­га перестановкой вероятностей штрафов за действия (и этим она была похожа на пару сред в сказке об Иванушке-дурачке). В первой среде за первое действие вероятность штрафа была весьма велика, а за второе действие мала. В другой среде эти ве­роятности относились уже ко второму и первому действиям, т. е. ситуация была обратной. Обозначим через б вероятность смены сред (значения этого па­раметра надписаны над кривыми, показанными на рис. 2.8). По оси абсцисс отложена глубина памяти автомата, а по оси ординат — математическое ожи­дание накапливаемого штрафа.

Результаты эксперимента ясно показывают, что для каждого значения б существует своя оптимальная глубина памяти автомата с линейной тактикой, при

43


которой накапливаемый штраф минимизируется. Аналогичную картину можно наблюдать и при ис­пользовании в переключающейся среде автоматов других конструкций, целесообразно ведущих себя в стационарных случайных средах.

Итак, в динамических средах найденные нами конструкции автоматов оказываются не самыми лучшими. И единственный выход из этого положе­ния — использовать какую-нибудь гибкую конструк­цию, которая изменяется вместе с тем миром, где она функционирует.

Ученики и продолжатели дела М. Л. Цетлина предложили несколько конструкций зверушек, спо­собных целесообразно функционировать в динами­ческих средах. Самой известной из них является предложенная одним из авторов этой книги модель автомата с переменной структурой.

Предположим, что вы на своей автомашине еже­дневно добираетесь из дома на работу. В вашем рас­поряжении есть два возможных маршрута, и вы вольны выбирать любой из них. Так как вы всегда выезжаете в одно и тоже время, то обстановка на каждом из маршрутов как бы стационарна. И, ана­лизируя эту обстановку, вы убедились, что один из маршрутов лучше другого: времени тратится мень­ше — движение здесь менее интенсивное, чем по другому маршруту, да и светофоров не так много. Но вот беда. Время от времени из-за каких-то стро­ительных работ движение здесь резко снижается, образуются пробки, и можно потерять много време­ни, пока они ликвидируются. В этих условиях данный маршрут становится намного хуже другого. Вы бы потеряли куда меньше времени и не опоздали бы на работу, выбрав в эти неудачные дни другой мар­шрут. Если нет никакой информации о частоте строительных работ на трассе первого маршрута, то при выезде из дома нет никаких шансов угадать, по какому маршруту лучше сегодня ехать. Однако день за днем вы накапливаете некоторую информа­цию. Учитесь на своем горьком опыте. Выясняется, что чаще всего пробки образуются в среду и пятни­цу и вероятность этих пробок достаточно велика. Тогда, выбирая в остальные дни недели первый маршрут, вы в среду и пятницу без колебаний вы­бираете менее хороший маршрут поездки.

44

Этот пример мы привели для того, чтобы у читателя возникли необходимые ассоциации с поведением автомата с переменной структурой в переключающейся среде. Опишем теперь его структуру и функционирование на более строгом уровне.

В
ернемся снова к автомату с линейной тактикой показанному на рис. 2.3. Его структура может был задана в виде двух матриц, определяющих смену состояний при получении сигнала нештраф и при получении сигнала штраф. Каждая такая матрица содержит 12 строк и 12 столбцов по числу различных состояний автомата. И в каждой строке этих мат­риц имеется одна единица, показывающая, как осу­ществляется переход. Выписывание этих матриц слишком громоздко. По­этому вместо автомата с четырьмя состояниям
и в каждом лепестке и тре­мя действиями рассмот­рим автомат с линейной тактикой с двумя состояниями в лепестке и двумя действиями (рис. 2.9) Для такого автомата матрицы имеют вид


Эти матрицы определяют детерминированную струк­туру нашего автомата. Если автомат вероятностный (как, например, упоминавшийся нами автомат В. И. Крылова), то вместо единиц и нулей в матри­цах П+ и П- будут стоять значения вероятностей смены состояний. Если, например, автомат с линей­ной тактикой, показанный на рис. 2.9, заменить ав­томатом В. И. Крылова, то соответствующие матрицы примут вид





В отличие от детерминированного и вероятностно­го автоматов, у которых матрицы П+ и П- в процес­се их функционирования остаются неизменными, для

45

автомата с переменной структурой П+ и П- не постоянны. В зависимости от результатов функцио­нирования (наказаний или поощрений, получаемых от среды) автомат меняет свою структуру.

В
начальном периоде своей работы такой автомат находится в «безразличном» состоянии, когда вероят­ности всех переходов между состояниями для него абсолютно одинаковы. Для условий, показанных на рис. 2.9, это соответствует тому, что начальный вид матриц смены состояний для автомата с переменной структурой задается следующим образом:


Пусть для определенности начальным состоянием автомата было состояние с номером 1 и автомат, вы­полнив действие d1, соответствующее этому состоя­нию (см. рис. 2.9), с помощью равновероятного вы­бора по матрице П+ перешел в состояние 4. И пусть после этого он получил сигнал штраф. Получение подобного сигнала заставляет автомат считать свой переход 1-->4 при нештрафе за действие d1 ошиб­кой. Эта информация фиксируется следующим обра­зом. Вероятность П14+ уменьшается на некоторую ве­личину А. Но сумма вероятностей в любой строке матрицы должна быть равна 1, и поэтому уменьше­ние П14+ на Дельту должно привести к увеличению всех

о
стальных вероятностей в этой строке, например, на величину Дельта/3, что позволит сохранить нормировку строк. Если взять Дельта== 0,03, то после этого шага мат­рица П- останется прежней, а матрица П+ примет вид


На очередном шаге автомат делает действие d2, соответствующее состоянию 4, и выбирает очередное состояние на основании матрицы П- (так как в те­кущем акте общения со средой он находится в ус­ловиях последнего сигнала от среды—штрафа).

46

Пусть он выбрал переход 4—>4 и вновь получил штраф. Теперь уже меняется матрица П-, а матри­ца П+ остается неизменной. В матрице же П- четвертая строка приобретает вид (0,26 0,26 0,26 0,22). На очередном шаге взаимодействия автомат опять использует вероятностный переход по матрице П-, и в зависимости от оценочного сигнала меняют­ся значения вероятностей в четвертой строке матрицы и совершается очередной выбор либо по матрице П- (если последний пришедший оценочный сигнал был наказанием), либо по матрице П+.

Так постепенно происходит перестройка матриц П+ и П- в зависимости от сигналов, формируемых средой. Возникает вопрос: будут ли эти матрицы стремиться к какому-нибудь устойчивому значению, например к матрицам из нулей и единиц, соответст­вующих автомату с линейной тактикой, или какому-либо другому автомату, целесообразно ведущему себя в стационарных случайных средах? Если бы от­вет был положительным, то это означало бы, что из механизма случайного выбора мы могли бы. фор­мировать структуру зверушки, целесообразно функ­ционирующей в статических случайных средах. Ко­нечно, тот или иной ответ на поставленный нами вопрос зависит от тех законов изменения элемен­тов в П+ и П-, которые мы будем использовать.

Что же показали проведенные исследования? Ока­залось, что линейные законы изменения переходных вероятностей Пij в матрицах П+ и П-, описанных выше, не всегда приводят к оптимальным кон­струкциям, подобным автоматам В. И. Кринского или Г. Роббинса. Но если ввести нелинейное измене­ние элементов указанных матриц, то исходные «раз­мазанные» матрицы с одинаковыми значениями Пij сходятся к матрицам из нулей и единиц, соответствующих автоматам, наилучшим образом ведущих себя в стационарных случайных средах.

Но не это главное. В стационарных случайных средах нет нужды тратить время на обучение авто­мата с переменной структурой, ибо заранее известны конструкции, успешно решающие в этих средах поведенческие задачи. Главное — поведение в дина­мических и, в частности, в переключающихся средах. Что дает использование автоматов с переменной структурой здесь?

47

Вернемся к рис. 2.8. Как мы уже знаем, для авто--матов с линейной тактикой существует оптимальное значение глубины памяти, зависящее от скорости пе­реключения стационарных сред, при котором сум­марный штраф, накапливаемый автоматом, становит­ся минимальным. Но глубина памяти тесно связана с вероятностью пребывания автомата на том или ином лепестке и, следовательно, с вероятностью вы­полнения того или иного действия. Для автоматов с переменной структурой экспериментально (путем моделирования перестройки их структуры на ЭВМ) получен следующий фундаментальный результат:

с течением времени функционирование автомата с переменной структурой в переключающихся средах, в которых автомат с линейной тактикой действует целесообразно, неограниченно приближается к фун­кционированию автомата с линейной тактикой, обла­дающему оптимальной глубиной памяти. Другими словами, автомат с переменной структурой сам на­ходит эту оптимальную глубину памяти. Это весьма важно, так как значение qопт, показанное на рис. 2.8, нельзя априорно определять аналитическим путем, а оно должно подбираться в процессе фун­кционирования в среде, на что автомат с линейной тактикой просто неспособен.

И еще одно. Вспомним наш пример с Иванушкой-дурачком. Нетрудно подобрать многочисленные при­меры переключающихся сред, в которых эффект непрерывного битья все время будет преследовать автомат с линейной тактикой. Только он подстро­ится под определенную среду, как среда уже изме­нилась, и битье продолжается. Для этого достаточно условия, что среда переключается быстрее, чем ав­томат покидает свой лепесток и переходит на другой. Если бы заяц менял окраску шкурки в противофазе со сменой зимы и лета, затрачивая на это время, соизмеримое с полугодом, то он давно бы исчез с лица земли. Для автомата с переменной структу­рой подобного положения не существует. Как было сказано в одной из первых работ по таким автома­там, «миниальный штраф выплачивается в том слу­чае, когда за вчерашние грехи сегодня награждают и в том случае, когда грехи остаются грехами».

В заключение этого параграфа приведем резуль­тат одного эксперимента с автоматом с переменной

48

структурой, имеющим восемь состояний и моделирую­щим поведение в среде, в которой автомат с линей­ной тактикой имел бы оптимальную глубину памя­ти, равную двум. Этот результат приведен на рис. 2.10. По оси абсцисс на этом рисунке отложено число тактов взаимодействия автомата со средой, а по оси ординат — средняя величина штрафа в рас­чете на одно взаимодействие. Горизонтальная пунк­тирная прямая соответствует значению м
атемати­ческого ожидания штрафа для автомата с линейной тактикой с глубиной памяти, равной двум. Как мы видим, автоматы с переменной структурой на началь­ном этапе весьма быстро приближаются к наилучше­му режиму работы автомата с линейной тактикой, а потом неуклонно асимптотически стремятся к этому оптимуму.

Такая явная связь между автоматами с линейной тактикой и с переменной структурой наводит на мысль о естественности этих конструкций, об их «эволю­ционной» связи.

И еще одно интересное наблюдение. Автомат с переменной структурой все время стремится уйти от штрафа, уйти в область благоприятных для себя действий. Это значит, что он чаще получает поощре­ния, а не наказания (если только среда не устроена так, что наказания в ней имеют значительно большую

49

вероятность, чем поощрения). А это в свою очередь означает, что матрица П+ изменяется сильнее, чем П-. Автомат как бы настраивается на хорошее функционирование в благоприятных мирах. К фун­кционированию в таких условиях он лучше адаптирован.

Поведение автоматов в стационарных средах мы сравнивали с результатами экспериментов по альтер­нативному выбору решений людьми. Аналогичные эксперименты были проведены теми же авторами (М. А. Алексеев, М. С. Залкинд, В. М. Кушнарев) и в случае переключающихся сред. В процессе экспери­мента по нажатию кнопок без ведома испытуемого происходило переключение среды. Если в пред­шествующий период (75—100 нажатий кнопок) имела место среда с E1==(0,8, 0,2), то на следую­щий период нажатий она сменялась на среду с Е2==(0,2, 0,8). Каков же результат этого экспе­римента? Вывод, к которому пришли эксперимента­торы, оказался парадоксальным. Человек в среднем лучше решает задачу адаптации к переключающейся среде, чем задачу для стационарной среды. Вернем­ся снова к рис. 2.5. При решении задачи в случае стационарной среды человек время от времени отка­зывается от хорошего выбора и как бы пробует, что получится, если сменить стратегию. И это характерно для любого испытуемого. Что кроется за этим фено­меном? Наиболее ярко он проявляется, когда пред­почтительность того или иного выбора близка к предельной. При близких вероятностях штрафа за выбор кнопки уходы с предпочтительной страте­гии более редки. А чем яснее и проще решение, тем менее устойчиво поступает человек. Какая особен­ность его психики скрывается за этим? Почему в стационарной среде с Е = (0,8, 0,2) процент по­ощрений равен 62%, а в переключающейся среде, где E2 =(0,2, 0,8), он равен 72%? И это только на 1% ниже того, что достигает в данной динамической среде автомат с линейной тактикой с оптимальной глуби­ной памяти. Ответов на поставленные вопросы пока нет. Это еще один аргумент в пользу того, что поведение человека зачастую не только не опти­мально, но и нецелесообразно. В сложном мире от зверушки до человека огромная качественная дис­танция.

50


§ 2.6. «Доживем до понедельника»

Так назывался известный фильм из школьной жизни. Но то, о чем мы хотим поговорить здесь, ничем кроме названия не ассоциируется с этим дав­ним фильмом. У нас речь пойдет о возможности ор­ганизации зверушкой такого управления внешней средой или приспособления к ней, которое обеспе­чивает ей максимальный срок «жизни». Однако прежде нам нужно дать содержательную постанов­ку задачи, а уже затем ее формальное описание.

Биологами хорошо исследована модель охоты летучих мышей, в частности, охота на ночных бабо­чек, способных воспринимать локационный ультра­звуковой сигнал летучих мышей. Экспериментальный материал, относящийся к этой ситуации, можно сум­мировать следующим образом.

Летучая мышь испускает с помощью своего голо­сового аппарата направленный ультразвуковой сиг­нал. Встретив препятствие, сигнал отражается от него. Летучая мышь способна улавливать отражен­ный сигнал и с большой скоростью и точностью различать и идентифицировать его, что позволяет отличать неподвижные цели от подвижных, отра­жения от поверхности земли от отражений от воз­душных целей, большие размеры от малых (на­пример, отраженные сигналы от летящих птиц и комаров). Кроме того, отраженный сигнал позволяет летучей мыши с весьма большой точностью опреде­лять направления и расстояния до потенциальных целей.

Ночные бабочки в свою очередь способны принять локационный сигнал летучей мыши, определить местоположение источника, из которого был послан сигнал, а также определить интенсивность последне­го. Поведение ночной бабочки различно в зависи­мости от того, как далеко от нее находится летучая мышь и сколь интенсивен сигнал. Если расстояние достаточно велико или интенсивность мала, то ноч­ная бабочка производит маневр, направленный на уход от летучей мыши. В экспериментальных ситуа­циях наблюдалось три способа выполнения такого маневра. Либо бабочка разворачивалась и двигалась в сторону, противоположную своему предшествую­щему движению, либо она использовала маневр

51


в вертикальной плоскости, уходя со своего прежнего курса вверх или вниз. Если же расстояние до лету­чей мыши было мало или интенсивность локацион­ного сигнала была очень велика, то ночная бабочка переходила на хаотический полет. Это происходит потому, что органы слуха бабочки в таких условиях начинают работать в режиме насыщения, и бабочка уже не может определить положение летучей мыши и направление ее движения. Хаотический полет состо­ит из чередования пассивного падения со сложенны­ми крыльями, крутых поворотов, петель, пикирова­ния. Другими словами, бабочки переходили на такую траекторию полета, которая максимально затрудня­ла для нападающего предсказание последующей то­чки на этой траектории. Интересно, что, как показы­вают эксперименты, более чем в 70% случаев хаоти­ческое движение оказывалось для ночных бабочек спасительным.

Попробуем формализовать описанную ситуацию, несколько упростив ее. Это упрощение не является принципиальным. На основе той упрощенной модели, которую мы опишем, ряд исследователей построил совсем не игрушечные модели «преследуемый — преследователь», в том числе и для моделирования поведения ночной бабочки, спасающейся от летучей мыши.

Посмотрим на рис. 2.11. На нем изображен граф смены состояний некоторого вероятностного автома­та. Его особенность состоит в том, что для каждой группы состояний (на рисунке группы состояний оконтурены пунктирными линиями) имеется ненуле­вая вероятность перейти в особое состояние, в ко­тором автомат погибает (на рисунке оно заштрихо­вано). Состояния можно интерпретировать, например, следующим образом: 1 — летучая мышь производит поиск и с вероятностью 0,3 обнаруживает бабочку, а с вероятностью 0,7 пропускает ее (для первой группы состояний); 2—летучая мышь определяет направление своего движения и расстояние до жерт­вы, причем с вероятностью 0,8 цель при этом не теряется; 3 — летучая мышь настигает бабочку и уничтожает ее с вероятностью 0,95. Что же может противопоставить преследователю бабочка? В чем заключаются ее действия? Будем рассматривать каж­дую группу состояний автомата как определенную

52

с
реду, задаваемую той стратегией бабочки, которой она придерживается. Трем группам состояний, пока­занных на рис. 2.11, можно, например, соотнести следующие стратегии: прямой полет (E1), пикирова­ние или кабрирование (E2) и хаотическое движе­ние (Ез). Действия бабочки сводятся к смене сред, переключению их. При этом бабочка может реали­зовать действие лишь в состояниях 2 и 3. На рис. 2.11 эти действия показаны двойными стрелками

переходов. В остальных состояниях бабочка выдает в среду нейтральный сигнал (другими словами, не меняет своих действий). После ухода от летучей мыши бабочка опять возвращается к движению по горизонтальной траектории, обеспечивающей ей возможность выполнения ее жизненного назначе­ния — продолжения потомства. Эти переходы — действия на рисунке не показаны, чтобы не загромож­дать картину погони, которую мы анализируем.

В примере с ночной бабочкой и летучей мышью картина весьма прозрачна. Действия по переключе­нию сред, показанные на рис. 2.11, позволяют ба­бочке максимально увеличить вероятность своего спасения. Однако в общем случае выбор оптималь­ной последовательности переключении, максимизи­рующей время жизни автомата, далеко не тривиален.

53


Пусть, например, как и в нашем примере, имеется три случайных среды, которые автомат может переключать своими действиями. И пусть имеется три обычных состояния и три поглощающих (летальных), в которых автомат погибает. Первые три мы, как и ранее, будем обозначать цифрами 1, 2, 3, а погло­щающие состояния — цифрами 4, 5, 6. Вместо рисун­ка, подобного рис. 2.11, зададим три матрицы переходов автомата в трех возможных средах (табл 2.1)


Таблица 2.1













Состо

ЯНИЯ







Среда

Состояния

1

2

3

4

5

6




1

0,9







0,1










2

0,95










0,05




Е1

3 4

0,8







1




0,2




5













1







6
















1




1




0,9




0,1










2




0,7







0,3




E2

3 4




0,95




1




0,05




5













1







6
















1




1







0,9

0,1










2







0,92




0,08




E3

3 4







0,7

1




0,3




5













1







6
















1


В
табл. 2.1 указаны только ненулевые значения переходных вероятностей Пиij. Если начальное сос­тояние автомата есть i (i== 1, 2, 3), то время жизни автомата можно вычислить по формуле


Здесь М* — время жизни автомата с начальным сос­тоянием j при оптимальном переключении им сред, d(i) — значение функции выхода автомата для сос­тояния с номером i, т. е. номер той среды, на кото­рую автомат переключает в этом состоянии текущую среду, Пиij(d(i)) — переходные вероятности смены со­стояний в среде с номером d(i). Очевидно, что опти­мальное переключение d*(i) будет достигнуто тогда, когда будет получен maxМj для всех j (или max min Mj,

Мы не рассчитываем на то, что читатель будет в состоянии выдержать аналитические выкладки, лежа­щие в основе процедуры построения оптимального переключения. Отметим только, что такая процедура существует. И строго показано, что она позволяет автомату вероятностного типа осуществлять поиск оп­тимального способа переключения сред. Для подго­товленного читателя укажем лишь на то, что, по сути своей, эта процедура есть модификация схемы дина­мического программирования Беллмана. Для нашего примера оптимальное переключение задается сле­дующей функцией выхода: d{1)=3, d(2)==3, d(3)=2. При этом M3*= 15,47; М2*=15,23;

M1*=13,92. Общее время жизни автомата, выполняю­щего переключение сред, в полтора раза больше времени его жизни в пассивном режиме. А, значит, ночная бабочка совсем не зря тратит усилия на сме­ну стратегии своего полета.

§ 2.7. От индивида к коллективу

Итак, мы познакомились с конструкциями зверу­шек, способных взаимодействовать с довольно слож­но организованными средами. Правда, модели, кото­рые мы обсудили, чрезвычайно упрощенно описывали это взаимодействие. Весьма бедным был ассортимент оценочных сигналов за действия, скудна информация, используемая для адаптации, примитивны средства организации взаимодействия со средой. Но к такому обеднению мы прибегли сознательно. Ибо нашей це­лью было показать, что, даже в условиях почти пол­ного отсутствия информации о структуре поведения и о структуре среды, автономные подсистемы могут до­стигать поставленных перед ними целей. В последую­щих разделах книги мы время от времени будем «обогащать» зверушек, наделяя их более широкими возможностями, чем в данной главе. Однако основная Ваша цель—не исследование способностей подобных

65


устройств и эволюции их развития, а изучение пове­дения коллектива из таких устройств.

Нас будут интересовать проблемы взаимодей­ствия зверушек между собой, организация их в со­общество, способное достигать общих целей, согла­сование личных целей участника сообщества с целью всего коллектива, распределение функций и ресурсов между совместно функционирующими участ­никами общего дела.

Прежде чем перейти к решению этих проблем, остановимся на той концептуальной схеме, которая будет лежать в основе всех наших дальнейших рассуждений. Читатель легко соотнесет ее с моделями, которые обсуждались нами в гл. 1 нашей книги. Эта модель изображена на рис. 2.12. Коллектив из





k автоматов взаимодействует со средой. Каждый из них делает это самостоятельно, не зная не только о действиях других членов коллектива, но и об их существовании. Для каждого автомата остальные участники коллектива как бы растворяются в среде, выступают по отношению к данному автомату как часть среды. Если в некотором такте взаимодействия автоматы зафиксировали свои действия, то среда воспринимает их как комбинированное воздействие, описываемое набором (di11, di22, ..., dikk), где верхний индекс указывает номер автомата в коллективе, а нижний — выбранное им действие. Среда может фор­мировать оценочные сигналы на автомат либо на основании действий некоторой части или всех автома­тов, либо на основании действий только данного ав­томата. Во втором случае коллектив разваливается и вся задача коллективного поведения сводится к рассмотрению k независимых друг от друга задач индивидуального поведения. Этот крайний случай не представляет интереса, и в дальнейшем мы его ис­следовать не будем. В первом же случае среда может как-то регулировать совместное воздействие автома­тов и он представляет для нас принципиальный ин­терес.

Иногда мы будем рассматривать модели коллек­тивного поведения, в которых, помимо среды, авто­маты непосредственно общаются между собой. На рис. 2.12 эта возможность отражена в наличии неко­торых специальных механизмов непосредственного обмена между автоматами, образующими коллектив.

И, наконец, вполне правомерно рассматривать все k автоматов и механизм непосредственного об­мена (если он существует) как подсистемы некоторо­го организма, взаимодействующего со средой. Та­кая трактовка в ряде конкретных моделей будет нами использована в последующих главах книги.

Авторы чувствуют, что у читателя готовы сорвать­ся с языка веские возражения против предлагаемой концептуальной модели взаимодействия в коллекти­ве. Ограничение на общение между участниками кол­лектива кажется весьма надуманным и резко сни­жающим эффективность функционирования всей системы. Но мы еще раз подчеркиваем принципиаль­ность этой схемы в рамках тех моделей, которым посвящена данная книга. В условиях невозможности полного обмена информацией о действиях, отсут­ствия центрального управляющего органа и резкого ограничения на время принятия решений по выбору действий предлагаемая модель все-таки оказывается, как будет видно из дальнейшего, вполне работоспо­собной.