Вдокладе описывается технология обучения распределенной системы автономных мобильных роботов, учавствующей в футбольном соревновании RoboCup Soccer

Вид материалаДоклад
Подобный материал:

УДК 33(06) Экономика и управление


с.и. вОЛЬМАН, И.П. Киселев1, и.а. мИНАКОВ2,
П.О. Скобелев2

Институт проблем управления сложными системами РАН, Москва

1Московский инженерно-физический институт (государственный университет)

2НПК «Маджента Девелопмент», Москва


Изучение мультиагентного поведения распределенной системы автономных Мобильных роботов


В докладе описывается технология обучения распределенной системы автономных мобильных роботов, учавствующей в футбольном соревновании RoboCup Soccer. Рассматривается использования методов контролируемого обучения (деревья решений и искусственные нейронные сети) для разработки классификаторов действий агентов различных типов. Результаты имитационных экспериментов демонстрируют повышение производительности работы мультиагентной системы в режиме реального времени.


Целью работы является разработка технологии изучения мультиагентного поведения распределенной системы мобильных роботов для прогнозирования ее поведения и использования извлеченных знаний для управления процессом принятия решений и улучшения ее общей производительности. Разработанная технология позволяет определить успешность результата выполнения агентом операций различных типов при заданных состояниях рабочей среды и позволяет автономному роботу в режиме реального времени реагировать на ситуации согласно обученным схемам поведения. Предметом исследования является мультиагентная система мобильных роботов, участвующая в режиме реального времени в футбольной игре RoboCup Soccer против другой команды автономных роботов [1].

Особенностью работы является отсутствие готового входного набора данных для задачи обучения, что потребовало предварительной разработки комплекса сбора и подготовки данных. Использованный подход анализа мультиагентного поведения отличается от существующих способом обработки и использования изначальных протоколов действий и переговоров агентов. Для получения исходных данных вместо подготовки искусственных протоколов посредством проведения имитационных экспериментов был осуществлен анализ доступных протоколов соревнований прошлых лет. Разработанный комплекс сбора и подготовки данных выполняет анализ протоколов действий и переговоров агентов и создание сцен представления знаний, подходящих для осуществления классификации информации. Алгоритм создания сцен представления знаний включает следующие шаги: анализ протоколов действий и переговоров агентов, анализа последовательности действий агентов для выявления интересующих операций (типов “гол”, “пас”, “ведение мяча”, “удержание мяча”) из-за условия априорной неизвестности намерения робота, использование разработанных эвристических правил для идентификации успешности результата выполнения операций, трансформация значений координат из глобальной системы отчета в локальную систему агента (визуальный конус робота), и обработка данных сцены представления знаний (нормализация и дискретизация данных, обработка шума и отсутствующих значений). Так как оптимальная структура сцены представления знаний не известна (набор признаков), с целью получения наилучших результатов обучения процесс классификации данных в процессе работы осуществлялся итеративно с оценкой различных структур сцен представления знаний методом проб и ошибок.

Для обучения успешности результата выполнения агентом основных операций при заданных состояниях рабочей среды были использованы такие алгоритмы контролируемого обучения, как деревья решений и искусственные нейронные сети обратного распространение погрешности (feedforward backpropagation). Задачей обучения с контролируемым типом обратной связи является выявление определенных закономерностей во входных данных при условии существования априорных выходных значений [2]. Алгоритм детерминированного контролируемого обучения восстанавливает значения неизвестной функции, располагая правильными ее значениями для конкретных входных данных. Полученные результаты классификации действий агентов типа “пас” на нормализированном и вещественном наборе данных с использованием нейронной сети представлены ниже в следующем формате: (“% данных для обучения и проверки классификатора”; “среднеквадратическая ошибка”; “процент корректно-классифицированных данных”): (100/0; 0.1121; 85.62), (70/30; 0.1419; 79.08), (50/50; 0.1948; 75.11), (30/70; 0.2202; 71.24). Полученные результаты классификации с использованием деревьев решений представлены ниже в следующем формате: (“количество перекрестных проверок”; “процент корректно-классифицированных данных”): (5; 77.56), (10; 81.70), (0; 91.94).

Проведенные эксперименты демонстрируют лучшую производительность классификаторов при работе с вещественными данными, чем с их дискретными значениями. Ухудшение результатов обучения на дискретном наборе данных объясняется сокращением пространства решений без сохранения характеристик исходной системы. Полученные результаты обучения так же демонстрируют более высокий процент классификации успешных результатов действий агентов, что может быть объяснено более высоким присутствием соответствующих экземпляров в исходном наборе данных.

Полученные в результате работы классификаторы позволяют использовать извлеченные знания для управления процессом принятия решений и улучшения общей производительности мультиагентных роботизированных систем. Схема применения полученных знаний предполагает использование специального агента-тренера, интерпретирующего результаты обучения и консультирующего агентов в режиме реального времени. Для однозначной трактовки сообщений с рекомендациями для принятия решений была использована модифицированная семантика языка Clang [1].

Необходимым условием эффективного функционирования систем мобильных роботов в сложных динамических средах является их способность реагировать на динамику среды исполнения. Задача обучения систем мобильных роботов в режиме реального времени, когда решения принимаются агентами в условиях неопределенности, является особенно сложной и накладывает дополнительные ограничения на использование алгоритмов обучения. Дальнейшие исследования будут направлены на разработку эффективных алгоритмов извлечения знаний, способных постоянно в режиме реального времени адаптировать параметры обучаемой системы к вариациям генерируемого нестационарной средой входного сигнала. Разрабатываемый мультиагентный алгоритм интеллектуального анализа потоков данных, функционируя совместно с распределенной системой автономных мобильных роботов, должен обеспечивать быстрый отклик на изменения среды исполнения и событийное инкрементное улучшение результатов анализа.


Список литературы
  1. Stone P., “Layered Learning in Multiagent Systems: A Winning Approach to Robotic Soccer”. MA: MIT Press, 2000.
  2. Russell S. J., Norvig P., “Artificial Intelligence: Modern Approach”. New Jersey: Prentice Hall, 2003.




ISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 14