Isbn 5-7262-0634 нейроинформатика 2006
Вид материала | Документы |
СодержаниеОписание системы Генерация правил Распознавание образов Принятие решений |
- Isbn 5-7262-0634 нейроинформатика 2006, 188.49kb.
- Isbn 5-7262-0634 нейроинформатика 2006, 96.9kb.
- Isbn 5-7262-0634 нейроинформатика 2006, 95.41kb.
- Isbn 5-7262-0634 нейроинформатика 2006, 112.72kb.
- Isbn 5-7262-0634 нейроинформатика 2006, 104.27kb.
- Isbn 5-7262-0634 нейроинформатика 2006, 75.04kb.
- Isbn 5-7262-0634 нейроинформатика 2006, 165.42kb.
- Isbn 5-7262-0634 нейроинформатика 2006, 93.81kb.
- Isbn 978-5-7262-1377 нейроинформатика 2011, 107.92kb.
- Isbn 978-5-7262-1226 нейроинформатика 2010, 142.85kb.
ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 2
М.В. КАРАВАЕВ, А.А. ЖДАНОВ
Институт системного программирования РАН, Москва
maksim@ispras.ru, alexander.zhdanov@ispras.ru
ПОСТРОЕНИЕ НЕЧЕТКИХ КОНТРОЛЛЕРОВ
ПО МЕТОДОЛОГИИ АВТОНОМНОГО
АДАПТИВНОГО УПРАВЛЕНИЯ
Аннотация
Рассматривается метод построения адаптивных нечетких контроллеров по методологии Автономного Адаптивного Управления. Знания в системе представляются в виде нечетких продукционных правил. Генерация новых правил осуществляется с использованием кластеризации эмпирических данных методом вычетов. Адаптация системы происходит за счет использования вычисляемой для каждого правила его степени адекватности. Целевая функция управления задается моделированием эмоций.
Введение
С повышением сложности задач, решаемых современными системами управления, все больше осознается необходимость наделения систем способностью адаптироваться к изменяющимся свойствам объекта управления и внешней среды. Одной из технологий, на основе которой строится большое число современных систем управления, и которая не имеет механизмов адаптации, является нечеткая логика.
В данной работе рассматривается один из подходов к построению адаптивных нечетких контроллеров на основе метода ААУ, развиваемого в ИСП РАН.
Методология ААУ [1, 2] позволяет строить адаптивные системы управления, решающие задачи формирования и распознавания образов (ФРО), принятия решений, представления информации в базе знаний (БЗ) и моделирования аппарата эмоций, основываясь на концептуальной модели нервной системы живых организмов.
Перед тем как приступить к описанию системы, раскроем ряд понятий, определения которых в различных научных школах и контекстах могут расходиться с определениями, используемыми авторами.
Под автономностью будем понимать независимость системы управления от внешних источников знаний и учителя – автономная система получает знания только из своего собственного опыта взаимодействия со средой обитания. Соответственно, под это определение не попадают ни нейроконтроллеры, знания в которые закладываются в процессе предварительного обучения на обучающей выборке, ни традиционные нечеткие контроллеры, законы управления в которые вводятся экспертами еще до начала работы.
Под адаптивностью будем понимать способность системы изменять свое поведение (алгоритм управления) в зависимости от изменений каких-либо внешних условий с целью максимизации целевой функции.
Описание системы
Пусть в среде, закон функционирования которой близок к детерминированному, находится объект управления (ОУ) с управляющей системой (УС) на борту. Для наблюдения за параметрами ОУ и среды УС имеет N входных переменных, связанных с датчиками, а для воздействия на среду и объект – M выходных переменных, связанных с исполнителями. Датчики отображают значения некоторых параметров среды и ОУ в множества значений входных переменных x1, x2,…xN. Множества значений выходных переменных обозначим y1, y2,…yM. В общем случае все эти множества бесконечны, но имеют верхнюю и нижнюю границы. Тогда входные и выходные множества УС будут равны соответственно декартовым произведениям:
X = x1 x2…xN и Y = y1 y2… yM. (1)
Целевая функция УС задается при помощи априорно заложенного множества S оценок состояний ОУ, которое дискретно, полностью упорядочено и состоит из конечного числа элементов, т.е. S = {s1, s2,…sP}. Задано отображение подмножества X` входного множества X в множество оценок S, а также отношение порядка на множестве S: s1
Закон управления представляется в системе управления в виде набора нечетких правил управления вида:
Oi & Aj Ok / El, (2)
где Oi и Aj – нечеткие подмножества множеств X и Y, которые описывают исходную ситуацию и совершенное действие на некотором такте работы системы, Ok – нечеткое подмножество множества X, описывающее результирующую ситуацию на следующем такте, а El – ее оценка с точки зрения максимизации целевой функции.
Правила (2) генерируются системой автоматически с использованием кластеризации эмпирических данных методом вычетов [5].
Генерация правил
Входными данными для процедуры кластеризации является история управления, записанная в виде:
{x t,1, x t,2,… x t,N}, {y t,1, y t,2,… y t,M}, {x t+1,1, x t+1,2,… x t+1,N}…, (3)
где xt,i – значение i-го входной переменной в момент времени t, а yt,i – значение i-го выходной переменной в момент времени t.
Для генерации однотактовых правил управления используются значения входных и выходных переменных t-го такта и значения входных параметров (t+1)-го такта, которые задают координаты одной точки в (N+M+N)-мерном пространстве.
Например, для системы управления перевернутым маятником такая точка будет задаваться значениями угла, угловой скорости и управляющего воздействия на t-ом такте и значениями угла и угловой скорости на такте t+1. В результате, на вход процедуры кластеризации поступает набор точек, заданных своими координатами в 5-мерном пространстве.
На выходе процедуры кластеризации получается набор точек и максимальный размер кластера, а на выходе получается набор кластеров, заданных центральной точкой и набором точек, также принадлежащих кластеру. На основании этих данных генерируются входные и выходные функции принадлежности, а так же сами правила управления.
Распознавание образов
Процесс распознавания выполняется традиционной для нечетких контроллеров процедурой – фаззификацией, – вычислением степеней принадлежности текущих значений входных параметров входным нечетким множествам. Далее по значениям входных функций принадлежности вычисляются результирующие посылки правил в соответствии с принятой в системе реализацией операции «t-конорма» (операция нечеткое «И», может быть реализована через умножение, взятие минимального числа или другую операцию над значениями функций принадлежности).
Значения результирующих посылок Pi всех правил поступают на вход подсистемы принятия решений.
Принятие решений
Алгоритм принятия решений состоит из следующих последовательных шагов:
- Вычисление посылок каждого из правил в соответствие со значениями входных функций принадлежности.
- Корректировка посылки каждого правила в соответствии со значением степени адекватности правила. Для i-го правила
. (4)
- Корректировка посылки каждого правила в соответствии с оценкой результирующего образа правила по одной из следующих формул (выбирается пользователем):
; (5)
; (6)
, (7)
где K – коэффициент, задающий нижний порог, отсекающий правила с низкими оценками.
Формула (5) реализует квадратичную зависимость посылки правила от оценки результирующего образа. Эту формулу следует применять для систем, в которых состояния с высокими оценками достижимы из большинства других состояний. Правила с низкими оценками в соответствии с этой формулой достаточно сильно подавляются.
Формула (6) реализует сигмоидальную зависимость – она подавляет правила с низкой оценкой результирующего образа и «вытягивает» правила с оценкой выше перегиба функции (0.5).
Формула (7) задает пороговую зависимость посылок правил от оценок результирующих образов. Все правила с оценкой ниже порога исключаются из процесса принятия решения, тем самым исключается попадание ОУ в состояния с нежелательной оценкой. Эта формула пригодна для применения в системах, управляющих объектами, переход которых в состояние с низкой оценкой может привести к нежелательным последствиям.
Вычисление результирующего управляющего воздействия осуществляется по одному из алгоритмов нечетких контроллеров: средневзвешенное значение, метод центра масс или победитель забирает все.
Адаптация
Адаптация УС к изменяющимся свойствам ОУ и среды осуществляется за счет удаления старых правил, которые становятся неадекватными в результате изменившихся свойств ОУ и среды, и генерации новых правил.
Введем для каждого правила некоторый параметр Ki, при помощи которого будем задавать степень адекватности i-го правила. Пусть Ki = 0 говорит о полной неадекватности правила текущей ситуации, а Ki = 1 – о полном соответствии правила текущей ситуации. Правила, в которых Ki меньше определенного порога, могут быть удалены из БЗ, так как они ухудшают качество управления.
Очевидно, величина Ki должна меняться в процессе работы УС в соответствии с изменениями свойств объекта управления и среды, т.е. значение этой величины можно использовать для отслеживания изменений свойств объекта управления и среды.
Очевидно, модуль изменения величины Ki на t-м шаге должен зависеть от степени принадлежности входных величин множествам входных переменных правила (посылка) и от степени принадлежности реально выполненного действия действию, предписываемому этому правилу. Тогда модуль изменения Ki запишется в виде формулы (8).
. (8)
Очевидно также, что степень адекватности должна зависеть от принадлежности результирующих величин образу, описываемому данным правилом. Очевидно также, что при t→∞, степень адекватности должна быть равна именно этой величине (средней степени принадлежности результата работы правила).
Введем также некоторую величину (константу, задаваемую априорно), которая будет определять скорость изменения степени адекватности правил – некоторый аналог скорости сходимости для нейронных сетей.
Тогда на каждом такте работы УС величина Ki будет изменяться по формуле (9):
. (9)
Эксперименты
Разработанная система управления была опробована на известном тестовом примере – математической модели перевернутого физического маятника. Результаты экспериментов представлены на рис. 1 и 2. На рис. 1, а, где показан временной ход угла отклонения штанги маятника от вертикали, можно видеть самое начало процесса управления, во время которого система испытывает объект управления, подавая случайные управляющие воздействия и регистрируя реакцию ОУ на них. На рис. 1, б показан аналогичный график, но полученный при работе уже обученной системы, которая подвергается воздействию случайных импульсных помех. Из графика видно, насколько точно система держит заданное (нулевое) значение угла и насколько быстро преодолевает последствия возмущающих импульсов.
| |
а) б)
Рис. 1. Графики зависимостей угла маятника от времени: а) в начале процесса управления, б) после обучения системы (сгенерировано около 250 правил примерно за 1000 тактов)
Рис. 2. Входные функции принадлежности угла и угловой скорости системы
в обученном состоянии (около 250 правил)
С результатами другого эксперимента, проведенного на модели адаптивного автопилота для физической модели самолета с этой же системой управления, можно ознакомиться в статье «Прототип аварийно-устойчивого автопилота на основе бионического метода «автономного адаптивного управления» сборника научных трудов части 1.
Выводы
Разработанная система управления совмещает в себе ряд важных свойств: способность самообучаться, добывая знания непосредственно из собственного опыта взаимодействия с внешней средой и возможность адаптироваться к изменяющимся свойствам объекта управления. Эти свойства являются новыми и важными для нечетких контроллеров, поскольку они позволяют значительно расширить область применения последних.
Относительно же первых систем, построенных по методологии ААУ [3], но в нейроноподобном варианте, скорость обучения разработанной системы в 2-3 раза превосходит их, демонстрируя при этом несколько лучшее качество управления.
Список литературы
1. Жданов А.А. Метод автономного адаптивного управления // Известия Академии Наук. Теория и системы управления, 1999, № 5, с. 127-134.
2. Жданов А.А. О методе автономного адаптивного управления // Лекции по нейроинформатике. Ч. 2. "Нейроинформатика-2004". М.: МИФИ.
3. Жданов А.А., Земских Л.В., Беляев Б.Б. Система стабилизации углового движения космического аппарата на основе нейроноподобной системы автономного адаптивного управления. Космические Исследования, М. 2004.
4. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. – М.: Мир, 1976.
5. Jyh-Shing Roger Jang, Chuen-Tsai Sun, Eiji Mizutani. Neuro-fuzzy and soft computing. Prentice-Hall, 1997.
УДК 004.032.26(06) Нейронные сети