Постановка задачі оптимального стохастичного керування
Информация - Компьютеры, программирование
Другие материалы по предмету Компьютеры, программирование
через і т.д. Якщо ці перетворення можливо провести, то одержимо співвідношення . Це означає, що різним реалізаціям випадкового збурення для одного початкового стану відповідатимуть різні оптимальні стратегії керування .
4 Формальна постановка задачі оптимального стохастичного керування
Розглянемо систему (2) із цільовим функціоналом (3). Надалі, якщо інше не обговорено спеціально, будемо вважати, що оптимальні керування на кожному кроці позиційні: , і , .
За таких умов задача оптимального стохастичного керування полягає в пошуку оптимальної послідовності функцій керування , (тобто стратегії керування), що мінімізує сумарні витрати за увесь час функціонування системи.
Формальна постановка задачі оптимального стохастичного керування зі скінченним горизонтом у дискретному випадку має вигляд:
,(4)
. (5)
Розвязання задачі оптимального стохастичного керування з нескінченним горизонтом полягає в пошуку послідовності керувань , які мінімізують сумарні витрати.
Формальна постановка задачі оптимального стохастичного керування з нескінченним горизонтом у дискретному випадку має вигляд:
,(6)
.(7)
Далі під час розвязання задач оптимального керування вважатимемо, що границя у (6) існує для всіх і .
Будемо розглядати задачі (4) (5) і (6) (7) у стаціонарному випадку, тобто припускатимемо, що простори станів і керувань і , обмеження керування , функція і витрати не змінюються при переході від кожного кроку до наступного. Якщо ж це не так, то задача є нестаціонарною. Нестаціонарна задача може бути зведена до стаціонарної за допомогою спеціальних методів, тому далі мова йтиме тільки про стаціонарні задачі.
Зупинимося детальніше на позначеннях, зроблених вище.
Визначення. Функція називається функцією витрат за кроків при стратегії в задачі зі скінченним горизонтом . Аналогом цієї величини для задачі з нескінченним горизонтом є функція функція витрат при стратегії .
Для фіксованого стану позначимо через і оптимальні витрати в цих задачах, тобто
,
.
Якщо останні співвідношення вірні для всіх , то функція називається оптимальною функцією витрат за кроків, а оптимальною функцією витрат.
Стратегія називається оптимальною при горизонті в стані , якщо
,
і оптимальною в стані , якщо
.
Стратегія називається оптимальною при горизонті , якщо . Це означає, що стратегія доставляє оптимальне значення цільовому функціоналу при всіх .
Аналогічно, стратегія називається оптимальною, якщо
.(8)
Стратегія називається рівномірно оптимальною при горизонті , якщо стратегія оптимальна при горизонті для всіх . Отже, якщо стратегія рівномірно оптимальна при горизонті , то вона також оптимальна при горизонті . Зворотне твердження в загальному випадку невірно.
Стратегія називається стаціонарною стратегією, якщо .
Якщо у цьому випадку значення цільового функціонала в задачі оптимального стохастичного керування з нескінченним горизонтом отримано з використанням стаціонарної стратегії , то результат позначають . Отже, стаціонарна стратегія у задачі з нескінченним горизонтом оптимальна, якщо . Тут оптимальне значення цільового функціонала задачі.
Розвязання будь-якої задачі оптимального стохастичного керування здійснюється за шість етапів:
1. Змістовна постановка задачі.
2. Побудова моделі обєкта керування, що включає вибір векторів станів і керувань, просторів станів і керувань, вектора і простору випадкових збурень; побудову функції витрат, що визначається метою керування.
3. Формальна постановка задачі.
4. Вибір і обґрунтування методу розвязання задачі.
Обчислення оптимальної стратегії керування одним з методів.
6. Аналіз отриманих результатів.
5 Алгоритм розвязання задачі оптимального стохастичного керування
Процедура пошуку оптимальних позиційних стратегій є досить складною задачею. Одним з головних питань, вирішення якого дозволяє у значній мірі полегшити цю процедуру, є наступне: чи можна обмежитися пошуком оптимальних стратегій у класі стаціонарних або марковских стратегій? Якщо це можливо, то структура керування значно спрощується, і, крім того, зменшується обєм оброблюваної інформації: не потрібно запамятовувати керування , …, , попередні стани , …, і діставати залежність поточного керування від усіх цих величин. У цьому випадку для розвязання дискретних задач оптимального керування зі скінченним горизонтом найчастіше використовується алгоритм, заснований на методі динамічного програмування, запропонованого Беллманом. Суть методу полягає в наступному:
,(9)
(10)
де математичне сподівання береться за мірою . Формули (9) (10) є стохастичним аналогом детермінованого алгоритму методу динамічного програмування.
Величина це оптимальні витрати, повязані з функціонуванням системи, за останні кроків, за умови, що перед першим із цих кроків система перебувала в стані . Стратегія , кожний елемент якої доставляє оптимальне значення (10) для всіх , , є оптимальною стратегією для кожного . Оптимальна функція витрат даної задачі визначається на -му кроці і дорівнює .
Для розвязання задач оптимального стохастичного керування з нескінченним горизонтом, як правило, застосовуються чисельні методи, які дозволяють на кожній ітерації одержувати наближення д