6 ББК 96я73 ISBN 5-8265-0264-9 й Громов Ю.Ю., Земской Н.А., Лагутин А.В, Иванова О.Г., Тютюнник В.М., 2004 й Тамбовский государственный технический университет (ТГТУ), 2004 Учебное издание ГРОМОВ Юрий Юрьевич, ЗЕМСКОЙ Николай

Книги по разным темам Pages: | 1 | ... | 4 | 5 | 6 | 7 | 8 | ... | 10 |

5.3 Ослабленное необходимое условие Уточненное необходимое условие для основной задачи оптимального координатного управления на основе принципа оптимальности, частично свободное от требования непрерывной дифференцируемости функции V(t, x), формулируется следующим образом.

Формулировка задачи. Пусть краевые условия имеют вид x(t0 ) = x0; q(t1,x(t1)) = 0. (52) Минимизируемый функционал имеет вид tJ[t0, x0, u] = (t1, x(t1)) + f0 (t, x, u)dt (53) tи определен на траекториях системы (41) с управлением m u(t) U (t, x).

m Закон управления v(t, x) считается допустимым, если u(t) = v(t, x(t)), v(t, x(t)) U (t, x), и является кусочно-непрерывным.

Если управление u = u*(t), t0 t t1 доставляет минимум функционалу J, то ему соответствует оптимальная траектория x*(t).

Пусть t (t V (t0, x0 ) = min, x(t1)) + f0 (t, x, u)dt = m uU t (54) * t* = (t1, x*(t1 )) + f0 (t, x*(t), u*(t)) dt.

tТогда tV (t0, x0) (t1, x(t1)) + f0 (t, x(t), u(t))dt, tгде u(t) произвольно.

Необходимые условия. Предполагается, что искомое оптимальное управление u* = v*(t, x) существует. Тогда можно установить необходимые условия для основной задачи оптимального координатного управления.

n Пусть в области G пространства состояний X выполняются следующие условия.

1 Для x G в момент t функция n V V t, H x,, u = f0 (t, x, u) + fi (t, x, u) x xi i=* имеет абсолютный минимум по u, т.е. min H = H (t, x, Vx ) при u* = v*(t, x) = u*(t, x, Vx ) по всем допустимым u m u(t) U (t, x), где Vx = V x - градиент V(t, x).

2 Решение x(t) системы (41) существует и является непрерывной функцией для всех допустимых m u(t) U (t, x).

3 Функция f0(t, x, u) непрерывна по t.

4 Функция Vt (t, x) = V t непрерывна по t и x; вектор-функции Vx (t, x) и f(t, x, u) либо непрерывны по t и x, либо имеют равные левый и правый пределы для скалярного произведения Vxf вдоль любой траектории x(t) системы (41):

lim [Vx (t, x)f (t, x(t)),u(t))] = lim [Vx (t,x)f (t, x(t),u(t))].

tt0 +0 tt0 -5 Существует оптимальное движение для каждого начального x0 G в некоторое состояние, удовлетворяющее условию q(t1,x1) = 0 и причем такое, что траектория не выходит из G.

6 Каждая точка в G, не удовлетворяющая условию q(t, x) = 0, имеет окрестность, целиком лежащую в G.

Тогда функция V(t, x) в области G удовлетворяет уравнению ГамильтонаЦБеллмана dV min =, (55) + f0(t,x(t),u(t)) m dt uU u или V (t,x) min +Vx (t,x)f (t, x,u) + f0(t, x,u) = m t uU V (t,x) = + min H (t,x,Vx (t, x),u) = (55') m t uU V (t,x) * = + H (t,x,Vx (t, x)) = t с граничным условием V (t, x) = (t,x) (55") на гиперповерхности q(t, x) = 0.

Здесь обозначено H *(t, x,Vx (t,x)) = min H (t,x,Vx (t, x),u), m uU dV - полная производная вдоль траектории, реализуемой под действием управления u.

dt u Так как при известной функции V(t, x) u* = arg min H = u*(t, x,Vx (t, x)) = v *(t,x), m uU то найденное решение V(t, x) уравнения (55) одновременно дает решение проблемы синтеза оптимального закона управления.

Замечания.

dV 1 Требование 4 влечет за собой непрерывность функций и V(t, x) по времени t.

dt u 2 Когда Vt, Vx и fi непрерывны по t и x, уравнение (55) представляет собой уравнение Гамильтона - Якоби.

Общая последовательность действий, которой целесообразно придерживаться при решении задачи синтеза оптимального закона управления методом динамического программирования, представлена в табл. 2.

2 Последовательность действий при использовании метода динамического программирования Шаг Последовательность действий 1 Образуется функция H, в которой сопряженные переменные i заменяются на компоненты вектора dV V (t, x) V (t,x) V (t, x) = gradxV (t,x) = Vx =,,...,, dx x1 x2 xn т.е.

H (t,x,u,Vx) = Vxf (t,x,u) + f0(t,x,u) m Минимизируется H (t,x,u,Vx) по u U и находится явная зависимость управления u* от компонент вектора Vx :

u* = u*(x,Vx,t) = arg min H (t, x,u,Vx ) m uU 3 Находится минимальное значение H* путем подстановки в H значения u*(t,x,Vx ) :

* H (t,x,Vx ) = H (t, x,u*(t, x,Vx ),Vx ) 4 Решается дифференциальное уравнение в частных производных ГамильтонаЦБеллмана V * H (t, x,Vx ) + = t с соответствующим граничным условием для функции V(t, x) V (t,x) = (t,x) на гиперповерхности q(t, x) = 5 Подставляя результаты шага 4 в выражение для u*(t,x,Vx ), получаем закон управления с обратной связью V (t, x) u* = v*(t,x) = u*t, x, x 5.4 Сводка общих процедур метода динамического программирования для вычисления оптимального закона управления u* = v*(t, x) Пример 2. Синтез оптимального закона управления для линейной системы с квадратичным критерием качества. Проблема аналитического конструирования оптимальных автопилотов.

Пусть нестационарная линейная система описывается векторным линейным дифференциальным уравнением & x = A(t)x + B(t)u + Cf (t) (I) с начальным условием x(t0 ) = x; t0 t t1, (II) где t1 - фиксировано; t0, x0 - известные величины (которые, однако, специально не выбираются), и пусть критерий качества имеет вид T T J[u] = l1 x1 + x1 R1x1 + lT (t)x(t) + lT (t)u + t1 2 (III) dt + + 1 (xTQ(t)x + xTN(t)u + uTNT (t)x + uTP(t)u).

t Здесь x = (x1, x2,..., xn )T ; f = ( f1,..., fn )T ; C, A(t) - матрицы размерности n n; u = (u1,..., um )T, x1 = x(t1) ; B(t), N(t) - матрицы размерности n m; R1, Q(t) - положительно полуопределенные симметричные матрицы размерности n n; P(t) - положительно определенная симметричная матрица размерности m m; P(t) - известная функция времени; l1, l2(t), l1, l2 (t) - n-мерные векторы; l3(t) - m-мерный вектор.

Напомним, что симметричная матрица Q называется положительно полуопределенной, если все ее собственные значения неотрицательны или если соответствующая ей квадратичная форма неотрицательна, т.е. xTQx 0 для всех x = (x1, x2,..., xn )T 0. Для того, чтобы матрица Q была положительно полуопределенной, необходимо и достаточно, чтобы все главные (а не только угловые!) миноры были неотрицательны:

... ip i1 iQ.

i1 i2... ip 0 (1 i1 < i2 <... < ip n; p = 1, n) Предполагается, что на значения управляющего вектора u не накладывается каких-либо ограничений, а матрицы Q(t), N(t), P(t) таковы, что выполняется условие Q(t) - N(t)P-1(t)NT (t) (это условие гарантирует отсутствие сопряженных точек в данной задаче).

Необходимо найти закон управления с обратной связью u* = v*(x, t), минимизирующий критерий J[u]. Заметим, что значения вектора фазовых координат x при t = t1 не заданы (т.е. рассматриваемая задача относится к числу задач оптимального управления со свободным правым концом).

Пусть V(t, x) - минимальное значение критерия качества J[u] при движении системы (I) из произвольной начальной точки (t, x) (нижний индекс л0 опущен) на отрезке времени [t, t1], t t1:

* J = JminV (t, x) = min J[u].

u При решении задачи методом динамического программирования целесообразно руководствоваться последовательностью действий, изложенной в сводке общих процедур (см. табл. 2). В соответствии с табл. 2 составляем функцию H (t, x,, u) (гамильтониан) для данной задачи H (t, x,, u) = f0 (t, x, u) + T f (t, x, u) = lTx + lTu + 2 T + (xTQx + xT Nu + uT N x + uT Pu) + T (Ax + Bu + Cf ) V (t, x) и заменяем сопряженный вектор T на градиент Vx (t, x) (градиент = Vx (t, x) функции V (t, x) счиx тается вектором-строкой) функции V(t, x) по x:

H (t,x,Vx,u) = lTx + lTu + (xTQx + 2xT Nu + uT Pu) +Vx (Ax + Bu + Cf ).

2 Дифференциальное уравнение ГамильтонаЦБеллмана (45) в данном случае имеет вид lTx + lTu + (xT Qx + 2xT Nu + uT Pu) + V + min 2 3 = 0, (IV) u t +Vx (Ax + Bu + Cf ) где функция V(t, x) удовлетворяет граничному условию (55"):

T V (t1, x) = l1 x + xT R1x. (V) Поскольку, по предположению, P(t) - положительно определенная матрица, то минимум H H (t, x, Vx, u) по достигается в стационарной точке, где = 0.

u T T u* = arg min H (t, x,Vx,u) = -P-1[l3 + N x + BTVx ]. (VI) u Подставляя теперь полученное выражение для u* в (VI), находим окончательный вид основного дифференциального уравнения динамического программирования (в данном случае это будет дифференциальное уравнение ГамильтонаЦЯкоби, так как u* найдено из условия стационарности H):

V 1 T +Vx Ax - VxBP-1l3 -VxBP-1NT x - VxBP-1BTVx + t 2 1 T +VxCf + lT x - lT P-1l3 - lT P-1NT x - l3P-1BTVx + (VII) 2 3 2 1 + xTQx - xT NP-1NT x = 0.

2 Доказано, что в линейных системах с квадратичным критерием качества при сделанных предположениях относительно матриц Q(t), P(t), N(t), R1 решение уравнения (VII) с краевым условием (V) существует и его можно искать в виде V (t, x) = xTR(t)x + qT (t)x + r(t), (VIII) где R(t) - симметричная матрица размерности n n; q(t) - n-мерный вектор; r(t) - скаляр.

Частные производные функции V(t, x), записанной в форме (VIII), имеют вид V (t, x) & & & = xT R(t)x + qT (t)x + r(t) ; (IX) t T V (t, x) V (t, x) T Vx (t, x) = = R(t)x + q(t); = xT R + qT. (X) x x Подставляя выражения (IX) и (X) в уравнение (VII) и учитывая, что:

1) при одновременном умножении произвольной матрицы М слева и справа на вектор x имеет ме1 T T сто соотношение xT Mx = xT (M + M )x (т.е. происходит выделение симметричной части (M + M ) мат2 рицы М);

2) скалярное произведение обладает свойством транспонируемости yTb = bTy, получим T T T & xT [R + R(A - BP-1N ) + (A - BP-1N )T R + Q - NP-1N T & - RBP-1BT R]x + [qT + qT (A - BP-1N ) - lT P-1BT R - qT BP-1BT R (XI) T & - lT P-1N + lT + (Cf )T R]x + r - qT BP-1BT q - lT P-1BT q + qT Cf 3 2 - lT P-1l3 = 0.

Поскольку условие (XI) должно выполняться тождественно для любых значений x и поскольку при t = t1 для любых значений x должно выполняться тождественно следующее соотношение [см. (V) и (VIII)]:

1 T xT R(t1)x + qT (t1)x + r(t1) = xT R1x + l1 x, 2 то для определения матрицы R(t), вектора q(t) и скаляра r(t) получаем следующие уравнения и граничные условия:

1) & R + R(A - BP-1NT ) + (A - BP-1NT )T R - RBP-1BT R + Q (XII) & - NP-1NT = R + RA + AT R - (RB + N)P-1(NT + BT R) + Q = 0;

R(t1) = R1. (XII') 2) -1 T -1 -& qT + qT (A - BP N ) - lT P BT R - qT BP BT R (XIII) -1 T - lT P N + lT + (Cf )T R = 0;

3 T qT (t1) = l1. (XIII') 3) 1 & r - qT BP-1BT q - lT P-1BT q + qT Cf - lT P-1l3 = 0 ; (XIV) 3 2 r(t1) = 0. (XIV') Полученные уравнения следует интегрировать в обратном времени от t = t1 к t = t0.

Оптимальный закон управления с обратной связью имеет вид T u*(x, t) = -P-1(t)[BT (t)R(t) + N (t))x + BT (t)q(t) + l3(t)]. (XV) Решения некоторых других задач оптимального управления для линейных систем с квадратичным критерием качества приведены в табл. 3. В пп. 1 - 7 (строках 1 - 7) этой таблицы приведены постановка и решения задачи синтеза оптимального закона управления при свободных граничных условиях на правом конце траектории, а в п. 8 - постановка и решение задачи при заданных граничных условиях на правом конце. В пп. 1 - 6, 8 рассматриваются однородные линейные системы, в п. 7 - неоднородная линейная система. В п. 1 дано решение задачи синтеза для нестационарной линейной системы и нестационарного квадратичного критерия качества при фиксированном конечном интервале времени процесса управления, в п. 2 - для стационарной (независящей явно от t) системы и стационарного критерия качества при фиксированном конечном интервале времени процесса управления, в п. 3 - для стационарной системы и стационарного критерия качества на неограниченном интервале времени ([0,]), в п. 4 - для нестационарной системы и нестационарного квадратичного критерия более общего вида, чем в пп. 1 - 3 (критерий содержит перекрестные члены типа xT Nu ). В п. 5 приведено решение задачи, которая в определенном смысле эквивалентна задаче п. 4 (см. 5-й столбец таблицы), в п.

6 дано решение для оптимизации отклонения системы от заданного желаемого поведения, в п. 7 рассмотрен случай синтеза оптимального закона управления для неоднородной линейной системы, в п. 8 - синтез оптимального закона управления при заданных граничных условиях на правом конце и квадратичном критерии более общего вида. Некоторые из приведенных в табл. 3 решений (пп. 1 - 4, 6, 7) являются частными случаями рассмотренной выше задачи.

Контрольные вопросы 1 Принцип оптимальности динамического программирования.

2 Ослабленное необходимое условие.

Глава НЕОБХОДИМЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ ОСОБОГО УПРАВЛЕНИЯ 6.1 Краткая формулировка задачи При решении задач встречаются случаи, когда управление u входит в дифференциальные уравнения математической модели объекта линейно, dx = f (t, x,u) = (x,t) + R(x,t)u, (56) dt где n x = (x1, x2,..., xn )T, x X ;

m u = (u1, u2,..., um )T, u U ;

= (1, 2,..., n )T ;

R = {rij (t, x)} (i = 1, n, j = 1, m);

t [t0,t1], а критерий качества имеет вид tJ[u,t0,t1, x0, x1] = (t0,t1, x0, x1) + f0 (t, x,u)dt = (t0,t1, x0, x1) + t (57) t+ (x,t) + uT r0 (x,t)]dt, [ tm где r0 = (r01, r02,..., r0m )T ; uT r0 = u.

r0 j j=Функция Гамильтона H для (56), (57) имеет вид n n n m H = fi = i (x,t) + u = i i irij j i=0 i=0 i=0 j=(58) n m n = i (x,t) + rij u.

i i j i=0 j=1 i= m Если U - m-мерный прямоугольник:

m U = {u = (u1, u2,..., um )T a1 u1 b1, a2 u2 b2,..., am um bm} a < bj ( j = 1, m) j ( a, bj могут зависеть от t), то в силу принципа максимума (см. п. 4.3) для минимизации J[u] оптимальj ное управление определяется из условия u = arg min H (t,x,u,) (59) m uU или n a при rij > 0;

j i i=u = (60) j b при n rij < 0.

j i i=При некоторых значениях x и функция H в (58) может оказаться независящей явно от какой-либо компоненты u на отрезке [1,2 ] 2 - 1 > 0. В этом случае выполняется соотношение (рис. 9) j n (, x,t) = rij (x,t) 0, (61) j i i=которое формально совпадает с условием:

n H = rij (x,t) 0 (62) i u j i=на отрезке [1,2].

Отрезок [1,2], на котором имеет место соотношение (61), называется участком особого управления для компоненты u, а оптимальное управление u*(t) на таком участке существует) называется особым j j оптимальным управлением. Такое название объясняется тем, что поскольку гамильтониан H от u не j зависит, оптимальное управление не может быть найдено непосредственно с помощью принципа максимума. Более того, в случае выполнения условия (61) ни необходимые условия классического вариационного исчисления, ни необходимые условия динамического программирования (см. п. 5.2) не могут служить для непосредственного вычисления компоненты u*, хотя все эти условия формально не выj полняются.

а) б) в) г) д) е) Рис. 9 Поведение гамильтонианов и H1(u ) = + u H2 (u ) = u + u + в зависимости от :

j j j j j j j j а, б, г, д - строгий минимум (регулярное управление);

Pages: | 1 | ... | 4 | 5 | 6 | 7 | 8 | ... | 10 |

Книги по разным темам

Blog