29 ББК 32.973.202 я 73 Г 701 Городецкий А.Я. Информационные системы. Вероятностные модели и статистические решения. Учеб.пособие. СПб: Изд-во СПбГПУ, 2003. 326 c. I8BN 5-7422-0381-X Пособие соответствует дисциплинам государственного

Книги по разным темам Pages: | 1 | ... | 27 | 28 | 29 | 30 | 31 | ... | 32 |

Если управление принадлежит открытой области, то вектор управления в дискретном времени определяется из векторноматричного уравнения H n M y1 = 0, 0 n k. (5.46) un Задачи по оптимизации управления, переводящего объект из начального состояния в конечное при минимизации функционала конечного состояния, имеют большое практическое значение, когда важен конечный результат. К их числу относится, например, рассматриваемая задача определения корректирующих импульсов {un} траектории движения космического аппарата, обеспечивающих вывод этого аппарата на орбиту с требуемой конечной точностью при ограничениях на энергозатраты (топливо).

Указанный вид задач относится к терминальным с фиксированным временем управления t0-tk=kt, t0=0 и свободным правым концом фазовых координат. Поэтому ввиду отсутствия ограничений k+1=xr+1,k+1; i,k+1=0 для i=1, r ; r+1,n+1=1 для n=0,k.

Рассмотрим один из возможных вариантов решения задачи указанного типа для линейного объекта с аддитивным управлением, описываемого векторно-матричным уравнением (4.210) xn+1=nxn+Vnun+nn, x0=x(0), (5.47) где n=1+tFn, Vn=tV(tn), n=t(tn).

Вектор измерения определяется из уравнения (4.81) yn+1=Cn+1xn+1+n+1, n= 0,k.

На вектор управления никаких ограничений не накладывается.

Отличие этой задачи от классической вариационной задачи заключается в ее статистическом характере: действии случайных возмущений на объект, в случайных начальных условиях и неточных измерениях. Входящие в функционал качества (5.35) функции имеют следующий вид пр пр пр F(xn,x )=(xn-x )TKn(xn-x ), (5.48) n n n пр пр пр T n(xn,x,un)=(xn-x )TLn(xn-x )+u Wnun, n n n n где второе слагаемое функции n учитывает в функционале качества суммарные энергозатраты.

Диагональную матрицу Kn, как для задачи с непрерывным временем, полагаем заданной. В связи с заменой в функционале интеграла на сумму дискретные отчеты соответствующих матриц связаны с отсчетами их непрерывных аналогов зависимостями Ln=tL(tn), Wn=tW(tn).

Стохастический гамильтониан с учетом уравнения программируемого векторa состояния пр пр пр xn+1 = nxn, x0 = xпр (0), (5.49) соотношений (5.38), (5.40), (5.47) и (5.48) равен пр пр T H (xn,,n,un, n) = (xn - xn )T Ln(xn - xn ) + unWnun + n+пр пр пр T + 2[(xn - xn )T Kn(xn+1 - xn - xn + xn )] + xn+1 +F (x0) = n+пр пр T пр = (xn - xn )T Ln(xn - xn ) + unWnun + 2(xn - xn )T Kn (5.50) пр пр [nxn +Vnun + nn - nxn - xn + xn ] + T + (nxn +Vnun + nn) +F (x0).

n+Оптимальное управление отыскивается в открытой области из условия (5.46). Учитывая выражение (5.50), получаем H n опт T пр T n M y1 = M{[2Wnun + 2Vn Kn(xn - xn ) +Vn ]| y1 } = 0.

n+un После операции усреднения относительно вектора измерения y (получения апостериорного среднего) приходим к векторноматричному уравнению T пр опт T n+2Vn Kn(xn - xn ) + 2Wnun +Vn = 0.

Отсюда оптимальный вектор управления опт T пр n+un = -Wn-1Vn Kn(xn - xn ) +, n = 0, k, (5.51) n n n+где xn = M{xn | y1 }, = M{ | y1 }.

n+ Оценка вектора вспомогательной переменной определяется из выражения (5.45), которое на основании (5.50) с учетом соотношения n=I+tFn принимает рекуррентную форму пр пр пр n = 2Ln(xn - xn ) + 2Kn(xn+1 - xn ) - 2Kn(xn - xn ) + (5.52) T T пр n+1 n++ + tFn + 2tFn Kn(xn - xn ) или пр пр пр n = 2Ln(xn - xn ) + 2Kn(xn+1 - xn+1) - 2Kn(xn - xn ) + (5.53) T T пр n+1 n++ + tFn + 2tFn Kn(xn+1 - xn+1) + 01(t), где член второго порядка малости относительно t:

T пр 01(t)=- 2t2Fn Kn(n - Fnxn ), появился вследствие замены в последнем слагаемом соотношения (5.52) вектора ошибки пр пр xn = xn - xn на xn+1 = xn+1 - xn+1, n = Fnxn +V (tn)un + ~ ~ T T + Dn+1Cn+1[tCn+1Dn+1Cn+1 + N ]-1[yn+1 - Cn+1~n+1].*) x,n+Введем обозначения для нового вектора пр zn = Kn(xn - xn ) +. (5.54) n В результате рекуррентное уравнение (5.53) относительно этого вектора принимает вид T n = n+1 + tFn n+1 + Lnxn + 01(t) = T n+1 + Lnxn + 01(t), (5.55) n n n где =M{zn| y1 }, ( x )=M{(x)| y1 }.

n n Граничное состояние вектора ввиду k+1=0 (i=1, r ) согласно формуле (5.54) zk+1=Kk+1 x (5.56) k+1.

Вектор оптимального управления (5.51) связан с вектором зависимостью *) Процедура замены сводится к введению в сомножитель этого слагаемого выражения xn пр пр и определения на основании уравнений (4.88) и (5.49) (xn+1 - xn+1) - (xn+1 - xn+1) пр пр значений (xn+1 - xn )и (xn+1 - xn+1).

опт T T пр un = -Wn-1Vn n+1 + tWn-1Vn (n - Fnxn ), (5.57) где второе слагаемое в правой части (5.57) появилось вследствие замены x на x.

n n+На основании уравнений (5.47), (5.49) и (4.88) с учетом (5.57) представим вектор ошибок и его апостериорное среднее в виде пр xn+1 = xn+1 - xn+1 = nxn +Vnun + nn, T xn+1 = nxn -VnWn-1Vn zn+1 + nn + 02(t), (5.58) T пр где слагаемое 02(t) = t2Vn(tn)Wn-1(tn)Vn (tn)(n - Fnxn ) ввиду Vn=tn (tn), Wn=tW(tn) является членом более высокого порядка малости относительно t.

Вектор отыскивается в результате совместного решения уравнений (5.55) и (5.58) в виде линейной формы =Pn x, (5.59) n n где Pn подлежащая определению неизвестная матрица.

Подставив выражение (5.59) в уравнение (5.55) имеем T Pn x = Pn+1 x +Ln x +01(t).

n n+1 n n А после подстановки x из уравнения (5.58) с учетом (5.59) n+получаем уравнение T Pnxn = T Pn+1[I +VnWn-1Vn Pn+1]-1[nxn + nn] + n (5.60) + Lnxn + 0(t), где I - единичная матрица.

В дальнейшем из-за существенно малых значений интервала дискретизации t слагаемыми вида 01(t), 02(t) и 0(t) пренебрегаем.

Для того, чтобы матрица P не зависела от результатов измерений фазовых координат, усредним (5.60) относительно всех возможных реализаций вектора y. Обозначив M{ x}=m, с учетом M{} = 0 имеем T {Pn - T Pn+1[I +VnWn-1Vn Pn+1]-1n - Ln}m = 0. (5.61) n Ввиду того, что условие (5.61) должно выполняться при любом m, получаем не зависящее от фазовых координат объекта конечноразностное (рекуррентное) нелинейное матричное уравнение T Pn = T Pn+1[I +VnWn-1Vn Pn+1]-1n + Ln. (5.62) n Используем формулу приложения 2 для представления выражения в квадратных скобках уравнения (5.62) в виде ряда по T степеням матрицы VnWn-1Vn Pn+1. После преобразования и приведения подобных, пренебрегая членами второго и более высоких порядков относительно t, приходим к нелинейному матричному уравнению Риккати в дискретном времени T T Pn = Pn+1 + tFn Pn+1 + tPn+1Fn - Pn+1VnWn-1Vn Pn+1 + Ln. (5.63) Уравнение (5.63) решается численными методами при граничном (конечном) условии Pk+1. Граничное условие определяется из выражений (5.59) и (5.56): =Pk+1 x, =Kn+1 x. В k+1 k+1 k+1 k+результате имеем Pk+1=Kk+1.

Физически реализуемое управление в момент времени tn в случае марковских процессов зависит от оценок фазовых координат объекта для того же момента времени x. Однако, согласно формуле n (5.57) оптимальное управление зависит от вектора x в момент n+ времени tn+1 ввиду присутствия вектора =Pn+1 x. Для n+1 n+приведения в соответствие с реальной процедурой измерения, как и в предыдущих случаях, заменим вектор x на x. В результате n+1 n -1 T пр вновь полученное слагаемое - tW Vn Pn+1(n - Fnxn ) вместе со вторым слагаемым выражения (5.57) после подстановки выражения оптимального управления в уравнение фильтрации (5.65) оказываются членами второго порядка малости относительно t ввиду Vn=tV(tn). Это позволяет представить вектор оптимального управления в окончательном виде опт T пр un = -Wn-1Vn Pn+1(xn - xn ), (5.64) так как при t0 этими слагаемыми можно пренебречь.

Оценка вектора x определяется на основании дискретного n+алгоритма фильтрации, описываемого рекуррентными уравнениями (4.88) и (4.86) с учетом рекомендаций разд.4.~ ~ T T ~ xn+1 = xn+1 + Dn+1Cn+1[Cn+1Dn+1Cn+1 + (5.65) + Q,n+1]-1[yn+1Cn+1~n+1], x x0 = x(0), ~ ~ ~ T T Dn+1 = Dn+1 - Dn+1Cn+1[Cn+1Dn+1Cn+1 + (5.66) ~ + Q,n+1]-1Cn+1Dn+1, D0 = D(0), T пр ~ где xn+1 = nxn -VnWn-1Vn Pn+1(xn - xn ), ~ T Dn+1 = nDnT + nQnn n Из соотношения(5.64) следует, что при линейном объекте и функционале качества в квадратичной форме управление является детерминированной линейной функцией вектора оценки фазовых координат объекта. В этом определении содержится подтверждение сформулированной ранее теоремы разделения.

5.3.2.2. УПРАВЛЕНИЕ ПРИ ЛОКАЛЬНОМ КРИТЕРИИ ОПТИМИЗАЦИИ К стохастическому принципу минимума для локального критерия оптимизации можно прийти, определив стохастический гамильтониан с учетом высказанных в разделе 5.3.1.2 замечаний об отсутствии ограничений и требований на конечное состояние объекта, а также о необходимости минимизации функционала качества на каждом шаге дискретного времени. В результате стохастический гамильтониан при n+1=0 (i=1, r ) и r+1,n=оказывается равным H(fr+1,n(xn,un,n) и стохастический принцип минимума состоит в минимизации его апостериорного среднего в каждый момент времени tn n min M{ fr +1,n(xn,un,n) | y1 }, n = 0,1,..., un U где на основании данных раздела 5.2.2.fr +1,n(xn,un,n) = n(xn,un,n) + (5.67) F (xn ) - xn) +F0(x0) + xn (xn+ Если управление принадлежит открытой области, то вектор оптимального управления определяется из условия H n fr +1,n(xn,un,n) n M y1 = M y1 = 0. (5.68) un un При функционале качества квадратичного типа функции, входящие в выражение (5.67), имеют вид (5.48) и стохастический гамильтониан принимает форму (5.50) без слагаемого T (nxn +Vnun + nn). После операции усреднения условие (5.68) n+приводит к векторно-матричному уравнению T пр опт Vn Kn(xn - xn ) +Wnun = 0.

Отсюда оптимальный вектор управления опт T пр un = -Wn-1Vn Kn(xn - xn ). (5.69) Оценка вектора x определяется из уравнений фильтрации n+T пр ~ (5.65) и (5.66), где xn+1 = nxn -VnWn-1Vn Kn(xn - xn ).

Матрицу Kn, как и для задачи с непрерывным временем (раздел T 5.2.1.2), определяем из уравнения связи Fn Kn + KnFn = -Ln.

Полученные соотношения для локального критерия оптимизации также подтверждают справедливость теоремы разделения, так как оптимальное управление является детерминированной линейной функцией оценки вектора состояния объекта.

Сравним полученное решение с решением задачи для терминального критерия оптимальности на основании минимизации конечного состояния объекта на заданном интервале времени управления. Из формул (5.64) и (5.69) следует, что структура выражений оптимального управления одинакова. Различие состоит в различных значениях компонент матриц P и K. При t=tk+1 ввиду Pk+1=Kk+1 (раздел 5.2.2.1) эти формулы дают одинаковый результат.

Из этого сравнения следует, что управление по локальному критерию более интенсивное, так как требует выполнения критерия в каждый отсчет времени. В тоже время по этой причине оно менее экономичное.

5.3.3. ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ 5.3.3.1. ВВЕДЕНИЕ Динамическое программирование основано на принципе оптимальности, сформулированном Р. Беллманом как необходимое условие оптимального процесса для дискретных систем. Этот принцип утверждает, что оптимальная стратегия не зависит от предистории системы и определяется только начальными условиями и конечной целью. В этом случае вариационная задача рассматривается как многошаговый процесс решения более простых задач и оптимальное управление отыскивается последовательно шаг за шагом. Отличительная особенность рассматриваемого здесь подхода состоит в том, что участки оптимальной траектории определяются в обратной последовательности, начиная с конечного (целевого) состояния объекта. В соответствии с принципом оптимальности при делении траектории на несколько участков можно, двигаясь в обратном направлении, убедиться в оптимальности участка примыкающего к последнему, а затем в оптимальности всех предшествующих участков. Оптимальность отдельных участков зависит от оптимальности всей траектории.

5.3.3.2. СТАТИСТИЧЕСКИЙ СИНТЕЗ ДИСКРЕТНОГО УПРАВЛЕНИЯ Дискретная динамическая система описывается векторноматричным в конечных разностях уравнением (5.34) xn+1=fn(xn,un,n), x0=x(0).

Критерий оптимальности состоит в минимизации апостериорного среднего функционала качества типа (5.35) k k = M (xk +1) + F (xn,un) y1 = n n= (5.70) k = M (xk +1) + F (xn,un), y n n=где функция конечного состояния F(xk+1) задана.

Рассмотрим задачу управления, в которой определяются векторы управления u0,u1,...,uk, обеспечивающие перевод объекта из состояния x0 в состояние xk+1 при измерении вектора yn за k+1 шагов управления с минимальным значением функционала (5.70).

Обозначим через апостериорное среднее последней k частичной суммы на интервале ktt(k+1)t полной суммы функционала качества, которое принимает вид k (xk,uk ) = M {F (xk +1) +k (xk,uk )} = y (5.71) = M {F (xk,uk,k ) +k (xk,uk )}.

y В этом выражении подчеркнута зависимость от вектора k состояния xk и управления uk. На основании принципа оптимальности управление uk зависит от вектора оценки x и должно k минимизировать частичную сумму (5.71).

Обозначим это минимальное значение через Rk( x ) k Rk (xk ) = min (xk,uk ). (5.72) uk Эта функция, а также найденный из выражения (5.71) опт оптимальный вектор uk должны быть заданы в момент времени tk=kt как функции вектора оценки x, полученного из уравнений k опт дискретного алгоритма фильтрации, uk ( x ). После определения k опт оптимального управления uk рассмотрим интервал (k-1)tt(k+1)t. С учетом выражения (5.70) апостериорное среднее частичной суммы полной суммы зависит от управлений uk и uk- k -1(xk -1,uk -1,,uk ) = k (xk,uk ) + M {k -1(xk -1,,uk -1,)} = y (5.73) = k (xk -1,,uk -1,,uk ) + M {k -1(xk -1,,uk -1,)}, y где оценка x получена из уравнений дискретного алгоритма k-фильтрации.

После проведения минимизации выражения (5.73) получим следующую функцию, которую будем называть также функцией будущих потерь Rk -1(xk -1) = min k -1(xk -1,uk -1,uk ).

uk,uk-Учитывая, что первое слагаемое выражения (5.73) зависит от uk-1 и uk, а второе только от uk-1, получим Rk -1(xk -1) = min Jk (xk -1,uk -1,uk ) + min M {k -1(xk -1,uk -1} y uk,uk-1 uk-или Rk -1(xk -1) = min{Rk (xk -1,uk -1) + M {k -1(xk -1,uk -1)}}, (5.74) y uk-так как Rk является результатом минимизации по управлению k uk и, следовательно, не зависит от него. Выражение (5.74) должно быть минимизировано по вектору uk-1 при заданной оценке вектора координат x. В результате определяют оптимальное управление k-опт uk -1 = uk -1(xk -1) и значение функции будущих потерь Rk-1( x ) в k-момент времени tk-1=(k-1)t. Продолжая эту процедуру для интервала времени (k-l+1)tt(k+1)t, получим рекуррентную формулу динамического программирования Rk -l +1(xk -l +1) = min{Rk -l +2(xk -l +1,uk -l +1) + uk-l+ (5.75) + M {k -l +1(xk -l +1,uk -l +1)}}, l = 1,k +1.

Pages: | 1 | ... | 27 | 28 | 29 | 30 | 31 | ... | 32 |

Книги по разным темам