Главная > Теория автоматического управления > Автоматическое управление
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

§ 22. Связь принципа максимума с методом динамического программирования

Обратимся к задаче с закрепленным концом траектории и свободным временем. Рассмотрим систему, описываемую дифференциальными уравнениями

которым эквивалентно векторное уравнение

где и — векторы следующего вида:

Требуется перевести систему из точки фазового пространства X в заданную точку . Момент времени в который изображающая точка попадет в точку , заранее не фиксируется.

Управление и должно удовлетворять ограничениям

и его надо выбрать так, чтобы функционал

принимал наименьшее возможное значение.

Удовлетворяющее этим условиям управление, соответствующую ему траекторию и промежуток времени будем считать оптимальными.

Полученное при указанных выше условиях наименьшее возможное значение функционала Q будет функцией от начального состояния системы

В § 14, в предположении, что функция непрерывна и всюду имеет непрерывные частные производные по всем своим аргументам, было показано, что эта функция удовлетворяет нелинейному уравнению первого порядка в частных производных (уравнение Беллмана) (14.36):

Как и выше, обозначим через скалярную функцию, ределяемую дифференциальным уравнением

и начальным условием

Из (7), (8) и (5) следует, что подлежащий минимизации функционал Q можно представить так:

Введем теперь следующие -мерные векторы:

Через обозначим функцию

(22.10)

Уравнение Беллмана (14.36) можно теперь записать так:

(22.12)

Если умножить левую и правую части соотношения (12) на —1, то знак min в левой части (12) надо будет заменить на знак max. Таким образом, уравнение (12) можно представить так:

Аналогично (15.28) обозначим

(22.14)

(22.15)

Уравнение Беллмана (13) принимает вид

(22.16)

При этом верхняя грань достигается для некоторого , а именно для значения оптимального управления в момент выхода из точки .

Сделаем теперь еще следующие дополнительные предположения. Будем предполагать, что функция имеет непрерывные вторые производные , а функции имеют непрерывные производные .

Функцию, стоящую под знаком в левой части уравнения (16), обозначим так:

(22.17)

Пусть — оптимальное управление, переводящее изображающую точку из состояния в состояние , а — соответствующая оптимальная траектория.

Фиксируем некоторый момент времени и рассмотрим функцию переменного . В соответствии со сделанными выше предположениями функция имеет непрерывные производные по переменным :

Из уравнения (16) следует, что для любого оптимального движения имеет место соотношение

(22.19)

Точки , не лежащие в данный фиксированный момент времени на оптимальной траектории, будут принадлежать другим траекториям, реализуемым допустимым, но не оптимальным управлением. Поэтому в силу уравнения (16) в этих точках

(22.20)

Следовательно, рассматриваемая в (18) функция переменного достигает в точке максимума (момент t фиксирован), и поэтому ее частные производные по обращаются в этой точке в нуль. Согласно (18), таким образом, получим следующие соотношения, выполняющиеся вдоль оптимальной траектории:

(22.21)

Учитывая, что согласно (1) и (7) для оптимального движения имеет место соотношение

(22.22)

будем иметь

(22.23)

Соотношение (21) в соответствии с (23) можно переписать так:

Обозначим теперь через следующую функцию:

(22.25)

Как следует из (24), вдоль всякой оптимальной траектории величины удовлетворяют следующей системе линейных дифференциальных уравнений:

(22.26)

Заметим, что согласно (25), (15) и (11)

(22.27)

что не противоречит уравнениям (26), так как согласно (1) и (5) не зависят от , и для уравнение (26) имеет следующий вид:

Вектор , координаты которого определены соотношениями (25), будет следующим:

(22.29)

Уравнение Беллмана (16) в соответствии с (25), (10), (29) теперь можно переписать так:

(22.30)

Обозначим теперь через следующую функцию:

(22.31)

зависящую от аргументов .

Уравнение (30) принимает теперь следующий вид:

(22.32)

Из соотношения (32) можно заключить, что оптимальное управление доставляет функции в любой момент времени наибольшее значение по сравнению с любым другим управлением , переводящим систему из точки в точку . Это наибольшее значение одно и то же, а именно равно нулю в любой точке оптимальной траектории, то есть вдоль оптимальной траектории выполняется равенство

(22.33)

Заметим, однако, что соотношения (30), (32) и (33) получены здесь при исходном предположении о том, что функция имеет непрерывные частные производные повеем своим аргументам, что, как было показано выше (§ 20), не имеет места даже в сравнительно простых задачах. Поэтому приведенные в настоящем параграфе преобразования и вытекающие из них следствия имеют лишь эвристический характер и могут только служить наводящими указаниями.

<< Предыдущий параграф Следующий параграф >>
Оглавление