Главная > Теория автоматического управления > Автоматическое управление
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

§ 15. Достаточные условия оптимальности и обоснование метода динамического программирования для систем непрерывного действия. Теоремы В. Г. Болтянского

Метод динамического программирования вполне обоснован для систем, описываемых уравнениями в конечных разностях.

Для систем, описываемых обыкновенными дифференциальными уравнениями (то есть для систем непрерывного действия) корректное обоснование метода динамического программирования требовало бы доказательства существования гладкой функции , определяемой нелинейным уравнением в частных производных (-уравнением Беллмана (то же относится и к функции определяемой уравнением , так как при выводе этого уравнения предполагалось, что функция непрерывна и всюду имеет непрерывные частные производные по всем своим аргументам. Это требование не вытекает из постановки задачи и представляет собой ограничение, которое, однако, не выполняется во многих даже простых задачах, где оказывается [15], что функция является негладкой.

Задача об обосновании метода динамического программирования для систем непрерывного действия решена в работа к В. Г. Болтянского [14], к изложению которых мы и перейдем.

1. Постановка задачи. Геометрическая интерпретация уравнения Беллмана в задаче о быстродействии.

Рассмотрим управляемую систему, описываемую скалярными дифференциальными уравнениями

(15.1)

В векторной форме систему уравнений (1) можно записать так:

(15.2)

где — векторы следующего вида:

(15.3)

На управление и наложены ограничения

(15.4)

Обратимся к задаче о быстродействии. Требуется найти оптимальное управление , то есть управление, которое переводит систему из начального состояния в состояние за минимально возможное время Т.

Конечное состояние системы , то есть точка в фазовом пространстве, в которую надо привести систему, фиксирована: . В качестве начального состояния мы рассматриваем любое состояние системы, то есть любую точку фазового пространства .

Минимально возможное время T, в течение которого управление и, удовлетворяющее условию и , переводит систему из точки в точку , является функцией от начального состояния :

В § 14, в предположении, что функция непрерывна и всюду (кроме конечной точки ) имеет непрерывные частные производные , было показано, что

эта функция удовлетворяет уравнению в частных производных (14.44)

Управление, доставляющее минимум выражению в квадратных скобках, является оптимальным и было обозначено через .

Ниже удобнее вместо рассматривать функцию , отличающуюся от нее знаком

Из соотношения (14.44) следует, что

Учитывая (5), можно переписать соотношение (6) так:

(15.7)

Функция определена во всем фазовом пространстве X. В силу предположений, при которых получено соотношение (14.44), следует, что соотношение (7) имеет место в предположении, что функция непрерывна и всюду (кроме конечной точки имеет непрерывные частные производные

представляет собой уравнение Беллмана в задаче о быстродействии.

Для любого управления из совокупности управлений, ограниченных условием (в том числе и оптимального), переводящих систему из точки в точку , будем в соответствии с (7) иметь такое соотношение:

Так как то соотношение

будет выполняться в течение всего времени движения для каждой оптимальной траектории, то есть всего времени перехода из начальной точки в конечную точку .

Уравнению Беллмана в задаче о быстродействии можно дать следующую геометрическую интерпретацию. Так как согласно (1)

(15.10)

то уравнение Беллмана (14.44) можно переписать так:

(15.11)

то есть при движении по оптимальной траектории промежуток времени, оставшийся до достижения начала координат, убывает .

Согласно (11)

(15.12)

Выражение в квадратных скобках представляет собой скалярное произведение вектора градиента функции на вектор фазовой скорости изображающей точки.

Представим себе семейство поверхностей . Эти поверхности можно назвать изохронными поверхностями — наименьшее время попадания из любой точки поверхности в начало координат равно одной и той же величине С. Вектор направлен в точке по нормали к поверхности , проходящей через эту точку. Соотношение (12) показывает, что оптимальное управление и обеспечивает то, что проекция фазовой скорости на отрицательное направление нормали к поверхности , проходящей через точку в любой момент времени положительна, то есть изображающая точка все время перемещается в сторону убывающих значений .

Предположение о существовании непрерывных частных производных в любой точке означает, что предполагается гладкость поверхностей , то есть единственность направления нормали в любой точке этих поверхностей. Точки, в которых частные производные не существуют, являются особыми точками поверхностей , и в этих точках направление нормали к поверхности не определено.

<< Предыдущий параграф Следующий параграф >>
Оглавление