Главная > Теория автоматического управления > Автоматическое управление
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

§ 21. Достаточное условие оптимальности в форме принципа максимума. Теорема В. Г. Болтянского

Как указано выше, принцип максимума представляет собой необходимое условие оптимальности. Следовательно, принцип максимума позволяет выделить траектории, которые могут быть оптимальными.

Для линейных систем в задаче о быстродействии доказана [72] теорема существования оптимальной траектории и теорема об единственности траектории выделяемой принципом максимума. Таким образом, в этом случае принцип максимума однозначно определяет траекторию, которая может быть оптимальной; эта траектория и является единственной оптимальной траекторией, соединяющей две заданные в фазовом пространстве точки.

Для нелинейных систем (а также для линейных систем в задачах, отличных от задачи о быстродействии) вопрос о том, приводит ли синтез управления, осуществленный на основе принципа максимума, к оптимальным траекториям, решается полученной В. Г. Болтянским теоремой о достаточных условиях оптимальности. Эта теорема позволяет, как правило, утверждать, что синтез, осуществленный на основе принципа максимума, действительно приводит к оптимальным траекториям.

В теореме В. Г. Болтянского основным условием является осуществление регулярного синтеза для векторного дифференциального уравнения (20.1), описывающего управляемую систему. В связи с этим заметим, что условия А-Е (стр. 280) регулярного синтеза фактически не накладывают ограничений на систему, описываемую векторным дифференциальным уравнением (20.1), а постулируют те обычные обстоятельства, которые имеют место при осуществлении синтеза. В нижеследующей теореме доказано, что синтез, осуществленный на основе принципа максимума, при выполнении условий А-Е действительно приводит к оптимальным траекториям. В этом смысле принцип максимума является достаточным условием оптимальности.

Теорема В. Г. Болтянского. Если в множестве D осуществлен регулярный синтез для уравнения (20.1) (в предположении существования непрерывных производных и справедливости соотношения , то все отмеченные траектории являются оптимальными (в области D). В этом смысле принцип максимума является достаточным условием оптимальности.

Доказательство теоремы. Приведенное ниже доказательство дано в статье [14] В. Г. Болтянского в 1964 г. Ограничимся здесь случаем, когда в выражении (17.3) функция

что имеет место в задаче о быстродействии.

В этом случае функционал Q представляет собой время движения изображающей точки от точки до точки .

Обозначим через время движения изображающей точки вдоль отмеченной траектории от точки до точки .

Множество обозначим через М.

Если доказать, что является функцией Беллмана с особым множеством М, то доказываемая здесь теорема будет вытекать из теоремы, доказанной в § 15 на стр. 241.

Таким образом, достаточно доказать, что функция , которая введена здесь, дифференцируема на множестве и удовлетворяет уравнению Беллмана (15.7)

Пусть х — произвольная точка, принадлежащая некоторой -мерной клетке , и пусть траектория системы (20.3)

которая исходит в момент времени U из указанной здесь точки , проходит в момент времени через точку клетки .

Из общих теорем о дифференцируемости решений дифференциальных уравнений по параметрам следует, что функции и — непрерывно дифференцируемые функции от .

Для рассмотренного в § 20 примера линейной системы явный вид функций и определен выражениями (20.42) и (20.43). В общем случае функции и можно найти из решения векторного дифференциального уравнения, описывающего попятное движение

Решение уравнения (1) будет

где . Уравнение

однозначно разрешимо при , близких к , так как соответствующий функциональный определитель отличен от нуля. (В рассмотренном в §20 примере уравнения попятного движения имеют вид (20.44), а упомянутый функциональный определитель имеет вид . Найденные из (3) функции и будут непрерывно дифференцируемыми по .

Из точки траектория продолжается по клетке или . Аналогично устанавливается, что точка в которой траектория покидает клетку или , и время движения по этой клетке — дифференцируемые функции от следовательно, и от .

Общее время . движения по отмеченной траектории из точки в точку , таким образом, будет (внутри клетки ) непрерывно дифференцируемой функцией точки .

Из изложенного следует, что функция непрерывно дифференцируема на множестве .

Теперь надо показать, что на множестве М функция удовлетворяет уравнению Веллмана (15.7).

Пусть . Через обозначим отмеченную траекторию, которая исходит в момент из точки , а в момент попадает в точку а.

Через S обозначим множество, состоящее из всех точек , удовлетворяющих условию

Вблизи точки множество S представляет собой гладкую гиперповерхность в D с нормальным к ней вектором

Функция , где время движения по отмеченной траектории из точки в точку а. Для всякой текущей точки отмененной траектории функция , откуда следует, что . Так как в соответствии с (20.3)

то

или

Из (5) следует, что

Согласно условию Д регулярного синтеза, отмеченная траектория удовлетворяет принципу максимума. Через

обозначим вектор-функцию, соответствующую траектории в силу принципа максимума.

Можно показать, что вектор ортогонален гиперповерхности S в точке , то есть

или, что то же,

В соответствии с (17.21) и (20.3) функция Н здесь имеет вид

Из (9), (8) и (4) следует, что

Так как согласно (17.27)

то из (10) и п. теоремы 2 (стр. 255) следует, что . Из (7) следует, что , так как иначе было бы . Таким образом,

(21.11)

Из принципа максимума следует, что для любого

(21.12)

Из (12), (4), (8), (10) и (11) найдем, что для любого

Из (13) вытекает соотношение

(21.14)

которое совпадает с уравнением Беллмана (15.7), так как в качестве начальной точки можно принять любую (принадлежащую множеству точку отмеченной траектории.

Таким образом, если выполнено условие (7), то функция удовлетворяет на множестве уравнению Беллмана (15.7).

Для завершения доказательства теоремы надо еще показать справедливость соотношения (7)

Отмеченная траектория исходит в момент времени из точки , которая находится внутри клетки первого рода .

Обозначим через траекторию системы (20.3)

исходящую из некоторой внутренней точки той же клетки . Будем считать, что точка расположена достаточно близко от точки и при этом лежит на гиперповерхности S. Из последнего следует, что обе траектории и , выходящие в момент соответственно из точек и , приходят в точку а в один и тот же момент времени .

Обозначим через расстояние между точками и и будем считать достаточно малым.

Так как точки и лежат в одной и той же клетке то траектории и придут в точку , проходя по одной и той же последовательности клеток , где — одномерная клетка, примыкающая к точке .

Выше было показано, что моменты времени перехода отмеченной траектории из одной клетки в другую и соответствующие точки траектории дифференцируемым образом зависят от начальной точки .

Обозначим через промежуток времени

полагая при этом, что то .

Из того, что и дифференцируемым образом зависят от точки и дифференцируемым образом зависят от точки ), следует, что существует такая положительная константа С, что любой из промежутков времени не превосходит по модулю , а траектории и находятся друг от друга на расстоянии порядка :

(21.15)

Выполним теперь некоторые преобразования. Как и выше, через обозначим вектор-функцию, соответствующую в силу принципа максимума траектории .

Так как , то будем иметь

Таким образом,

где

Если обозначить через некоторую точку отрезка, соединяющего точки и , то на основании известной теоремы Лагранжа будем иметь следующее соотношение:

Поэтому выражение (17) можно переписать так:

(21.19)

Так как и представляют собой отмеченную траекторию и соответствующее ей управление, которые согласно условию Д регулярного синтеза удовлетворяют принципу максимума, то в силу соотношения (17.28)

(21.20)

Из соотношений (19) и (20) следует, что

(21.21)

где

Рассмотрим теперь следующие два случая. В первом случае точка принадлежит одному из интервалов времени , в течение которого и находятся в одной и той же клетке , на которой функция непрерывно дифференцируема. Учитывая (15) будем иметь оценку

(21.23)

Так как точка расположена на отрезке, соединяющем точки , то в соответствии с (15) имеем

(21.24)

Так как функция непрерывна по своим аргументам, то при разность

будет бесконечно малой величиной порядка и вместе с будет стремиться к нулю.

Из (15) и (22) поэтому имеем

Отсюда следует, что

(21.26)

где — начало интервала .

Во втором случае точка t принадлежит одному из интервалов времени , в течение которого и находятся в двух соседних клетках и . Здесь уже нельзя утверждать, что разность (25) бесконечно мала вместе с , так как точки и принадлежат разным клеткам, а при переходе от клетки к клетке управление может терпеть разрывы.

Однако разность (25) при всех t остается ограниченной в силу ограниченности траектории . Поэтому в соответствии с (15)

Так как длина отрезка не превосходит (см. стр. 296), то

(21.27)

Складывая соотношения (26) и (27), получим

(21.28)

Пусть теперь точка приближается к точке по поверхности S, касаясь некоторого вектора . Тогда будем иметь

(21.29)

Согласно (16), (21) и (28) будем иметь

(21.30)

При траектория , и обусловленная неравенством (20) разность

(21.31)

может быть представлена выражением, аналогичным (18). Повторяя рассуждения, при помощи которых получено соотношение (28), найдем, что

(21.32)

откуда в соответствии с (30) получим, что для любого касательного гиперповерхности S в точке вектора будет иметь место соотношение

(21.33)

Из (33) вытекает соотношение (7), то есть рассматриваемая теорема доказана.

<< Предыдущий параграф Следующий параграф >>
Оглавление