Главная > Теория автоматического управления > Автоматическое управление
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

§ 14. Применение динамического программирования к системам непрерывного действия

1. Задача с фиксированным временем и свободным концом траектории.

Рассмотрим управляемую систему, описываемую векторным дифференциальным уравнением

где и векторы следующего вида:

Начальное состояние системы задано

Требуется найти управление и , удовлетворяющее ограничениям

и доставляющее минимум функционалу

где Т — некоторая фиксированная величина.

Пусть найдена оптимальная траектория системы (1) (рис. 14.1), проходящая через заданную точку , то есть траектория, минимизирующая при условии (4) функционал (5).

Значение в рассматриваемой задаче заранее не задано.

Минимальное значение функционала Q, соответствующее оптимальной траектории, обозначим через .

Рис. 14.1.

На рис. 14.1 указаны положения изображающей точки на оптимальной траектории в моменты времени t и .

Состояние системы в момент времени t будет . Состояние системы в момент времени обозначим так:

Согласно принципу оптимальности участок оптимальной траектории от точки до точки сам по себе является оптимальной траекторией, которая доставляет минимум функционалу

Это минимальное значение функционала (7) обозначим через или для краткости .

Аналогично участок оптимальной траектории от точки до точки также сам по себе является оптимальной траекторией, доставляющей минимум функционалу

Минимальное значение функционала (8) обозначим так:

По принятому выше определению

(14.10)

Интеграл в правой части выражения (10) можно, учитывая малость , представить так:

где предполагается, что функция непрерывна на полуинтервале . Выражение (10) принимает вид

(14.12)

Первое слагаемое в квадратной скобке в выражении (12) зависит лишь от значения управления и в момент , то есть от . Второе слагаемое в квадратной скобке надо минимизировать на множестве всех допустимых управлений в интервале времени . Это минимальное значение, которое мы обозначили через является в свою очередь функцией от состояния системы Последнее же зависит от управления и на интервале или, с точностью до от значения в момент времени . Поэтому в соотношении (12) минимизируется по все выражение, заключенное в квадратные скобки, а не только его первое слагаемое. Учитывая принятое здесь обозначение

(14.13)

перепишем соотношение (12) так:

(14.14)

Нетрудно видеть, что соотношение (14), которым связаны и , можно получить также из (13.30), если учесть, что моментам времени и здесь соответствуют моменты времени и . Заметим при этом, что в функционале (13.3) подынтегральная функция была обозначена через , а входящая в выражение (13.30) функции G согласно (13.10) имеет вид . Поэтому вместо функции , входящей в выражение (13.30), здесь в соответствии с (5) надо подставить функцию .

Таким образом, рекуррентное соотношение (13.30) здесь должно быть заменено соотношением

где — величина высшего порядка малости, чем . Эта величина добавлена потому, что при выводе соотношения (13.30) мы исходили из разностного уравнения (13.7), которое было получено при помощи приближенного соотношения (13.6), содержащего погрешность порядка . Входящее в выражение (13.6) приращение аргумента здесь заменено через .

Заметим, что в соответствии с (1)

(14.15)

Предположим теперь, что функция S непрерывна и всюду имеет непрерывные частные производные по всем своим аргументам

Это предположение весьма существенно, так как во многих задачах оно не имеет места и для этих задач последующие рассуждения требуют дополнительного обоснования [14].

При сделанном выше предположении будем в соответствии с (15) иметь

Обозначая через

(14.17)

скалярное произведение векторов

можно переписать выражение (16) так:

(14.18)

Подставляя выражение (18) в соотношение (14), получим

(14.19)

Согласно (10) функция получена в результате минимизации функционала по и на интервале

то есть функция уже не содержит . Поэтому содержащиеся в квадратных скобках в (19) слагаемые

и можно вынести за знак и переписать

соотношение (19) так:

или

(14.20)

Так как то, переходя в (20) к пределу при , получим

(14.21)

Уравнение (21) [9] называется уравнением Беллмана.

Так как в результате минимизации по и выражения в квадратных скобках правая часть уравнения (21) не будет содержать , то уравнение (21) будет нелинейным уравнением первого порядка в частных производных типа уравнений Гамильтона — Якоби. Функция и, которая доставляет минимум выражению в квадратных скобках в (21), является искомым оптимальным управлением . Эта функция будет, однако, зависеть от . Только получив решение уравнения в частных производных (21) (в котором уже выполнена мизация по , мы найдем явный вид , а следовательно, и явный вид оптимального управления .

Граничные условия для уравнения (21) будут следующими: для функционала (5) ; для функционала (13.3) .

Подчеркнем теперь, что при выводе уравнения (21) мы исходили из найденной уже оптимальной траектории системы (1). Для всякой оптимальной траектории в предположении гладкости функции , уравнение (21) будет иметь место. Таким образом, уравнение Веллмана дает, при сделанных выше предположениях о гладкости функции , необходимые условия оптимальности. Вопрос о достаточных условиях оптимальности требует отдельного рассмотрения.

Пример 1. Рассмотрим систему, описываемую следующими уравнениями [85]:

Предположим, что подынтегральная функция в функционале (5) имеет вид

Как следует из (1), в рассматриваемом примере

Уравнение Беллмаиа (21) здесь принимает вид

где

Так как

то в случае, когда , функция К будет иметь минимум при , где

Минимальное значение будет следующим:

Таким образом, уравнение Беллмана (21) в рассматриваемом примере принимает вид

Пример 2. В предыдущем примере на управление и не было наложено ограничений. Рассмотрим теперь систему, описываемую уравнениями

Пусть подынтегральная функция в функционале (5) имеет вид

На управления наложены ограничения

Согласно (1) в рассматриваемом примере

Уравнение Беллмана (21) принимает вид

где

Оптимальное управление , доставляющее минимум функции будет следующим:

Таким образом, при наложенных на управление ограничениях минимальное значение имеет вид

Уравнение Беллмана (21) принимает в рассматриваемом здесь примере следующий вид:

Заметим, что при наложенных здесь ограничениях на управления функция не будет всюду гладкой (см. ниже, § 15). Полученное в настоящем примере уравнение Беллмана поэтому должно рассматриваться лишь в области, где функция S непрерывна и имеет непрерывные частные производные по всем своим аргументам.

<< Предыдущий параграф Следующий параграф >>
Оглавление