Главная > Теория автоматического управления > Оптимальные и адаптивные системы
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

§ 2.3. Метод динамического программирования

В послевоенные годы наряду с задачами оптимального управления в технике возникли задачи об оптимальном управлении в экономике, управлении войсками и т. д. (задачи об управлении запасами, ресурсами, составление расписаний, организация тыла). Они не допускали эффективного численного решения на основе существующих методов. Это привлекло внимание математиков к этим задачам. При этом обнаружилось, что процесс решения многих из них может быть представлен как некоторый многоплановый процесс принятия решений.

Эта концепция получила название метода динамического программирования, что означает принятие решений во времени.

Основу метода динамического программирования, разработанного американским математиком Р. Веллманом , составляет принцип оптимальности, используя который выводят функциональное уравнение метода. Решение этого уравнения приводит к синтезу оптимального управления.

Принцип оптимальности.

Рассмотрим задачу об оптимальном стабилизирующем управлении.

Пусть дан объект управления, описываемый уравнениями

Требуется найти закон управления

чтобы на движениях системы (2.3.1), (2.3.2), возбужденных произвольными начальными отклонениями, минимизировался функционал

При этом на управления (2.3.2) наложены ограничения . Для определенности часто будем полагать, что

где — заданные числа.

Отметим, что эта задача является вариационной задачей со свободным правым концом и фиксированным .

Для простоты изложения принципа оптимальности ограничимся частным случаем этой задачи, когда . В этом случае уравнения (2.3.1) и (2.3.2) примут вид:

(2.3.1)

а функционал (2.3.3) запишется, если опустить для простоты t в , как

(2.3.3)

Переходя к принципу оптимальности, допустим, что оптимальное управление (2.3.2) найдено. Этому управлению соответствует оптимальная траектория , которую можно вычислить, подставляя в уравнения (2.3.1) функцию (2.3.2) и интегрируя (2.3.1) при некотором начальном условии . Эта траектория приведена на рис. 2.3.1.

Отметим какую-либо точку на оптимальной траектории и назовем участок между точкой и точкой первым (траектория 1), а участок между точками назовем вторым участком траектории (траектория 2).

Принцип оптимальности: независимо от того, каким путем система достигла в момент времени точки , ее оптимальным последующим движением будет траектория 2.

Другими словами, второй участок оптимальной траектории является оптимальной траекторией. Это означает, что если система, начав движение из точки оказалась в момент времени в точке то оптимальное движение из этой точки будет совпадать с траекторией 2.

Обоснование принципа почти очевидно. Действительно, пусть движение из точки продолжается не по траектории 2, а по траектории 2 и при этом движении функционал

принимает меньшее значение, чем на траектории 2. Тогда значение функционала (2.3.3) на траектории 1—2 будет меньшим, чем на траектории 1—2. Это противоречит предположению об оптимальности .

<< Предыдущий параграф Следующий параграф >>
Оглавление