Адаптивные и оптимальные системы
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
АДАПТИВНЫЕ И ОПТИМАЛЬНЫЕ СИСТЕМЫ
ВВЕДЕНИЕ
В широком значении слово "оптимальный" означает наилучший в смысле некоторого критерия эффективности. При таком толковании любая научно обоснованная система является оптимальной, так как при выборе какой-либо системы подразумевается, что она в каком-либо отношении лучше других систем. Критерии, с помощью которых осуществляется выбор (критерии оптимальности), могут быть различными. Этими критериями могут являться качество динамики процессов управления, надежность системы, энергопотребление, ее вес и габариты, стоимость и т. п., либо совокупность этих критериев с некоторыми весовыми коэффициентами.
Ниже термин Такое описание критерия качества позволяет использовать для нахождения оптимального управления хорошо разработанный в математике аппарат вариационного исчисления.
Исторически первая задача вариационного исчисления задача Дидоны, связанная с древней легендой об основании города Карфагена.
Дидона — сестра царя финикийского города Тира, переселилась на южное побережье Средиземного моря, где попросила у местного племени участок земли, который можно охватить шкурой быка. Местные жители предоставили шкуру, которую Дидона разрезала на узкие ремни и связала их. Получившимся канатом она охватила территорию у побережья, на которой затем был построен Карфаген.
Возникает вопрос о том, как можно захватить максимальную площадь?Задача сводится к нахождению экстремума функционала
с граничными условиями
,
и при фиксированном параметре (длине)
.
Точки a и b есть просто точки закрепления каната, сделанного из шкуры быка.
Решением является дуга окружности, если концы нельзя двигать по побережью, и полуокружность в противном случае.
Другой исторически начальной задачей вариационного исчисления является задача о брахистохроне. Брахистохро́на (от греч. βράχιστος — кратчайший и χρόνος — время) кривая наискорейшего спуска. Задача о её нахождении была поставлена в 1696 году Иоганном Бернулли. Заключается она в следующем:
Среди плоских кривых, соединяющих две данные точки А и В, лежащих в одной вертикальной плоскости (В ниже А), найти ту, двигаясь по которой под действием только силы тяжести, сонаправленной отрицательной полуоси OX, материальная точка достигнет В из А за кратчайшее время.
Задача сводится к нахождению функции у(х), реализующей минимум функционала
где a и b — абсциссы точек А и В.
Решением задачи о брахистохроне является дуга циклоиды с горизонтальным основанием, точка возврата которой находится в точкеА, или иными словами, имеющая вертикальную касательную в точке A.
Методы вариационного исчисления условно можно разделить на классические и современные.
Развитие систем управления, ужесточение требований к их точности привело в к использование вариационного исчисления для построения оптимальных систем управленияпри ограниченных габаритах и ресурсах началось в 40-50-х годах прошлого века. Вначале использовались методы классического вариационного исчисления (методы, основанные на уравнениях Эйлера, Лагранжа, Якоби, Вейерштрасса), однако вскоре стало ясно, что для построения систем новой техники (в частности, систем запуска ракет [2.19]), систем, оптимальных по быстродействию, и т. п., необходимо дальнейшее развитие вариационного исчисления и создания математической теории оптимального управления. Дело в том, что из-за ограничений на управления (например, ограниченным количеством топлива ракеты, наличием упоров, рулей управления и т. п.) оптимальные управления оказались кусочно-непрерывными функциями с точками разрыва первого рода, число которых неизвестно. Это противоречило предположению классического вариационного исчисления о непрерывности экстремалей.
Следующим этапом в развитии теории оптимального управления в нашей стране явилась общая постановка проблемы об оптимальном управлении, предложенная в 1954 г. сотрудником Института автоматики и телемеханики АН СССР проф. А. А. Фельдбаумом на совместном семинаре инженеров и математиков, руководимом акад. Л. С. Понтрягиным. В 1956-1960 гг. Л. С. Понтрягиным и его учениками была разработана математическая теория оптимальных процессов, подытоженная в их всемирно известной монографии [2.7]. Основным результатом этой теории является "принцип максимума", указывающий необходимые условия оптимальности для широкого круга задач оптимального программного управления.
В пятидесятых годах наряду с задачами оптимального управления в технике возникли задачи об оптимальном управлении в экономике, управлении войсками и т.д. (задачи об управлении запасами, ресурсами, составление расписаний, организация тыла). Они не допускали эффективного численного решения на основе существующих методов. Это привлекло внимание математиков к этим задачам. При этом обнаружилось, что процесс решения многих из них может быть представлен как некоторый многоплановый процесс принятия решений. Эта концепция получила название метода динамического программирования, что означает принятие решений во времени.
Основу метода динамического программирования, разработанного американским математиком Р. Беллманом [2.20], составляет принцип оптимальности, используя который выводят функциональное уравнение метода. Решение этого уравнения приводит к синтезу оптимального управления.
Принцип максимума Понтрягина и метод динамического программирования Беллмана относятся к современным методам вариационного исчисления.
Качественное совершенствование автоматического управления техническими объектами возможно при увеличении объема информации, необходимой для функционирования систем управления. В реальных условиях работы характеристики объекта управления не являются стабильными, внешние возмущения могут меняться произвольно, в конце концов, в результате «старения» отдельных узлов объекта оптимальная система управления из-за жесткой настройки по начальной информации не позволяет обеспечить протекание процессов с наилучшими показателями качества.
Для таких условий функционирования систем управления необходимо использовать принципы адаптации, которые позволяют осуществлять качественное управление объектом в условиях неопределенности.
Применение принципа адаптации позволяет искусственно создать эффект приспособления к изменяющимся условиям за счет осуществлениясамой системой части функций пополучению, обработке и анализу недостающей информации об управляемом процессе с помощью адаптивного управляющего устройства (АУУ)в процессе ее нормальной эксплуатации, а не проектировщиком на предварительной стадии разработки системы. Это позволяет существенно снизить влияние неопределенности на качество управления и скомпенсировать в определенной степени недостаток априорной информации об управляемом процессе на стадии проектирования.
Дальнейшее совершенствование разработки адаптивных систем заключается в обеспечении самонастройки параметров и/или структуры регулятора и обладающих свойствами самообучения в зависимости от условий функционирования. Применение принципов и оптимальности и адаптации позволяет создавать самые высокоорганизованные автоматические системы, обладающие высоким качеством функционирования в реальных условиях. Примером оптимальной и адаптивной системы управления является человек, так как при изменении условий окружающей среды, организм перестраивается таким образом, чтобы обеспечить функционирование всей системы в целом.
1. РОЛЬ МЕТОДОВ ТЕОРИИ ОПТИМАЛЬНЫХ ПРОЦЕССОВ
В общем процессе проектирования технических систем можно видеть проблемы двух типов.
1. Проектирование системы управления, направленной на достижение поставленной задачи (формирование траекторий, режимов, выбор методов управления, реализующих траектории и т.д.). Это круг задач можно назвать проектированием движений.
2. Проектирование конструктивных и прочностных схем (выбор геометрических, аэродинамических, конструктивных и других параметров), обеспечивающих выполнение общих характеристик и конкретных режимов работы. Этот круг задач проектирования связан с выбором ресурсов, необходимых для реализации поставленных задач.
Проектирование движений (изменение технологических параметров) тесно связано с группой проблем второго типа, так как получаемая при проектировании движений информация является исходной (во многом определяющей) для решения этих проблем. Но и в тех случаях, когда имеется уже готовая техническая система (т.е. располагаемые ресурсы определены), в процессе его модификации могут быть осуществлены оптимизирующие приемы.
Проблемы первого типа решаются в настоящий момент наиболее эффективно и строго на основе общих методов математической теории оптимальных процессов управления.
Значение математической теории оптимальных процессов управления заключается в том, что она дает единую методологию решения весьма широкого круга задач оптимального проектирования и управления, устраняет инерции и недостаточную общность прежних частных методов и способствует ценными результатами и методами, полученными в смежных областях.
Теория оптимальных процессов позволяет решать широкий круг практических задач в достаточно общей постановке с учетом большинства ограничений технического характера, накладываемых на осуществимость технологических процессов. Роль методов теории оптимальных процессов особенно возросла в последние годы в связи с широким внедрением в процесс проектирования ЭВМ.
1.1 Общая задача оптимального управления и ее математическая модель
Исходная информация для решения задач оптимального управления содержится в постановке задачи. Задача управления может формулироваться в содержательных (неформальных) терминах, которые часто носят несколько расплывчатый характер. Для применения математических методов необходима четкая и строгая формулировка задач, которая бы устраняла возможные неопределенности и двусмысленности и одновременно делала бы задачу математически корректной. С этой целью для общей задачи необходима адекватная ей математическая формулировка, называемая математической моделью задачи оптимизации.
Математическая модель (ММ)– достаточно полное математическое описание динамической системы и процесса управления в рамках выбранной степени приближения и детализации.
ММ отображает исходную задачу в некоторую математическую схему, в конечном итоге – в некоторую систему чисел. В ней, с одной стороны, явно указываются (перечисляется) все сведения, без которых невозможно приступить к аналитическому или численному исследованию задачи, а с другой, – те дополнительные сведения, которые вытекают из сущности задачи и которые отражают определенное требование к ее характеристикам.
Полная ММ общей задачи оптимизации управления состоит из ряда частных ММ:
• процесса управляемого движения;
• располагаемых ресурсов и технических ограничений;
• показателя качества процесса управления;
• управляющих воздействий.
Таким образом, математическая модель общей задачи управления характеризуется совокупностью определенных математических соотношений между ее элементами (дифференциальных уравнений, ограничений типа равенств и неравенств, функций качества, начальных и граничных условий и т.д.).
В теории оптимальных процессов устанавливаются общие условия, которым должны удовлетворять элементы математической модели для того, чтобы соответствующая математическая задача оптимизации была бы:
• четко определена,
• имела бы смысл, т.е. не содержала условий, приводящих к отсутствию решения.
Отметим, что формулировка задач и ее математической модели в процессе исследования не остаются неизменными, а находятся во взаимодействии друг с другом.
Обычно первоначальная формулировка и ее математической модели претерпевают значительные изменения в конце исследования. Таким образом, построение адекватной ММ напоминает итерационный процесс, в ходе которого уточняется как постановка самой общей задачи, так и формулировка математической модели. Важно подчеркнуть, что для одной и той же задачи ММ может быть неединственной (разные системы координат и т.д.). Поэтому необходим поиск такого варианта ММ, для которой решение и анализ задачи были бы наиболее просты.
Важным шагом в постановке и решении общей задачи управления является выбор критерия оптимальности. Этот выбор является неформальным актом, он не может быть предписан какой-либо теорией, а целиком определяется содержанием задачи. В некоторых случаях формальное выражение понимания оптимальности системы допускает несколько эквивалентных (или почти эквивалентных) формулировок.
В таких случаях успех и простота получаемого решения во многом определяется выбранной формой критерия оптимальности (при условии, что во всех случаях он достаточно полно определяет требования задачи к системе). После построения ММ процесса управления дальнейшее ее исследование и оптимизация проводится математическими методами.
1.2 Классификация методов теории оптимальных процессов
Методы теории оптимальных процессов (ТОП) можно условно разделить на прямые и непрямые (косвенные).
Непрямые методы сводят задачу оптимизации динамических характеристик системы, которые являются функционалами, к решению известных математических проблем.
К непрямым методам относятся:
1. Принцип максимума Л.С. Понтрягина [1, 2] и метод множителей Лагранжа классического вариационного исчисления [24 – 27]. Принцип максимума сводит решение задачи оптимизации функционалов к решению известных задач – максимизации или минимизации некоторой специальной функции конечного числа переменных в сочетании с решением краевой задачи для системы обыкновенных дифференциальных уравнений (ОДУ) первого порядка. В классическом вариационном исчислении (ВИ) задача оптимизации функционала сводится к решению краевой задачи для системы ОДУ. Принцип максимума особенно удобен для решения оптимизационных задач, так как позволяет наиболее простым образом учесть различного рода ограничения на величины управляющих и фазовых переменных (переменных состояния). Классическое вариационное исчисление более удобно в задачах, описываемых ОДУ более общего вида (в частности, не разрешенных относительно производных) и не содержащих ограничений в виде неравенств на управляющие и фазовые переменные.
2 Принцип оптимальности, положенный в основу динамического программирования Р. Беллмана [19] и метод Гамильтона-Якоби классического вариационного исчисления [25 – 27]. В этих методах задача оптимизации функционала сводится к решению системы нелинейных ДУ в частных производных первого порядка с соответствующими граничными условием.
3 Некоторые методы, основание на использование результатов функционального анализа (метод моментов и т.д.).
Прямые методы ТОП сводят задачу оптимизации функционала к построению минимизирующей (или максимизирующей) последовательности, на основании которой с помощью предельного перехода может быть получено точное решение задачи (В.Ф. Кротов, В.И. Гурман [7, 8]). К прямым методам относятся методы, основанные на сведении задач оптимизации функционалов к задачам на условный экстремум функций конечного числа переменных, различные варианты градиентных методов (Э. Полак, Б.Т. Поляк [21 – 23]), методы типа Ритца-Галеркина и др.
Как в случае применения непрямых методов, так и в случаях использования прямых методов окончательное решение задачи оптимизации может отыскиваться либо в аналитической (замкнутой) форме, либо в числовой форме.
Решения в квадратурах (за исключением редких случаев, таких как линейные системы с квадратным критерием качества) могут быть найдены лишь для задач в упрощенной постановке.
С их помощью можно исследовать качественные особенности оптимального управления. Если аналитическое решение не слишком громоздко, из него можно получить необходимые технико-экономические выводы. Поскольку решение такого рода не зависит от конкретных числовых значений параметров системы и граничных условий, они обладают высокой степенью универсальности. Однако в задачах, постановка которых приближается к реальным технико-экономическим ситуациям, получение решений в замкнутой форме, как правило, либо невозможно, либо приводит к весьма сложным выражениям. В этом случае следует обратиться к численным методам решения.
Численные методы на современном этапе развития вычислительной математики обладают общностью, сравнимой с общностью аналитических методов. Хотя при их использовании возникают определенные проблемы, связанные с оценками скорости сходимости, устойчивости, ошибками округлений, ограниченной разрядностью и т.д.
1.3. Необходимые и достаточные условия оптимальности управления и проблема существования оптимального управления
Рассмотренные в данном пособии необходимые условия оптимальности управления для различного типа задач оптимизации получены на основе использования аналитических непрямых методов оптимизации и образуют совокупность функциональных соотношений, которым обязательно должно удовлетворять экстремальное решение.
При выводе их сделано существенное для последующего применения предположение о существовании оптимального управления (оптимального решения). Другими словами, если оптимальное решение существует, то оно обязательно удовлетворяет приведенным (необходимым) условиям. Однако этим же необходимым условиям могут удовлетворять и другие решения, не являющиеся оптимальными (подобно тому, как необходимому условию для минимума функции одной переменной удовлетворяют, например, точки максимума и точки перегиба функции f (x)). Поэтому, если найденное решение удовлетворяет необходимым условиям оптимальности, то это еще не означает, что оно является оптимальным.
Использование одних только необходимых условий дает возможность в принципе найти все решения, им удовлетворяющие, и отобрать затем среди них те, которые действительно являются оптимальными. Однако практически найти все решения, удовлетворяющие необходимым условиям, чаще всего не представляется возможным в силу большой трудоемкости такого процесса. Поэтому после того как найдено какое-либо решение, удовлетворяющее необходимым условиям, целесообразно проверить, является ли оно действительно оптимальным в смысле исходной постановки задачи.
Аналитические условия, выполнимость которых на полученном решении гарантирует его оптимальность, называются достаточными условиями. Формулировка этих условий и особенно их практическая (например, вычислительная) проверка часто оказывается весьма трудоемкой задачей.
В общем случае применение необходимых условий оптимальности было бы более обоснованным, если бы для рассматриваемой задачи можно было установить факт существования или существования и единственности оптимального управления. Этот вопрос является математически весьма сложным.
Проблема существования, единственность оптимального управления состоит из двух вопросов.
1. Существование допустимого управления (т.е. управления, принадлежащего заданному классу функций), удовлетворяющего заданным ограничениям и переводящего систему из заданного начального состояния в заданное конечное состояние. Иногда граничные условия задачи выбраны так, что система – в силу ограниченности ее энергетических (финансовых, информационных) ресурсов – не в состоянии их удовлетворить. В этом случае не существует решения задачи оптимизации.
2. Существование в классе допустимых управлений оптимального управления и его единственность. Эти вопросы в случае нелинейных систем общего вида не решены еще с достаточной для приложений полнотой. Проблема осложняется также тем обстоятельством, что из единственности оптимального управления не следует единственность управления, удовлетворяющего необходимым условиям. К тому же, обычно удовлетворяется какое-либо одно, наиболее важное необходимое условие (чаще всего – принцип максимума).
Проверка дальнейших необходимых условий бывает достаточно громоздкой. Это показывает важность любой информации о единственности управлений, удовлетворяю-щих необходимым условиям оптимальности, а также о конкретных свойствах таких управлений.
Необходимо предостеречь от заключений о существовании оптимального управления на основании того факта, что решается «физичная» задача. На самом деле, при применении методов теории ОП приходится иметь дело с математической моделью. Необходимым условием адекватности описания физического процесса ММ как раз и является существование решения для математической модели. Поскольку при формировании математической модели вводятся различного рода упрощения, влияние которых на существование решений трудно предсказать, доказательство существования является отдельной математической проблемой.
Таким образом:
• из существования ОУ вытекает существование, по крайней мере, одного управления, удовлетворяющего необходимым условиям оптимальности; из существования управления, удовлетворяющего необходимым условиям оптимальности, не вытекает существование оптимального управления;
• из существования ОУ и единственности управления, удовлетворяющего необходимым условиям, вытекает единственность оптимального управления; из существования и единственности ОУ не следует единственность управления, удовлетворяющего необходимым условиям оптимальности.
1.4. Общая характеристика результатов, которые могут быть получены методами теории оптимального управления
ТОП является основой единой методологии проектирования оптимальных движений, технических, экономических и информационных систем. В результате применения методов ТОП к задачам конструирования различных систем могут быть получены:
1) оптимальные по тому или иному критерию временные программы изменения управляющих воздействий и оптимальные значения постоянных управляющих (проектных, настроечных) параметров с учетом различного рода ограничений на их значения;
2) оптимальные траектории, режимы с учетом ограничений на область их расположения;
3) оптимальные законы управления в форме обратной связи, определяющие структуру контура системы управления (решение задачи синтеза управления);
4) предельные значения ряда характеристик или иных критериев качества, которые затем можно использовать как эталон для сравнения с другими системами;
5) решение краевых задач попадания из одной точки фазового пространства в другую, в частности, задача попадания в заданную область;
6) оптимальные стратегии попадания в некоторую движущуюся область.
1.5. Условие рационального применения методов оптимизации
Методы оптимизации управления рационально применить:
1) в сложных технико-экономических системах, где отыскание приемлемых решений на основе опыта затруднительно. Опыт показывает, что оптимизация малых подсистем может приводить к большим потерям в критерии качества объединенной системы. Лучше приближенно решить задачу оптимизации системы в целом (пусть в упрощенной постановке), чем точно для отдельной подсистемы;
2) в новых задачах, в которых отсутствует опыт формирования удовлетворительных характеристик процесса управления. В таких случаях формулировка оптимальной задачи часто позволяет установить качественный характер управления;
3) на возможно ранней стадии проектирования, когда имеется большая свобода выбора. После определения большого количества проектных решений системы становится недостаточно гибкой и последующая оптимизация может не дать существенного выигрыша.
При необходимости определить направление изменения управления и параметров, дающих наибольшее изменение критерия качества (определение градиента качества).
Следует отметить, что для хорошо изученных и долго эксплуатируемых систем методы оптимизации могут давать небольшой выигрыш, так как найденные из опыта практические решения обычно приближаются к оптимальным.
В некоторых практических задачах наблюдается определенная «грубость» оптимальных управлений и параметров, т.е. большим локальным изменением управлений и параметров отвечают малые изменения критерия качества. Это дает иногда повод к утверждению, что на практике всегда пологие и строгие методы оптимизации не нужны. На самом деле «грубость» управления наблюдается лишь в случаях, когда оптимальное управление соответствует стационарной точке критерия качества. В этом случае изменение управления на величину ε приводит к отклонению критерия качества на величину ε2.
В случае управлений, лежащих по границе допустимой области, указанная грубость может и не иметь место. Это свойство должно исследоваться для каждой задачи специально. Кроме того, в некоторых задачах даже небольшие улучшения критерия качества, достигаемые за счет оптимизации, могут иметь существенное значение.
Сложные задачи оптимизации управления часто предъявляют чрезмерные требования к характеристикам ЭВМ, используемых при решении.
2. ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ МАТЕМАТИЧЕСКОЙ ТЕОРИИ ОПТИМАЛЬНЫХ ПРОЦЕССОВ УПРАВЛЕНИЯ
2.1. Математические модели. Переменные состояния (фазовые координаты) управляемого процесса
ТОП управления имеет дело с ММ технических или экономических (ТЭ) задач оптимизации процесса управления физическими системами. ММ есть достаточно полная сводка функциональных соотношений, описывающих основные свойства физических объектов, процессы их функционирования и управления в рамках выбранной степени приближения и детализации и отражающая все существенные требования к конкретным техническим характеристикам системы.
Математическая модель ТЭ задачи оптимизации процесса управления состоит из ряда частных математических моделей, включая ММ управляемого процесса, математическая модель ТЭ ограничений на величины управляющих воздействий и на возможное расположение на траектории, математическое описание показателя эффективности (критерия качества) процесса управления и т.д.
Математическая задача оптимизации процесса управления считается полностью определенной (корректно поставленной), если точно описаны все элементы ММ, представленные в табл. 1.
В основе ММТЭ задачи ОПУ лежит ММ управляемого процесса. Эта модель основывается на понятии переменных состояния (фазовых координат), которые вводятся в задачу следующим образом.
Пусть управляемая система S может быть идеализирована настолько, что в каждый фиксированный момент времени, наблюдения t = t′ на интервале T = {t, t0≤t ≤ t1}, t′∈ T ее свойства могут быть описаны конечным множеством действительных чисел , которые рассматриваются как компоненты некоторого вектора
.
При изменении момента времени наблюдения, вообще говоря, изменяется и вектор х. Это изменение может быть вызвано приложенными к объекту воздействиями. Если и при t > t′ свойства системы по-прежнему полностью описываются вектором и если n – наименьшее количество величин , с помощью которых оказывается возможным предсказать значение при всех t > t′ по известным значениям и известным на Т значениям приложенных воздействий, то вектор называется вектором состояния (детерминированной) системы S в момент t (или векторам фазовых координат).
Величины называются компонентами вектора состояния, или фазовыми координатами.
Множество всех возможных состояний в различные моменты времени t ∈ T образуют n-мерное пространство состояний (n-мерное фазовое пространство), точка является изображающей точкой этого пространства.
Вектор , т.е. состояние в момент t, называется событием (фазой). Множество всех возможных событий z образует пространство событий. Точка является изображающей точкой пространства событий.
2.2. Управление
Система S называется управляемой на отрезке (одно из определений управляемости) , если ее поведение при t>t0 зависит только от начального состояния , будущего поведения некоторого переменного вектора u (входа системы) , называемого управляющим вектором (или просто управлением) u, и постоянного вектора a:
,
называемого вектором управляющих (проектных) параметров.
Вектор u принимает значение из некоторого множества m-мерного пространства с координатами . Это множество может быть всем пространством или его частью . – чаще всего компактное множество пространства .
Множество называется множеством допустимых значений управления. Некоторые виды множества приведены на рис. 2.
Рис. 2 Виды множества U2 допустимых управлений:
а – в – замкнутые ограничения выпуклые области, содержащие начало
координат; г – невыпуклая область, не содержащая начало координат;
д – невыпуклые одномерные области , ;е – дискретное множество допустимых значений (1 – 4 изолированные точки)
Постоянный вектор a обычно принадлежит некоторому замкнутому множеству .
2.3. Эволюция состояния системы. Дифференциальные уравнения движения
Изменение состояния (эволюция) системы S на временном интервале часто с хорошей степенью приближения описывается системой обыкновенных дифференциальных уравнений первого порядка:
(1)
где – вектор состояния; – управляющий вектор; – вектор проектных параметров.
Система (1) образует существенную часть математической модели динамической системы S. В ММ, описываемой системой ДУ, формальным признаком переменной состояния x является наличие ее производной в левой части системы (1). Управляющая переменная u входит только в правую часть системы (1) и не встречается под знаком производной (это формальный признак управляющей переменной).
Предполагается, что вектор-функция f(t, x, u, a) определена для любых значений , , ,, непрерывна по совокупности переменных t, x, u, a и непрерывно дифференцируема по x, a. Хотя гладкость является достаточно жестким требованием и может быть заменена требованием измеримости и ограниченности. Так как поведение вектора u может быть произвольным (за исключением условия и, кроме того, можно произвольно выбрать постоянный вектор , то система уравнений (1) определяет управляемый процесс. Ход управляемого процесса будет определен на некотором интервале , если на этом интервале вектор u задан в одной из двух форм:
(2)
(3)
Вектор-функцию u(t) называют программным (временным) управлением, а вектор-функцию v(x, t) – координатным управлением или законом управления. Закон управления (3) физически выражает известный принцип обратной связи, согласно которому величина управляющего воздействия определяется на основании измерения текущего состояния системы x и, быть может, момента времени t.
Каждому выбору векторов управляющих параметров a и управления u (вида (2), (3)) и каждому начальному состоянию соответствует по (1) временная последовательность состояний , которая называется фазовой траекторией (поведением, эволюцией, движением) системы S. Пара вектор-функций {u(t), x(t)} или {v(x, t), x(t)} называется процессом управления или режимом.
2.4. Функционал. Критерий качества управления
Величина называется функционалом функции u(t) на отрезке , если каждой функции u(t), , принадлежащей некоторому классу функций, поставлено в соответствие определенное число,, и т.д.) из R.
Таким образом, функционал J[u(t)] – это отображение, в котором роль независимого переменного (функционального аргумента) играет функция u(t). При этом J[u(t)] зависит от совокупности всех значений, принимаемых функцией u(t) на отрезке , и может рассматриваться как функция бесконечного числа независимых переменных.
Для каждого фиксированного конечного момента времени t1 = t′1 состояние системы S, движущейся из начального состояния в соответствии с уравнением (1), является одновременно векторным функционалом (т.е. вектором, компонентами которого являются функционалы) от управления u(t) и вектор-функцией от вектора a и вектора начальных условий . Критерии качества процессов управления являются функционалами.
Достаточно общая форма критерия качества в ТОП имеет вид
, (4)
где x(t) удовлетворяет системе (1); u(t) – некоторое выбранное управление; а – управляющий параметр.
В частности, каждую из координат системы (1) можно записать в форме
, .
2.5. Автономные системы
Если правые части (1) и функции Φ и f0 в (4) от времени явно не зависят, то соответствующая задача называется автономной:
;
.\
Автономные системы инвариантны относительно сдвига вдоль оси t, поэтому для автономных систем важна только длительность процесса и можно положить t0 = 0.
2.6. Допустимое программное управление
Вектор-функция u(t) называется допустимым программным управлением в задаче, если:
а) u(t) принадлежит к выбранному классу в большинстве практических приложений кусочно-непрерывных по t на интервале функций, т.е. может иметь лишь конечное число точек разрыва первого рода;
б) значения u(t) принадлежат заданному множеству для всех .
Кусочно-непрерывные управления соответствуют предположению о «безынерционности».
Если желательно учесть «инерцию», то следует искать управление в классе непрерывных кусочно-гладких функций u(t). Такой класс допустимых управлений иногда сводится к предыдущему путем введения нового безынерционного управления , связанного со «старым» управлением u(t) соотношением
(5)
где ; .
Если Um – замкнутая и ограниченная область, то это означает, что введены ограничения на значения первых производных от вектор-функцииu(t).
Кусочно-непрерывным функциям отвечают кусочно-гладкие функции u(t) в силу (5). Таким образом, в новой задаче u(t) становится переменной состояния, управляемой посредством через систему (5).
Если условие в новой задаче можно снять, то задача сводится к предыдущей для кусочно-непрерывного управления .
В противном случае следует обратиться к задаче оптимизации с ограничениями на фазовые координаты. На рис. 3 приведены примеры управлений, принадлежащих как к классу кусочно-непрерывных функций, так и к другим классам.
а) б)
в) г)
д) е)
Рис. 3 Примеры управлений uj (t), принадлежащих различным классам функций:а – гладкое управление; б – кусочно-гладкое непрерывное управление;в – непрерывное управление (в окрестности uj (t), t не дифференцируема); г – кусочно-непрерывное управление; д – управление, не являющеесякусочно-непрерывным ( содержит бесконечное число переключений вокрестности t1);– элемент последовательности, сходящейся к функции, разрывной в каждой точке; е – управление, содержащееδ-функции Дирака; – константы
Рассмотрение допустимых управлений в классе кусочно-непрерывных функций объясняется тем, что для оптимизации функционалов на этом классе функций разработан соответствующий математический аппарат – принцип максимума.
Для каждого допустимого управления u(t) в силу сделанных предположений относительно f(t, x, u) существует единственное абсолютно-непрерывное решение системы , которое удовлетворяет системе (1) почти всюду на [т.е. за исключением конечного числа или счетного множества точек разрыва функции u(t)] и при t = t0 принимает заданное значение .
2.8 Допустимые траектории и процессы
Фазовая траектория x(t) системы S называется допустимой, если:
а) она получена из решения системы ДУ при допустимом управлении u(t) или при допустимом законе управления v(x, t);
б) значения x(t) принадлежат заданной области пространства состояний
Управляемый процесс (x, u) называется допустимым, если в нем под действием допустимого управления u(t) или допустимого закона управления v(x, t) реализуется допустимая траектория.
2.9 Граничные условия. Краевая задача
Цель управляемого процесса (x, u) состоит в переходе системы S из некоторого заданного при t = t0 начального состояния в заданное конечное состояние за время .
При этом все компоненты векторов x0 , x1 и моменты времени t0, t1 обязательно должны быть фиксированными, некоторые могут оставаться не заданными (свободными). В общем случае система S в начальный и конечный моменты времени может находиться в состояниях, описываемых уравнениями вида
; (6)
(7)
или более общими уравнениями вида
, (8)
где .
Уравнения (6) и (7) описывают (при фиксированном управляющем параметре а обычно поверхность размерности и и в пространстве (t, x) называются раздельными граничными условиями для концов фазовой траектории. Примеры граничных условий приведены на рис. 4.
Рис. 4 Примеры граничных условий:
a – левый и правый концы фазовой траектории закреплены;б – левый конец закреплен, правый – свободен; в – левый и правый концы подвижные; г – левый конец закреплен, правый – свободен, за исключением координаты x1; д – общий случай подвижных граничных условий; е – граничные условия в задаче встречи движений; ----------------- – оптимальная траектория; - - - - - - – произвольная траектория
Уравнения (8) называются смешанными граничными условиями. Если значения фазовых координат в момент t0 (или t1) не фиксируются, то граничные условия для левого (или правого) конца траектории называются свободными. Раздельные условия вида (6) и (7) часто называют подвижными граничными условиями.
Определение уравнений u(t), при которых решение системы (1) удовлетворяет условиям (6) и (7), называется двухточечной краевой задачей.
Перевод начального состояния x0 в конечное состояние x1 на заданном отрезке [t0, t1] не всегда возможен. Однако, если найдется хотя бы одна пара векторов {u(t), a} или {v(x, t), a}, осуществляющая указанный переход, то обычно существуют и другие пары векторов, реализующие этот же самый переход. В этом случае каждой паре {u(t), a} соответствует определенное значение критерия качества J[u, a]. Можно ставить задачу об отыскании таких {u(t), a}, которые минимизируют или максимизируют этот критерий.
3. ОПТИМАЛЬНЫЕ СИСТЕМЫ
3.1. Понятие оптимальной системы
Оптимальные системы – это системы, в которых заданное качество работы достигается за счет максимального использования возможностей объекта, иными словами это системы, в которых объект работает на пределе своих возможностей.
Рассмотрим объект, представляющий собой апериодическое звено первого порядка, условное графическое обозначение которого приведено на рис. 2.1.
Рис. 3.1. Структурная схема объекта
Требуется выполнить для него расчет регулятора, обеспечивающего переход из начального состояния y0 в заданное конечное состояние при ограниченном ресурсе управления и .
Передаточная функция системы
. (3.1)
Переходная функция такой системы при выглядит следующим образом (рис. 3.2)
Рис. 3.2. Переходная функция системы при U= const
Рассмотрим ситуацию, когда на вход объекта подаем максимально возможное управляющее воздействие, т.е. когда минимально возможное время перехода y из нулевого состояния в конечное для данного объекта.
Для получения такого перехода существует два закона управления:
программное управление
(3.3)
управление по обратной связи
(3.4)
Второй закон более предпочтителен и позволяет обеспечить управление при помехах.
Рис. 3.3. Структурная схема системы с законом управления типа обратной связи
3.2. Постановка задачи синтеза оптимальных систем
Решение задачи синтеза оптимальной системы начинают с описания заданных реальных элементов системы математическими соотношениями (составления математической модели системы). Далее устанавливают имеющиеся ограничения для координат системы и анализируют характеристики сигналов внешних воздействий, а также составляют математическое выражение заданного критерия качества. После того как задача синтеза математически сформулирована, ее решают соответствующими математическими методами, в результате чего находят функцию управления из условия минимума или максимума показателя качества, определяющего оптимальный режим работы объекта.
Математическая модель объекта задается переменными состояния
, (3.5)
где xRn, uRm, m≤n, функция f(x,u) непрерывна, дифференцируема по всем аргументам и удовлетворяет условию существования и единственности решения дифференциального уравнения. Эта функция является нелинейной, но стационарной.
В качестве частных случаев объект может иметь вид нелинейной системы с аддитивным управлением
(3.6)
либо линейной системой
(3.7)
Множество начальных и конечных состояний может иметь различные характеристики. Задача оптимального перехода из начального состояния в конечное представляет собой краевую задачу, где начальные и конечные точки могут быть заданы одним из четырех способов, представленных на рис. 3.4.
Для объекта множество начальных состояний может в общем случае совпадать со всем множеством состояний либо с рабочей областью, а множество конечных состояний является подпространством множества состояний или рабочей области.
На начальном этапе синтеза (этап постановки задачи) необходимо убедиться, что множества начальных и конечных состояний находятся в рабочей области пространства состояний.
Рис.3.4. Фазовые портреты перехода системы из начального состояния в конечное для различных задач: а) задача с фиксированными концами, б) задача с фиксированным левым концом, в) задача с фиксированным правым концом, г) задача с подвижными концами
Пример 3.1. В любую ли точку пространства состояний можно перевести объект, описываемый системой уравнений ?
.
Решение. Запишем уравнения статики для данного объекта
Подставив во второе уравнение значение u из первого уравнения
,
получим
;
Получили множество конечных состояний, описываемое уравнением
.
Множество конечных состояний, задаваемое для объекта (системы), должно быть реализуемым (т.е. в него объект можно перевести и стабилизировать в нем). В рассматриваемом случае оно представляет собой прямую.
Ограничения на состояния и управление определяются тем, что переменные, характеризующие систему, всегда ограничены по модулю в силу естественных свойств системы либо на эти переменные по условиям эксплуатации могут накладывать специальные ограничения. В связи с этим все ограничения координат в системах автоматического управления САУ можно разделить на два типа: естественные и условные.
Естественные ограничения фазовых координат обусловлены принципом работы объекта. Например, скорость гидравлического сервомотора не может превзойти величины скорости при полностью открытом золотнике; частота вращения асинхронного электродвигателя не может быть больше синхронной. Выходные сигналы усилителей ограничены из-за явления насыщения.
Условные ограничения координат вводят сознательно. Например, величину тока якоря электродвигателя постоянного тока ограничивают условиями нормальной коммутации на коллекторе, нагревом токоведущих частей (предельной температурой изоляции обмоток). Наличие условных ограничений обычно обусловливает введение ограничений на управление объектом: .
Ограничения на состояния и управление определяют некоторую область Ω в пространстве состояний, общий вид которой показан на рис. 3.5. Часто он имеет вид набора линейных ограничений вида, .
Рис. 3.5. Общий вид рабочей области пространства состояний
Аналогично для реальных систем задаются ограничения на ресурс управления , (рис. 2.6).В ряде случаев ограничения задают в виде функционалов. Так, ограничения на нагрев для двигателя постоянного тока определяются интегралом
(3.8)
где Rя – сопротивление обмотки якоря двигателя; iя(t) – ток якоря; Wдоп – допустимая энергия, расходуемая на нагрев двигателя.
Рис.3.6. Вид рабочей области пространства управлений, заданной модульными соглашениями
Задача синтеза оптимального регулятора решается при условии ограничений на управление и ограниченном ресурсе.
На практике имеют место также ограничения координат выходных переменных yj многомерного объекта: , где Rm – m-мерное пространство.
Критерии оптимальности математически выражается как требование обеспечения минимума или максимума некоторого показателя качества, называемого критерием оптимальности или целевой функцией.
В качестве критерия оптимальности могут быть приняты различные технические и технико-экономические показатели и оценки. Например, он может отражать технико-экономическую выгоду (производительность, КПД, прибыль и т. п.), при этом оптимальное управление должно обеспечивать максимум критерия оптимальности; он может выражать также потери (расход энергии, топлива, средств и т. п.), в этом случае оптимальное управление должно обеспечивать его минимум.
Критерий оптимальности в обобщенной форме отражает требования к качеству переходных процессов в замкнутой системе. Требования задаются в обобщенном виде, а именно в виде интегрального функционала. В общем случае функционал зависит от фазовых координат xi(t), где t =1, 2, ..., n; координат управления ul(t), где l =1, 2, ..., r; и возмущающих воздействий fвj(t), где j = 1, 2, ..., k, и может быть представлен как
(3.8*)
где [t0, tk] – рассматриваемый интервал времени; F(...) – функция, отражающая показатель качества; X, u,fв(t) – векторы фазовых координат, управлений и возмущений соответственно.
Достижение максимального (или минимального) значения этого функционала указывает на оптимальное поведение или состояние системы.
Критерии типа (3.8*) называют скалярными, если они представляют только один частный критерий из совокупности всех критериев, характеризующих качество автоматических систем.
Общий вид критерия оптимальности:
, (3.9)
Частные виды критерия оптимальности (назначаются при выделении некоторого качества наиболее существенным):
1) критерий оптимальности, обеспечивающий минимум времени переходного процесса (решается задача оптимального быстродействия)
; (3.10)
Полученная при этом система является оптимальной по быстродействию, если обеспечивается минимум интеграла (3.10) с учетом ограничений координат.
В качестве критерия оптимальности могут быть применены известные в теории автоматического управления интегральные оценки качества переходного процесса. При использовании, например, квадратичной интегральной оценки система будет оптимальной, если обеспечивается минимум интеграла
, (3.11)
где (t) = yз– y(t) – отклонение выходной переменной у(t) от заданного значения уз.
Полученная при этом система является оптимальной по точности в динамических режимах при отработке ненулевых начальных условий или единичном задающем воздействии.
2) критерий оптимальности, обеспечивающий минимум затрат энергии:
по одной из компонент (переменной состояния)
; (3.12)
по всем переменным состояния
; (3.13)
по одному управляющему воздействию
; (3.14)
по всем управляющим воздействиям
; (3.15)
по всем компонентам (в самом общем случае)
, (3.16)
где P матрица квадратичной формы по состоянию размера n×n, Q – аналогичная матрица по управлению.
Если скорость протекания технологического процесса такова, что критерий оптимальности типа (3.16) нельзя считать неизменным во времени, то необходимо оптимизировать технологический процесс в динамике, используя функционал, например, вида
. (3.17)
В тех случаях, когда необходимо обеспечить наилучшую работу системы в наихудших возможных условиях, применяют критерий оптимальности, называемый минимаксным.
Задача оптимального управления системами состоит в достижении экстремального значения показателя эффективности (критерия качества), который выступает в этом случае в роли целевой функции оптимального управления.
Задача математического описания целевой функции оптимального управления состоит в формализации требований, предъявляемых к системе управления, т.е. в выражении их в терминах логики и математики.
Основными критериями качества автоматических систем являются: стоимость разработки, изготовления и эксплуатации систем; качество функционирования; надежность; потребляемая энергия; масса; объем и т. п. Каждый из этих частных критериев является некоторой функцией нескольких переменных, характеризующих систему в целом.
Функция цели оптимального управления должна быть представлена в форме, допускающей использование какого-либо известного метода синтеза оптимальных систем. При разработке простейших локальных систем управления обычно рассматривают задачу оптимизации по критериям, характеризующим качество функционирования системы (точность и быстродействие), а остальные частные критерии не учитывают.
Форма результата.Необходимо оговорить в каком виде будем искать управляющее воздействие.
Возможны два варианта оптимального управления U0:
–u0 = u0(t) – используется при отсутствии возмущения,
–u0 = u0(y) – оптимальное управление в виде обратной связи (замкнутое управление).
Формулировка задачи синтеза оптимальной системы в общем виде:для объекта, описанного переменными состояния с заданными ограничениями и множеством начальных и конечных состояний, необходимо найти управляющее воздействие, обеспечивающее качество процессов в замкнутой системе, соответствующее критерию оптимальности.
3.3. Методы классического вариационного исчисления
Основными формулами вариационного исчисления, c помощью которых ищутся стационарные точки и экстремумы функционалов являются уравнения ЭйлераЛагранжа (в физике также уравнения Лагранжа Эйлера или уравнения Лагранжа). В частности, эти уравнения широко используются в задачах оптимизации, и, совместно с принципом наименьшего действия, используются для вычисления траекторий в механике. В теоретической физике вообще это (классические) уравнения движения в контексте получения их из написанного явно выражения для действия (лагранжиана).
Уравнение Эйлера Лагранжа было получено в 1750-х годах Эйлером и Лагранжем при решении задачи об изохроне. Это проблема определения кривой, по которой тяжёлая частица попадает в фиксированную точку за фиксированное время, независимо от начальной точки.
Лагранж решил эту задачу в 1755 году и отослал решение Эйлеру. Развитый впоследствии метод Лагранжа и применение его в механике привело к формулировке лагранжевой механики. Переписка учёных привела к созданию вариационного исчисления (термин придумал Эйлер в 1766 году).
Пусть задан функционал
с подынтегральной функцией , обладающей непрерывными первыми частными производными и называемой функцией Лагранжа или лагранжианом, где через обозначена первая производная f по t. Если этот функционал достигает экстремума на некоторой функции, то для неё должно выполняться обыкновенное дифференциальное уравнение
,
которое называется уравнением Эйлера Лагранжа.
Использование уравнения Эйлера Лагранжа для нахождения оптимального управления рассмотрим на следующем примере.
Пример3.2. Для объекта управления, заданного системой дифференциальных уравнений
определить управление, оптимальное для перехода из начального состояния при в конечное при со значениями переменных состояния
по критерию оптимальности
.
Решение. Составляем расширенный функционал качества
Подынтегральное выражение в данном случае будет иметь вид
.
Найдем частные производные по всем переменным и их производным
Составляем систему уравнений Эйлера-Лагранжа
которая в нашем случае будет иметь вид
Перепишем в форму Коши
Используя представление из последнего уравнения этой системы можно представить предпоследнее уравнение в виде
и записать всю систему как
Т.о. получили систему 4-х уравнений с 4-мя неизвестными. Запишем ее в матричной форме
Характеристический полином системы
Корни характеристического полинома
Корни комплексно-сопряженные, поэтому будут иметь вид
Воспользовавшись любым известным методом решения дифференциальных уравнений, найдем неизвестные постоянные C1, C2, C3, C4.
Подставляя вычисленные значения постоянных в приведенные выше выражения, получим уравнения оптимальных состояний
Подставляя теперь оптимальные законы изменения состояний в исходную систему дифференциальных уравнений объекта, можно получить выражение для оптимального управления u.
3.4. Метод динамического программирования
Метод динамического программирования был предложен в начале 50-х годов ХХ в. Р. Беллманом и нашел применение, в том числе и для синтеза оптимальных систем управления. Математической основой его является вариационное исчисление, а в основу вывода основных соотношений метода положен принцип оптимальности.
Принцип оптимальности. Формулировка принципа: конечный участок оптимальной траектории есть также оптимальная траектория.
Смысл этой формулировки состоит в том, что если движение системы в фазовом пространстве (рис. 3.7) происходит по оптимальной траектории, то участок этой траектории, начиная с произвольной точки и до конечной точки, является оптимальным.
Рис. 3.7. Фазовый портрет перехода системы из начальной точки в конечную в пространстве состояний
Если бы переход из промежуточной точки в конечную не
осуществлялся бы по оптимальной траектории, то для него можно было бы найти свою оптимальную траекторию. Но в этом случае переход из начальной точки в конечную проходил бы по другой траектории, которая должна была бы быть оптимальной, а это невозможно, так как оптимальная траектория единственная.
Основное уравнение Беллмана. Рассмотрим объект управления
произвольного вида
, xRn , uRm, m ≤ n, (3.18)
при ограничениях ресурсов на переменные . и на управление.
Необходимо обеспечить переход из начальной точки в конечную с критерием оптимальности
. (3.19)
Рассмотрим переход в пространстве состояний. Выберем на оптимальной траектории точку , достаточно близкую к начальной точке (рис 3.8).
Рис. 3.8. Фазовый портрет перехода системы из начальной точки в конечную: x(t) – текущая (начальная) точка, x(t+Δt) – промежуточная точка
В соответствии с принципом оптимальности конечный участок траектории является оптимальным, поэтому для оптимальности
траектории в целом нужно оценить оптимальность движения системы лишь на начальном участке.
Представим критерий оптимальности в виде сумм двух критериев, соответствующих двум участкам движения.
(3.20)
Преобразуем выражение (3.20) к виду
(3.21)
Заменив второй интеграл на функцию нижнего предела критерия оптимальности получим
(3.22)
При малом значении Δt введем в (3.22) допущения:
первый интеграл приближенно заменим произведением
(3.23)
разложим вспомогательную функцию в ряд Тейлора
, (3.24)
где R остаточные члены ряда разложения, которыми можно
пренебречь. Тогда выражение (3.22) можно записать в виде
(3.25)
Выполняя дальнейшие преобразования, получим
, (3.26)
где и есть критерий оптимальности J (см. 2.8), а квадратная скобка при принятых допущениях обращается в нуль. В результате получим
. (3.27)
Разделим обе части выражения на Δt и устремим Δtк нулю.
, (3.28)
где (см. (3.18)). В результате получим основное уравнение Беллмана
(3.29)
Отсюда следует, что оптимальным будет управление, минимизирующее выражение (3.29). К сожалению, использовать его для вычисления нельзя, поскольку оно содержит m + 1 неизвестную величину, поскольку , а .
Расчетные соотношения метода динамического программирования. При оптимальном управлении выражение (2.26) принимает вид
(3.30)
Продифференцируем его по u вдоль оптимальной траектории m раз
Добавив полученные уравнения к (3.27), получим систему из (m+1) уравнений.
Для ограниченного круга объектов решение полученной системы уравнений дает точное оптимальное управление. Такая задача носит название задачи АКОР (аналитического конструирования оптимальных регуляторов).
Объекты, для которых рассматривается задача АКОР, должны удовлетворять следующим требованиям:
объект описывается линейным уравнением состояния:
;
переход из начальной точки в конечную рассматривается на бесконечном интервале времени: T ,
критерий оптимальности должен быть квадратичным
,
а оптимальное управление будет иметь вид,т.е. оптимальным для АКОР является пропорциональный закон управления.
Пример 3.3. Для объекта, описываемого уравнением
,
необходимо обеспечить переход из x(0) в x(T) по критерию оптимальности
,
Решение. Основное уравнение динамического программирования в этом случае приобретает вид
.
Дополним его уравнением в частных производных
и выразим из второго уравнения , а затем подставим его в первое. В результате получим
или после приведения подобных членов
.
Решение квадратного относительно управления уравнения дает значения
U1= 5x,
U2= –6x.
Поскольку оптимальное управление единственно, а получено
два управления, то одно из них не является оптимальным. Для выявления оптимального управления проверим систему на устойчивость.
Проанализировав объект на устойчивость, получим
U0 = U2 = –6.
3.5. Принцип максимума Понтрягина
Он был сформулирован практически одновременно с формулировкой методом динамического программирования и составляет основу метода расчета оптимальных систем. Впоследствии оказалось, что один метод может быть выведен из другого.
Рассмотрим основные соотношение принципа максимума на основе метода динамического программирования. Начнем рассмотрение с выражения (3.27), которое перепишем в виде
(3.31)
или, поскольку минимум функции равен максимуму от той же функции с противоположным знаком
(3.32)
При этом объект должен по-прежнему удовлетворять требованиям метода АКОР
Введем расширенный за счет нулевой компоненты, в качестве которой выбираем критерий оптимальности, вектор состояний zRn+1.
. (3.33)
Введем также расширенный за счет функции, стоящей под интегралом в критерии оптимальности, вектор правых частей φRn+1.
(3.34)
Введем, наконец,Ψ – вектор сопряженных координат ψRn+1
(3.35)
Для дальнейшего изложения введем понятие гамильтониана. Hamiltonian аналог Лагранжиана для задач классической математической теории оптимальных процессов. Обозначается буквой H. В общем случае, если в каждый момент времени гамильтониан достигает максимума относительно управляющих параметров (при некоторых дополнительных условиях и ограничениях, наложенных на эти параметры), траектория оказывается оптимальной. Входящие в состав гамильтониана сопряженные переменные (динамические аналоги множителей Лагранжа, возникающих в статических задачах оптимизации) иногда называют теневыми ценами.
Сформируем Гамильтониан, представляющий собой скалярное произведение Ψ и φ(z,u)
. (3.36)
Заменим входящие в правую часть сомножители их представлениями (2.31) и (2.32), тогда получим
или окончательно
.
С учетом последнего выражения запишем (2.29) в виде
(3.37)
Уравнение (3.37) называется основным уравнением принципа максимума Понтрягина, основанным на уравнении динамического программирования: оптимальным является управление, которое на заданном интервале времени доставляет максимум гамильтониана.
Если бы ресурс управления не был бы ограничен, то для определения оптимального управления можно было бы воспользоваться необходимыми и достаточными условиями экстремума
. (3.38')
В реальной ситуации,когда оптимальное управление,
вычисленное с помощью (3.38’), может оказаться за пределами допустимых значений, для отыскания оптимального управления необходимо анализировать величину гамильтониана при предельном значении уровня управления. В этом случае u0 будет функцией расширенных векторов состояний и сопряженных координат
u0 = u0(z, Ψ)
Для отыскания сопряженных координат необходимо решить систему уравнений
.
Процедура расчета системы по принципу максимума Понтрягина:
1. Уравнения объекта должны быть приведены к виду, стандартному для синтеза оптимальных систем.
, xRn, uRm, m≤n.
Необходимо оговорить также начальные и конечные состояния и записать критерий оптимальности
. (3.39)
2. Вводятся расширенный вектор состояний
, (3.40)
расширенный вектор правых частей
(3.41)
и вектор сопряженных координат
. (3.42)
3. Записываетсягамильтониан как скалярное произведение
, (3.43)
4. Находится максимум гамильтониана по u
, (3.44)
по которому определяется оптимальное управление u0(Ψ,z)
5. Записываетсясистема дифференциальных уравнений для вектора сопряженных координат
. (3.45)
Находятся сопряженные координаты как функцию времени
Ψ= Ψ(t). (3.46)
6. Определяется окончательный оптимальный закон управления
u0= u0(t) . (3.47)
Как правило, этот способ позволяет получить программный закон управления.
Пример 3.4.Для объекта, представленного на рис. 3. 9.
U y
Рис. 3.9. Модель объекта
необходимо обеспечить переход из начальной точки y(0) в конечнуюy(T)
x1(0)=0 x1(T)=1
x2(0)=0 x2(T)=0
за T= 1c с качеством процесса
Решение. 1. Передаточная функция системы
W(p) = y/U = 1/p2,
а система дифференциальных уравнений состояния
2. Поскольку описание объекта в переменных состояния известно, то формируем расширенные векторы состояния, правых частей и сопряженных координат
, , .
3. Формируем гамильтониан
= ψ0u2 + ψ1x2 + ψ2u.
и определим его максимум
,
откуда оптимальное управление как функция сопряженных координат
u0= ψ2/2ψ0.
5. Система дифференциальных уравнений для сопряженных координат
6. Теперь оптимальное управление может быть представлено как
Для определения констант b1 и b2 нужно решить краевую задачу. Запишем уравнение замкнутой системы
Определим переменные состояния в виде
При нулевых начальных () и единичных конечных () условиях записанные уравнения приобретают вид
Получили систему уравнений, из которой находим b2 = 6, b1 = 12.
Запишем закон управления
u0= 12t + 6.
Задача оптимального быстродействия. Рассмотрим снова общий класс объектов управления
, xRn, uRm, m≤n
Для объекта необходимо обеспечить переход из начальной точки в конечную за минимальное время c заданным качеством
(3.48)
при ограниченном законе управления..
Особенности задачи оптимального быстродействия. На основе процедуры синтеза в соответствии с принципом максимума расширенные векторы правых частей и сопряженных координат в этом случае имеют вид
,
Тогда гамильтониан быстродействия будет выглядеть так
(3.49)
и в соответствии с (2.40) равен нулю.
Поскольку в последнем выражении первое слагаемое не зависит от управления, то вместо (3.38') можно рассматривать усеченный гамильтониан (гамильтониан быстродействия)
,
для которого принцип максимума принимает вид
. (3.50)
Таким образом, при решении задачи оптимального быстродействия нет необходимости переходить к расширенным векторам состояния и правых частей. Нужно сформировать гамильтониан быстродействия и определить управление, соответствующее его максимуму.
Релейность(разрывность) управления. Эта особенность имеет место для релейных объектов, описываемых системой дифференциальных уравнений вида
, xRn, uRm, m≤n
с ограниченным ресурсом управления.
В этом случае гамильтониан быстродействия имеет вид
,
где i-й элемент вектора , а i-я строка матрицы.
Управление, обеспечивающее минимум гамильтониана с учетом ресурсных ограничений, имеет вид
Теорема о числе переключений управляющего воздействия.Эта теорема справедлива для линейных моделей с вещественными корнями характеристического уравнения.
det(pIA)=0 (3.51)
Λ(A) – вектор вещественных собственных чисел.Формулировка теоремы:
В задаче оптимального быстродействия с вещественными корнями характеристического уравнения число переключений не может быть больше, чем n1, где n – порядок объекта, следовательно, число интервалов постоянства управления не будет больше, чем n 1 (рис. 2.10).
Рис. 2.10. Вид управляющего воздействия при n= 3
При наличии комплексно-сопряженных корней в уравнении (3.51) число переключений теоретически не ограничено. В реальных системах оно, как правило, невелико.
Пример 3.5. Решить задачусинтеза оптимальной по быстродействию системы управления для объекта, описываемого системой дифференциальных уравнений:
при ресурсном ограничении по управлению и с критерием оптимальности
.
Расширенные векторы состояния, правых частей и сопряженных координат имеют следующий вид:
,
Запишем гамильтониан быстродействия
и определим оптимальное управление как
.
Для этого запишем систему дифференциальных уравнений для сопряженных координат
которое можно представить одним дифференциальным уравнением
,
либо соответствующим ему характеристическим уравнением
.
При его корни и будут вещественными и положительными, следовательно, оптимальное управление принимает вид
.
Сумма двух экспонент может либо один раз изменить знак, что соответствует однократному изменению управляющего воздействия, либо не изменит знака совсем, что соответствует отсутствию управляющего воздействия (рис.3. 11).
Рис. 3.11. Теорема переключений:
а одно переключение, б без переключений
Пример 3.6.
Дано:
Определить оптимальный закон управления.
Решение. Функция Гамильтона
или
.
Максимум гамильтониана достигается при , а знак определяется знаком функции.
Общий вид закона управления .Составим систему сопряженных уравнений
.
Постоянные интегрирования А1 и А2 найдем с использованием метода «сшивания решений»:
- в начальный момент времени t = 0
Т.к. и , получим:
Следовательно
В конечный момент времени: t = T , , ,
Получим:
Следовательно
Определим длительность Т и момент смены знака управляющего воздействия из условия неразрывности решения в момент времени Т = .
Откуда
= 0,4082, Т = 0,6532.
Теперь определим постоянные интегрирования А1 и А2 из уравнений функции Гамильтона в начальный и конечный моменты времени
Из записанных тождеств получаем
.
.
Тогда искомый закон управления
,
а окончательный вид системы уравнений для моделирования
,
или
Метод поверхности переключений. Данный метод позволяет найти управление функций переменной состояния для случая, когда оптимальное управление носит релейный характер
.
Таким образом, этот метод можно применять при решении задач оптимального быстродействия, для объекта с аддитивным управлением
,
.
Суть метода заключается в том, чтобы во всём пространстве состояний выделить точки, где происходит смена знака управления и объединить их в общую поверхность переключений.
,
- поверхность переключений
.
Закон управления будет иметь следующий вид
.
Для формирования поверхности переключений удобнее рассматривать переход из произвольной начальной точки в начало координат
.
Если конечная точка не совпадает с началом координат, то
необходимо выбрать новые переменные, для которых это условие будет справедливо.
Имеем объект вида
.
Рассматриваем переход , с критерием оптимальности
.
Этот критерий позволяет найти закон управления такого вида
,
с неизвестным , начальные условия нам также неизвестны.
Рассматриваем переход:
Метод обратного времени
(метод попятного движения)
Этот метод позволяет определить поверхности переключений.
Суть метода заключается в том, что начальная и конечная точки меняются местами, при этом вместо двух совокупностей начальных условий остаётся одна для.
Каждая из этих траекторий будет оптимальна. Сначала находим точки, где управление меняет знак и объединяем их в поверхность, а затем направление движения меняем на противоположное.
Пример. Передаточная функция объекта имеет вид
.
Критерий оптимальности быстродействия
Ограничение на управление .
Рассмотрим переход
.
1)
,
2)
.
3)
оптимальное управление будет иметь релейный характер
.
4) Перейдём в обратное время (т.е. ). В обратном времени задача будет иметь такой вид
.
5) Рассмотрим два случая:
1. .
Получим уравнения замкнутой системы
.
Воспользуемся методом непосредственного интегрирования, получим зависимость от и поскольку -, то имеем
,
т.к. начальные и конечные точки поменяли местами, то , получим
, (*)
аналогично
подставив (*), получим
,
отсюда
.
Построим получившееся и по методу фазовой плоскости определим направление
2.
Применив метод непосредственного интегрирования, получим:
,
,
.
Функция будет иметь вид:
Изменив направление
точка смены знака(точка переключения)
Общее аналитическое выражение:
.
Уравнение поверхности:
.
Оптимальный закон управления:
,
подставив уравнение поверхности, получим:
.
2.5. Субоптимальные системы
Субоптимальные системы – это системы близкие по свойствам к оптимальным
- характеризуется критерием оптимальности.
,
- абсолютная погрешность,
- относительная погрешность.
Субоптимальным называют процесс близкий к оптимальному с заданной точностью.
Субоптимальная система - система где есть хоть один субоптимальный процесс.
Субоптимальные системы получаются в следующих случаях:
при аппроксимации поверхности переключений (с помощью кусочно-линейной аппроксимации, аппроксимация с помощью сплайнов);
при в субоптимальной системе будет возникать оптимальный процесс.
ограничение рабочей области пространства состояний;
4. ПОНЯТИЕ ОБ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ ПРОЦЕССАХ
Для уменьшения времени протекания переходного процесса в инерционных объектах следует применять принцип форсирования процессов на отдельных интервалах времени посредством увеличения сигнала управления.
Рис. 5.1.
Рассмотрим для примера процессы нарастания ЭДС на выходе генератора (Г) постоянного тока (рис. 5.1). Пусть к обмотке возбуждения генератора (ОВГ) прикладывается скачкообразное по форме напряжение возбуждения UB (рис. 5.1,а). Так как переходный процесс определяется уравнением
, (5.1)
то нарастание э.д.с. во времени еГ(t) происходит по закону экспоненты (рис. 5.1,б):
, (5.2)
где kГ – коэффициент усиления генератора; Т – постоянная времени.
Если величина напряжения возбуждения равна номинальному значению Uв.н, то установившееся значение ЭДС генератора будет равно номинальному: Ег.н = kгUв.н (кривая 1 на рис.5.1,б). При величине напряжения возбуждения 2Uв.н получим соответственно 2Ег.н (кривая 2 на рис. 5.1,б).
Принцип форсирования процесса нарастания ЭДС генератора заключается в том, что на интервале времени 0tt1 к обмотке возбуждения ОВГ подводится повышенное напряжение возбуждения Uв>Uв.н, а в момент t1, когда ег(t1) = Eг.н, напряжение возбуждения уменьшается до номинальной величины Uв.н (рис. 5.1,в). В результате этого процесс нарастания ЭДС генератора будет иметь форму кривой 3, совпадающей в интервале 0tt1 кривой 2 (рис. 5.1,б). Следовательно, при таком воздействии на обмотку ОВГ получена меньшая длительность переходного процесса генератора: t1< 3Т.
Аналогично можно форсировать процессы уменьшения ЭДС на выходе генератора. Если, например, задано время tp, в течение которого ЭДС генератора должна измениться от заданного значения Eг.н до нуля, то требуемое максимальное напряжение возбуждения, прикладываемое к ОВГ на период 0 t tр,
, (5.3)
где .
Величина максимально возможного напряжения возбуждения генератора ограничивается обычно прочностью изоляции и возможностями источника электроэнергии, к которому подключена обмотка ОВГ.
Существуют также другие способы форсирования переходных процессов, например, посредством изменения коэффициента демпфирования [21], в результате чего требуется изменять параметры объекта на отдельных интервалах времени. Однако такой способ сложно реализовать и поэтому на практике для улучшения переходных процессов применяют нелинейные корректирующие устройства [17, 20].
При разработке оптимальных по быстродействию систем обычно используют принцип управления объектом при максимально допустимой величине сигнала управления , закон изменения которого определяют методами теории оптимального управления.
Форма кривой оптимальных переходных процессов системы определяется с учетом имеющихся ограничений координат. Примем, что зона нечувствительности в характеристиках объекта отсутствует. Если, например, по условиям работы объекта, представляющего собой идеальный интегратор первого порядка, ограничена скорость изменения управляемой переменной (первая производная)
, (5.4)
то процесс будет оптимальным по быстродействию, если первая производная в течение всего времени переходного процесса поддерживается на предельно допустимом значении:
,
откуда после интегрирования получим
. (5.5)
При нулевых начальных условиях значение С=0. В этом случае оптимальный по быстродействию переходный процесс определяется линейным законом у(t) = ±Umaxt. Процесс изменения выходной переменной объекта от нуля до заданного значения Yз за минимальное время tmin с учетом указанного ограничения показан на рис.5.2,а. Закон управления, определяющий изменение первой производной у(t), является в данном случае релейным и имеет один интервал включения сигнала управления.
Примером устройства, имеющего ограничение по скорости, может быть асинхронный электродвигатель, у которого установившаяся скорость не превышает синхронную; гидравлический серводвигатель, скорость которого не может превзойти его скорость при полностью открытом золотнике, и др.
Если же по условиям работы объекта, представляющего собой идеальный интегратор второго порядка, ограничено только ускорение изменения управляемой переменной (вторая производная)
, (5.6)
то процесс будет оптимальным по быстродействию при максимальной средней скорости изменения выходной переменной в течение всего времени переходного процесса. При этом в начале процесса следует наращивать скорость наиболее интенсивно, т. е. с максимально возможным ускорением и u = +Umax. Скорость будет нарастать по линейному закону, а выходная переменная – по параболе, поскольку после интегрирования (4.6) получим
(5.7)
При нулевых начальных условиях значения С11 = 0; С21 = 0.
Если поддерживать такой режим до прихода объекта в заданное положение (у = Yз), то в момент его достижения скорость движения будет отличной от нуля. Так как интенсивность замедления ограничена
Рис.5.2
условием (5.6), то торможение не может быть мгновенным, и, следовательно, объект пройдет заданное положение. Учитывая это, после точкиС (рис. 5.2,б) следует осуществить торможение с максимально возможным замедлением: и u = –Umах. При этом скорость будет убывать по линейному закону, а выходная переменная – нарастать до заданного значения по параболе, поскольку теперь после интегрирования (5.6) получим
(5.8)
Графики изменения у(t), скорости и ускорения показаны на рис. 5.2,б,в. Так как разгон и торможение производятся с одинаковыми ускорением и замедлением, то время переключения сигнала tп равно половине оптимального (минимального) времени tmin. График для первой производной в данном случае имеет вид равнобедренного треугольника с углом наклона (tg = Umax). Построенный таким образом переходный процесс является оптимальным с учетом ограничения только ускорения. В данном случае получено релейное управление с двумя интервалами включения реле.
Если, например, по условиям работы объекта, являющегося идеальным интегратором второго порядка, ограничены скорость и ускорение изменения выходной переменной [см. (5.4) и (5.6)], то на графике у(t) будет участок С1–С2, определяемый постоянной скоростью, равной уmax в пределах от t1 до t2, а вторая производная на этом участке равна нулю (рис. 5.3,а,б). Переходный процесс системы до точки С1 соответствует разгону с максимально возможным ускорением u = + Umax при нарастании скорости по линейному закону до предельного значения уmах. После точки С2 переходный процесс соответствует торможению с максимально возможным замедлением u=-Umax при убывании скорости от предельного значения до нуля. Полученный таким образом переходный процесс является оптимальным с учетом ограничений по первой и второй производным выходной переменной объекта. Закон управления объектом в данном случае характеризуется двумя интервалами включения реле и одним интервалом выключения реле между ними.
Рис. 5.3
Ограничение по второй производной накладывается, например, по условиям механической прочности некоторых деталей устройств, а также электрической и тепловой защиты изоляции.
Пользуясь полученными параболами, можно указать разработанный А.А. Фельдбаумом графический способ построения кривой оптимального процесса для объектов, являющихся идеальными интеграторами второго порядка. Для этого в начале координат построим две параболы I и II по уравнениям (рис. 5.4,а):
. (5.9)
Парабола I перемещается параллельно себе в такое положение, в котором значение координаты выхода объекта равно начальной величине. При отсутствии ограничений первой производной парабола II перемещается также параллельно себе в такое положение, при котором она имеет точку касания D с линией заданного установившегося значения выходной переменной объекта и точку касания Сс первой параболой I. На рис. 5.4,а показано построение для нулевых начальных условий, когда парабола I оставлена в исходном положении, а парабола II смещена параллельно себе вправо вверх. Участок кривой OCD, расположенный на параболах I и II, представляет собой оптимальный переходный процесс при ограничении только второй производной и соответствует переводу объекта из начального состояния у(0)=0 и в состояние у(Т) = Yз и .
Если ограничены первая и вторая производные, то наносят параболы I и II и линию ОА, угол наклона а которой определяется предельным значением первой производной , т. е. (рис. 5.4,б). После того как первая парабола смещена в положение, соответствующее заданным начальным условиям, к ней проводят касательную, параллельную линии ОА в некоторой точке С1. Далее смещают параболу II до точки касания с линией заданного значения выходной переменной (точка D) так, что она касается также линии, проведенной из точки С1 параллельно ОА, в некоторой точке С2 (рис. 5.4,б, где при t=0 принято у = 0).
Рис. 5.4
Полученные графики оптимальных переходных процессов при наличии ограничений второй производной (см. рис. 5.2,а,б), а также первой и второй производных (см. рис.5.3) указывают на необходимость применения нелинейного закона управления регулирующим органом, обеспечивающего изменение знака ускорений и скоростей управляемой переменной в соответствующие моменты времени.
Рассматривая формы полученных кривых оптимальных переходных процессов для простейших объектов первого и второго порядков, следует указать на существенное влияние ограничений, накладываемых в реальных условиях на координаты и производные. Это в свою очередь определяет форму закона управления объектом. В приведенных примерах (см. рис. 5.2 и 5.3) следует применить релейный закон управления. При ограничении только первой производной получен один интервал, на котором изменяется выходная переменная объекта с постоянной скоростью (см. рис. 5.2,а). При этом в момент времени t=0 включается реле, задающее скорость, равную предельной величине u=Umax. a при t=tmin выключается реле, обеспечивающее равенство нулю скорости изменения выходной переменной.
В случае ограничения только второй производной получено два интервала (см. рис. 5.2,в), на первом из которых выходная переменная объекта изменяется с постоянным ускорением (участок 0 ttп), а на втором – с постоянным замедлением (участок tпttmin).
Здесь при t = 0 включается реле, задающее ускорение, равное предельной величине u = +Umax, а при t = tп производится переключение реле, задающего замедление, равное предельной величине u = Umax (см. рис. 5.2,б). Таким образом, при ограничении второй производной требуется производить одно переключение реле.
Когда ограничены первая и вторая производные, кроме указанных интервалов ускорения и замедления, определяемых переключениями реле, имеется участок с постоянной скоростью изменения выходной переменной объекта при выключенном реле. На основании полученных оптимальных переходных процессов А.А.Фельдбаум сформулировал теорему об n интервалах. Доказательство этой теоремы дано авторами принципа максимума Понтрягина [12].
Теорема об n интервалах.Для получения предельного быстродействия (минимума времени переходного процесса) необходимо проектировать автоматические системы с учетом ограничений, наложенных на ее координаты, из условия минимума критерия качества (1.3). Системы управления называют оптимальными по быстродействию, если они обеспечивают минимум времени переходного процесса с учетом ограничений, наложенных на координаты управлений и выхода. Эти системы являются частным случаем оптимальных систем.
Пусть известна математическая модель объекта управления, например, в виде уравнений состояния типа
, (5.10)
где А – матрица размерности (); В – матрица размерности ()при rкоординатах управления.
Требуется определить допустимые управления u°(t) при наличии ограничений , переводящие объект из заданного начального X(t0)в заданное конечное состояние X(Т), из условия минимума функционала
(5.11)
При этом координаты вектора состояния X могут быть также ограничены: .
При решении задачи синтеза рассматривается оптимальное по быстродействию управление объектом либо без непосредственного использования координат вектора состояния X (разомкнутая система), либо с использованием координат вектора состояния X (замкнутая система). В связи с этим рассматриваемые системы делят на два основных типа: а) оптимальные по быстродействию разомкнутые системы; б) оптимальные по быстродействию замкнутые системы. Оба типа систем могут быть как одномерными, так и многомерными.
Синтез оптимальных по быстродействию систем производят методами теории оптимального управления. При этом основным методом является принцип максимума Понтрягина (см. гл. 3).
При решении задачи синтеза составляют функцию Гамильтона вида (3.135) и на основании условия (3.136) находят закон управления (3.137).
Запишем основные выражения, необходимые при решении задачи синтеза по принципу максимума (см. §3.6).: функция Гамильтона
;(5.12)
уравнение вектора вспомогательных переменных
; (5.13)
условие максимума функции Гамильтона
; , (5.14)
на основании которого находится закон оптимальных управлений при [cм.(3.137)]:
, (5.15)
где I – единичная матрица;
. (5.16)
Таким образом, уравнения (5.10), (5.13) и управления (5.15) составляют систему 2п + rуравнений вариационной задачи синтеза оптимальных по быстродействию управлений с 2п + rнеизвестными. Все эти неизвестные могут быть определены, если известны начальные условия xi(t0)и i(t). Сложность задачи состоит в том, что известны только начальные значения координат состояния объекта xi(t0)и неизвестны начальные значения i(t). Так как нет аналитических способов определения i(t0) в явном виде, то для их нахождения используют метод последовательных приближений (метод итераций) от некоторого исходного набора значений – начальное приближение – к окончательной совокупности , соответствующей решению оптимальной задачи. Один из способов такого решения состоит в следующем [12]. Взяв произвольно значения , найдем соответствующие им управления и траектории . Если полученные совпадают с заданными конечными значениями при т. е. вектор состояния Х°(Т) равен заданному вектору конечного состояния X(Т), то начальные значения выбраны правильно и задача решена. В том случае, когда траектории не проходят через заданные конечные значения хi(Т), необходимо выбрать другие значения и повторить решение задачи.
Однако при оптимизации некоторых объектов решение задачи синтеза может быть проще указанного, так как в ряде случаев не требуется определять полностью вспомогательные функции , а достаточно только знать моменты изменения знака Ни, в результате чего на основании (5.15) и (5.16) может быть составлен закон релейного управления:
(5.17)
В связи с этим, применяя принцип максимума, рассмотрим теорему «об п интервалах». Пусть математическая модель одномерного объекта задана уравнениями состояния
. (5.18)
Составим функцию Гамильтона для неклассической вариационной задачи оптимального по быстродействию управления
(5.19)
Так как от управления и(t) зависит только последнее слагаемое, то в соответствии с (5.14) функция Гамильтона имеет максимум, когда
откуда следует закон оптимального по быстродействию управления (5.15)
и° (t) = 1sign [n(t)]. (5.20)
При этом функция и°(t) принимает два значения:
(5.21)
и меняет знак столько раз, сколько кривая пересекает ось времени.
Для нахождения вспомогательной переменной составим сопряженные уравнения Гамильтона:
(5.22)
Приведем систему уравнений (5.22) к одному уравнению. Для этого вычтем из первого уравнения системы (5.22) все остальные, продифференцировав предварительно второе уравнение один раз и умножив на (–1)1, третье – два раза и умножив на (–1)2 и т. д. до последнего, которое дифференцируем (п– 1) раз и умножаем на (–1)(n-1). В результате этого после группирования получим
(5.23)
Предполагаем, что собственные числа матрицы А в (5.18) являются различными вещественными, тогда корни уравнения (5.23) также будут вещественными различными числами piВ этом случае
(5.24)
Функция , определяемая суммой экспонент с вещественными показателями степени, изменит знак не более (п– 1) раз, поэтому управление (5.20) имеет не более п интервалов постоянных значений . Таким образом, доказана теорема «об п интервалах»: Если объект управления описывается линейным дифференциальным уравнением п-гопорядка с постоянными коэффициентами и корни его характеристического уравнения различные, отрицательные или нулевые, то для оптимального по быстродействию управления необходимо и достаточно не более п интервалов максимального значения управления |и| = Umax, а знаки на интервалах должны чередоваться (п – 1) раз.
При синтезе оптимальных по быстродействию систем обычно требуется определить либо закон управления типа (5.15) в функции времени, либо законы управления типа (3.138) или (3.141). В первом случае управление и°(t) обеспечивает оптимальные по быстродействию процессы при разомкнутом', управлении объектом, а во втором случае управление и0(X) или и0(Е) определяет структуру оптимального регулятора, где Е – вектор координат ошибок е1(t), e2 (t), ..., еп (t).
Основная задача при определении алгоритмов оптимальных управлений и°(t) состоит в нахождении моментов переключения реле , ( 1, 2, ..., п), так как на основании теоремы об пинтервалах управление является релейным с числом интервалов не более п, на которых и°(t) = ±Umax, и имеет место (п – 1) переключение реле.
Определение моментов переключения tvв общем случае является сложной задачей. Моменты переключения сигнала управления со значения +Umaxна значение –Umaxможно рассчитать различными методами, например методами «сшивания» решений [2].
Метод «сшивания» решений. Пусть дифференциальное уравнение одномерного линейного объекта при отсутствии ограничений координат выхода и без учета возмущающих воздействий имеет вид
. (5-25)
Тогда для определения tvможно применить способ «сшивания» решений уравнения (5.25) со знакопеременной правой частью и (t) = ± Umax.
Запишем известное решение уравнения (5.25) при различных вещественных корнях характеристического уравнения объекта на интервалах:
(5.26)
где Cov определяется на интервалах значением и(t)и заданным конечным значением координаты выхода; Civ– постоянные интегрирования, зависящие от заданного вектора начального и конечного состояний X(t0) и X(Т); рi ≠ 0 – корни характеристического уравнения объекта (для устойчивого объекта pi< 0).
Рассмотрим процесс перевода объекта из заданного начального состояния t0 = 0, при котором
,
взаданное конечное установившееся состояние
Пусть начальное управление тогда на конце первого интервала управления
(5.27)
После переключения реле значение координаты выхода
.(5.28)
Приравнивая правые части (осуществляя «сшивание» решений), получим
(5.29)
Аналогично (5.27)–(5.29) необходимо записать выражения для В результате получим n уравнений с 2n неизвестными постоянными интегрирования Ci1 и Ci2. Постоянные Ci1 определяются начальными условиями при t = 0, поэтому из уравнений для начала первого интервала запишем
(5.30)
Уравнения (5.30) позволяют определить постоянные Сi1, подставив которые в уравнения, записанные после «сшивания» решений в момент первого переключения реле, получим п уравнений для определения постоянных Ci2, которые выражаются через моменты первого переключения t1.
Аналогично продолжаем решение до последнего интервала, для которого постоянные интегрирования Cin будут выражены через tn = Т. В результате исключим постоянные интегрирования и получим n трансцендентных уравнений с п неизвестными tv. Решение этих уравнений в общем случае является очень трудоемким и производится обычно на ЦВМ [2].
В случае, когда уравнение объекта (4.25) имеет п нулевых корней, моменты переключения [17]
(5.31)
На основании выражения (5.31) можно сделать вывод, что моменты переключений tvзависят от начальных и конечных значений координаты выхода объекта, а также от величины Umax.
Если время переходного процесса
, (5.32)
то моменты tv могут быть определены графически (рис. 4.5) путем деления полуокружности, диаметр которой равен T, на правных частей и проектирования полученных точек на ось абсцисс [17]. На рис. 4.5 принято п= 4.
Рис. 4.5
Особое значение при расчете моментов переключения реле tvимеет выбор знака сигнала управления на первом интервале и1°. Если начальное и конечное состояния объекта установившиеся, то [17]
(4.33)
В общем случае выражение для и1° будет более сложным, чем (4.33).
Методы математического программирования. Рассмотрим применение методов математического программирования для определения длительности интервалов управления по уравнениям переходных состояний объекта. Пусть одномерный объект задан уравнениями состояния
(4.34)
которым соответствуют уравнения переходных состояний [см. (2.11)]:
(4.35)
Разделим интервал времени [t0, tK] на п интервалов t1:
(4.36)
С учетом (4.36) и |u(ti)| = Umax = const вместо (4.35) запишем уравнения переходных состояний на интервалах управлений [ti, ti–1].
(4.37)
(4.38)
Тогда задача синтеза оптимального управления и0(t), обеспечивающего минимум времени переходного процесса (оптимальное быстродействие), может быть сформулирована как задача математического программирования типа (3.148) для значения вектора координат состояния на последнем интервале X(tn) = X(tк):
(5.39)
Рис. 4.6
Чтобы решить задачу (4.39), необходимо применить методы нелинейного программирования, так как уравнения (5.38) являются нелинейными относительно искомыхti. При этом .
5. Экстремальные системы управления
Введение
Экстремальные системы управления – это такие системы, в которых один из показателей качества работы нужно удерживать на предельном уровне (min или max) в условиях отсутствия сведений о количестве и положении возможных экстремумов, а также аналитического выражения функции качества.
Классическим примером экстремальной системы управления является система автоподстройки частоты радиоприёмника. Ее амплитудно-частотная характеристика приведена на рис. 3.1.
Рис.5.1. Амплитудно-частотная характеристика
5.1. Постановка задачи синтеза экстремальных систем
Будем рассматривать объекты управления, математическое описание которых представляет собой совокупность динамической части и статической экстремальной характеристики, как показано на рис. 5.2.
Рис. 5.2. Структурная схема объекта с экстремальной характеристикой
Тогда экстремальную систему управления можно представить структурной схемой, представленной на рис. 5.3.
Рис.5.3. Структурная схема экстремальной системы
Такие системы описываются уравнениями:
(5.1)
где – вектор состояния объекта, – вектор выхода динамической части, – выходная переменная объекта, имеющая экстремум по переменной , – вектор нелинейных функций, удовлетворяющих условиям существования и единственности решения системы дифференциальных уравнений, – матрица переменных коэффициентов. Характер изменения и заранее не известен, известны только их граничные значения и .
Экстремальная характеристика дрейфует во времени.Необходимо подобрать такое управляющее воздействие, которое позволяло бы автоматически находить экстремум и удерживать систему в этой точке.
(5.2)
Рис.5.4. Статическая экстремальная характеристика
Если дрейф имеет место только по одной координате, то для его компенсации достаточно синтезировать обычную систему стабилизации. При дрейфе по двум (или более) координатам для его компенсации необходима система программного управления (если закон дрейфа известен), либо специальная система поиска экстремума (например, упомянутая выше система автоподстройки частоты радиоприемника). Такая система должна обеспечить управляющее воздействие, которое наделяет объект свойством:
(5.3)
5.3. Виды экстремальных характеристик
1. Унимодальная характеристика (характеристика типа «модуля»)
Рис. 5.5. Экстремальная характеристика типа «модуля»
(5.4)
,
гдеk1определяет наклон;yo – горизонтальный дрейф экстремума,k2 – вертикальный дрейф экстремума.
2. Экстремальная характеристика типа параболы
Рис. 5.6. Экстремальная характеристика типа параболы
3) В общем случае экстремальную характеристику можно описать параболой n-го порядка:
Экстремальная характеристика типа параболы
(5.5)
4) Векторно-матричное представление
(5.6)
5.4. Условие экстремума
Необходимое условие экстремума управляемых переменных – равенство нулю градиента (первых частных производных).
, (5.7)
где G – градиент.
Достаточное условие экстремума – равенство нулю вторых частных производных.
При синтезе экстремальной системы необходимо оценить градиент, но вектор вторых частных производных оценить невозможно, и на практике, вместо достаточного условия экстремума используют соотношение:
min (5.8)
max (5.9)
Этапы синтеза экстремальной системы:
– оценка градиентаG.
– организация движения в соответствии с условием: G0, т.е. движение к экстремуму.
– стабилизация системы в точке экстремума.
5.5. Способы оценки градиента
Способ деления производных.Рассмотрим его на унимодальной характеристике,y – выход динамический части системы.
,yR1.
Найдём полную производную по времени:
(5.10)
Рис. 5.7. Схема оценки частной производной способом деления производных
При медленном дрейфе
,
таким образом
(5.11)
Достоинство: простота.
Недостаток: малая помехозащищенность (градиент определяется скоростью изменения переменных, обычно рекомендуется использовать дифференцирующие фильтры выше первого порядка), кроме того - при малых 0 нельзя определить градиент.
Дискретная оценка градиента способом конечных разностей.Если производные переменных и заменить конечными разностями
где T – шаг квантования, а k – номер текущего отсчета, то величину градиента
можно приближенно оценить как
(5.12)
Структурная схема устройства оценки градиента способом конечных разностей приведена на рис. 5.8.
Рис. 5.8. Схема дискретной оценки частной производной
На схеме символом обозначено звено задержки на величину шага квантования.
Достоинство: высокая помехозащищенность, т.к. фильтрующие свойства определяются усреднением переменных на интервале дискретизации.
Недостаток: невозможность определенияG при y = 0.
Дискретная оценка знака градиента. Иногда направление движения к экстремуму можно организовать на основе анализа лишь знака градиента, т.е. функции
, (5.13)
значения которой определяются выражением
.
Выражение (5.13) путем несложных преобразований можно привести к виду
(5.14)
При малом шаге дискретизации (Т 0) заменяем:
и тогда (5.14) представляется в виде
, (5.15)
и используется для оценки градиента.
Метод синхронного детектирования. Метод синхронного детектирования предполагает добавление к входному сигналу на экстремальный объект дополнительного синусоидальногосигнала
ГСК – генератор синусоидальных колебаний.
ФЧУ – фазо-чувствительное устройство
Ф - фильтр
Рис. 5.9. Функциональная схема оценки частной производной
малой амплитуды, высокой частоты и выделение из выходного
сигнала соответствующей составляющей. По соотношению фаз этих двух сигналов можно сделать вывод о знаке частных производных.
Сравнение фаз входного и выходного периодических сигналов позволяет определить направление движения системы по отношению к экстремуму, а использование усредняющего фильтра – оценить величину отклонения от него.
Работу этого метода иллюстрирует рис. 5.10.
Рис. 5.10. Иллюстрация прохождения поисковых колебаний на выход системы
Наличие входных колебаний приводит к появлению колебаний на выходе, причем в зависимости от положения рабочей точки относительно экстремума выходные и выходные колебания могут быть в фазе (рабочая точка y1 – разность фаз равна 0) или противофазе (рабочая точкаy2 разность фаз равна ).
Для сравнения фаз используются фазочувствительные устройства, в качестве которых можно использовать, например, блок перемножения. Его работа в этом качестве иллюстрируется рис. 5.11.
Рис. 5.11. Иллюстрация работы фазочувствительного устройства
В качестве фильтра выбирают усредняющий на периоде фильтр, который позволяет получить на выходе сигнал, пропорциональный значению частной производной.
Рис. 5.12. Линеаризация статической характеристики в рабочей точке
Рассмотрим аналитическую оценку частной производной при использовании синхронного детектирования. При малой амплитуде поискового сигнала можно считать, что статическая характеристика в малой окрестности рабочей точки – линейна и аппроксимируем её касательной в этой точке.Следовательно, уравнение экстремальной кривой можно заменить уравнением прямой:
, (5.16)
гдеk – коэффициент пропорциональности – тангенс угла наклона прямой
, .
Выходной сигнал экстремального объекта есть сумма
,
и тогда выражение (5.19) приобретает вид
Сигнал на выходе фазочувствительного устройства
, (5.17)
а на выходе усредняющего фильтра
(5.18)
Таким образом
, (5.19)
т.е. на выходе фильтра получили сигнал, пропорциональный градиенту.
Метод синхронного детектирования годится для определения не только одной частной производной, но и градиента в целом, при этом на вход подаётся несколько колебаний различной частоты. Соответствующие фильтры на выходе выделяют реакцию на конкретный поисковый сигнал.
Специальный фильтр оценки градиента. Этот метод предполагает введение в систему специальной динамической системы, промежуточный сигнал которой равен частной производной.
Промежуточная переменная zиз приведенной структурной схемы определяется как
,
где – оценка выходной переменной экстремального объекта, T - постоянная времени фильтра. Дифференцируя последнее выражение по времени, получим
или, поскольку ,
. (5.20)
При
. (5.21)
Из выражения (5.18) следует, что приведенная выше структурная схема действительно позволяет оценить частную производную с точностью, обратно пропорциональной величине постоянной времени T. Для оценки полной производной Y используют ДФ – дифференцирующий фильтр, а затем эта оценка полной производной применяется для оценки градиента.
5.6. Организация движения к экстремуму
Она основана на контроле градиента и использовании его в законе управления. Системы такого вида называются градиентными экстремальными системами. Обобщенная структурная схема такойсистемы приведена на рис. 5.13.
Рис. 5.13. Схема специального фильтра оценки частной производной
Системы первого порядка.
(5.22)
Организуем закон управления пропорционально градиенту:
(5.23)
Уравнение замкнутой системы:
(3.24)
есть нелинейное дифференциальное уравнение, которое можно исследовать методами ТАУ.
Рассмотрим уравнение статики системы в предположении, что . Оно имеет вид
.
Т.к. , то из уравнения следует, что
(5.25)
Если с помощью коэффициента усиления k обеспечить устойчивость замкнутой системы, то автоматически в статике мы придём в точку экстремума. В некоторых случаях с помощью коэффициента k можно кроме устойчивости обеспечить определённую длительность переходного процесса в замкнутой системе, т.е. обеспечить заданное время выхода на экстремум.
Пример 5.1. Для объекта, описываемого динамической моделью
построить регулятор, обеспечивающий выход на экстремум за время .
Решение. В соответствии с (5.23) закон управления для данного объекта
;
Поскольку из второго уравнения системы
,
то алгоритм управления (1.23) описывается как
. (5.26)
Уравнение замкнутой системы в соответствии с (5.24) имеет
вид
,
или в операторной форме
.
Для обеспечения устойчивости системы кореньp1характеристического уравнения
должен быть отрицательным, т.е. следует выбирать .
Примем и определим значение , используя корневые оценки переходного процесса.
Напомним, корневой оценкой быстродействия служит расстояние от ближайшего корня до мнимой оси, оцениваемое как
, .
С ее использованием время переходного процесса можно оценить приближенно как
.
Отсюда
.
Используя последнее выражение, получим для рассматриваемого примера , и закон управления (5.26) запишется в виде
.
Структурная схема системы приведена на рис. 5.14.
Рис. 5.14. Структурная схема градиентной экстремальной системы первого порядка
Этот способ годится только для унимодальных систем, т.е. систем с одним глобальным экстремумом.
Метод тяжёлого шарика. Предыдущий метод организации движения к экстремуму приводит систему в экстремум, в окрестности которого заданы начальные условия. При наличии нескольких локальных экстремумов система может остановиться в любом из них. Для устранения этого недостатка необходимо ввести в систему дополнительную инерционность (увеличить колебательность), которая не позволит системе «чувствовать» локальные минимумы
По аналогии с шариком, который скатывается в овраг и проскакивает точки локальных экстремумов, система АУ с колебательными процессами также проскакивает локальные экстремумы.
Пусть снова объект управления описывается уравнениями (5.22).Для обеспечения колебательности переходного процесса введем в цепь обратной связи апериодическое звено. В результате получим структурную схему системы в виде, показанном на рис. 5.15.
Рис. 5.15. Иллюстрация метода “тяжёлого” шарика
Операторное уравнение замкнутой системы можно получить непосредственно по структурной схеме. Управляемая переменная определяется как
,
где
.
Преобразуем уравнение к виду
или
. (5.21)
Характер движения системы к точке экстремума определяется характеристическим уравнением дифференциального уравнения (3.31), а колебательность переходного процесса – величиной постоянной времени T, значение которой должно быть найдено в результате расчета.
Для рассмотренного выше примера , поэтому уравнение (3.31) приводится к виду
или, поскольку
,
а характеристическое уравнение имеет вид
. (5.22)
Приведем последнее уравнение к стандартному виду
.
Сравнивая последнее выражение с (5.22) видим, что они совпадают при
, .
Чтобы обеспечить устойчивость системы необходимо выбирать постоянный член уравнения (5.21) , или в рассматриваемом случае
d<1 (5.23)
Чем меньше d, тем длиннее переходный процесс.
На основе анализа экстремальной характеристики, задаются необходимые перерегулирование и длительность переходного процесса, а затем определяются требуемые значения постоянной времени и корня:
Одноканальные системы общего вида. Они описываются нелинейным нестационарным дифференциальным уравнением
(5.24)
Полагая дрейф экстремума медленным (), т.е. , сформируем пропорциональный градиенту закон управления
.
Подставив закон управления в управление объекта, получим уравнение замкнутой системы:
Обеспечение устойчивости замкнутой системы обеспечивается соответствующим выбором коэффициента усиления k. В общем случае, для анализа устойчивости замкнутой системы необходимо использовать второй метод Ляпунова, с помощью которого определяется коэффициент усиления регулятора. Т.к. второй метод Ляпунова даёт лишь достаточное условие устойчивости, то выбранная функция Ляпунова может оказаться неудачной и регулярную процедуру расчёта регулятора здесь предложить нельзя.
Системы со старшей производной в управлении. Общий случай экстремума объектов
(5.25)
Функции f, B и g должны удовлетворять условиям существования и единственности решения дифференциального уравнения. Функция g должна быть многократно дифференцируемой.
Обозначим символомСматрицу производных:
;
Задача синтеза разрешима, если матрица произведений будет не вырождена, т.е.
(5.26)
Анализ условия разрешимости задачи синтеза позволяет определить производную выходных переменных, которая явно зависит от управляющего воздействия. Если выполняется условие (3.36), то такой производной является первая производная , а следовательно требования к поведению замкнутой системы можно формировать в виде дифференциального уравнения для y, соответствующего порядка.
где коэффициент, выбираемый из условия требуемого времени выхода на экстремум.
Для большого числа систем это дифференциальное уравнение можно определить в классе линейных дифференциальных уравнений.
Сформируем закон управления замкнутой системы, для чего сформируем закон управления, подставив в правую часть управления для:
Последнее выражение есть уравнение замкнутой системы относительно выходной переменной, которое можно преобразовать к виду
.
При
уравнение замкнутой системы приобретает вид
(5.29)
Рассмотрим ситуацию, когда . Пренебрегая первым слагаемым в скобках (3.39), получим
(5.30)
т.е.
.
При соответствующем выборе коэффициента усиления мы получаем желаемое уравнение и автоматический выход на экстремум.
Параметры регулятора выбираются из тех соображений, что и для обычных САУ, т.е.
(СВk)i= (20100),
что позволяет обеспечить соответствующую ошибку на уровне 5…1%. Структурная схема системы приведена на рис. 5.16.
Рис. 5.16. Схема системы со старшей производной в управлении
В систему для оценки полной производной по времени в систему вводят дифференцирующий фильтр, поэтому для оценки градиентов в таких системах удобно использовать фильтр оценки градиента.
Т.к. оба этих фильтра имеют малые постоянные времени, то в системе могут возникать разнотемповые процессы, выделить которые можно с помощью метода разделения движений, причём медленные движения будут описываться уравнением (1.34), которое соответствует желаемому при.
Быстрые движения нужно анализировать на устойчивость, причём в зависимости от соотношения постоянной времени ДФ и фильтра оценки частных производных (ФОЧП), можно выделить следующие виды движений:
быстрые;
медленные.
1) Постоянные времени этих фильтров соизмеримы
Быстрые движения описывают комбинированные процессы в этих двух фильтрах.
2) Постоянные времени различаются на порядок
В системе наблюдаются кроме медленных движений, быстрые и сверхбыстрые движения, соответствующие наименьшей постоянной времени.
На устойчивость необходимо анализировать оба случая.
Пример 5.2. Рассчитать систему поиска экстремума для объекта управления, описываемого системой уравнений
где , , , , время выхода на экстремум .
Решение.На основании требований к динамике процесса определим желаемый полюс замкнутой системы и сформируем желаемое уравнение того же порядка, что и уравнение объекта
или ,
где .
Коэффициент усиления регулятора k выбирается из условия . В данном случае , , , откуда .
Для оценки производных используем фильтр первого порядка с постоянной времени и фильтр оценки частной производной с постоянной времени . Структурная схема системы приведена на рис. 5.17.
Рис. 5.17
6. АДАПТИВНЫЕ СИСТЕМЫ
6.1.Основные понятия
Адаптивными системами называют такие системы, в которых параметры регулятора меняются вслед за изменением параметров объекта, таким образом, чтобы поведение системы в целом оставалось неизменным и соответствовало желаемому:
,
.
Существует два направления в теории адаптивных систем:
1. адаптивные системы с эталонной моделью (АСЭМ);
2. адаптивные системы с идентификатором (АСИ).
6.2. Адаптивные системы с идентификатором
Идентификатор - устройство оценки параметров объекта (оценка параметров должна осуществляться в реальном времени).
Рис. 6.1. Функциональная схема АСИ
АР - адаптивный регулятор
ОУ - объект управления
U - идентификатор
Часть, которая выделена пунктиром, может быть реализована в цифровом виде. V, U, X - могут быть векторы. Объект может быть многоканальным.
Рассмотрим работу системы.
В случае неизменных параметров объекта, структура и параметры адаптивного регулятора не меняются, действует главная обратная связь, система представляет собой систему стабилизации.
Если параметры объекта меняются, то они оцениваются идентификатором в реальном времени и происходит изменение структуры и параметров адаптивного регулятора так, чтобы поведение системы оставалось неизменным.
Основные требования предъявляются к идентификатору (быстродействие и т.д.) и к самому алгоритму идентификации.
Такой класс систем используют для управления объектами с медленными нестационарностями.
Если мы имеем нестационарный объект общего вида:
,
, .
Простейший адаптивный вид будет следующий:
.
Требования, которые предъявляются к системе:
, (*)
,
где и - матрицы постоянных коэффициентов.
Реально мы имеем:
или
(**)
Если приравнять (*) и (**), то получим соотношение для определения параметров регулятора
3.3.Адаптивные системы с эталонной моделью
В таких системах существует эталонная модель (ЭМ), которая ставится параллельно объекту.
Рис. 6.2. Функциональная схема АСЭМ
БА - блок адаптации.
Рассмотрим работу системы.
В том случае, когда параметры объекта не меняются или процессы на выходе соответствуют эталонным, ошибка , не работает блок адаптации и не перестраивается адаптивный регулятор, в системе действует плавная обратная связь.
Если поведение отлично от эталонного, это происходит при изменении параметров объекта, в этом случае появляется ошибка , включается блок адаптации, перестраивается структура адаптивного регулятора, таким образом чтобы свести к эталонной модели объекта.
Блок адаптации должен сводить ошибку к нулю ().
Алгоритм, закладываемый в блок адаптации, формируется различными способами, например, с использованием второго метода Ляпунова:
.
Если это будет выполняться, то система будет асимптотически устойчива и .