Оптимальные и адаптивные системы управления
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
ОПТИМАЛЬНЫЕ И АДАПТИВНЫЕ СИСТЕМЫ
УПРАВЛЕНИЯ
(КУРС ЛЕКЦИЙ)
Лекции – 18 час
Практика – 32 час.
Экзамен.
Лекция 1.
Введение.
В классической теории автоматического управления (ТАУ) задачи оптимизации и адаптации ставились в основном применительно к управлению «в малом». Это означает, что оптимальная программа изменения режимов технологического процесса, выраженная в задающих воздействиях регуляторов, считалась известной, определенной на стадии проектирования. Задача управления заключалась в выполнении этой программы, стабилизации программного движения. При этом допускались лишь малые отклонения от заданного движения, и переходные процессы «в малом» оптимизировались по тем или иным критериям.
В конце 50-х - начале 60-х гг. XX столетия появились работы Л.С. Понтрягина (принцип максимума), Р. Беллмана (динамическое программирование), Р. Калмана (оптимальная фильтрация, управляемость и наблюдаемость), которые заложили основы современной теории автоматического управления, общепринятого определения понятия которой пока не существует. Некоторым характерным признаком современной теории автоматического управления считают также описание процессов в пространстве состояний, развитие теории адаптивного управления, т. е. управления при неполной априорной информации.
Наиболее точно современную теорию автоматического управления можно отделить от классической ТАУ, учитывая требования научно-технического прогресса, современной и перспективной автоматизации. Важнейшим из таких требований является оптимальное использование всех располагаемых ресурсов (энергетических, информационных, вычислительных) для достижения главной обобщенной конечной цели при соблюдении ограничений. Например, запуск или выход на новый режим работы машины, агрегата, станции с минимальными затратами, достижение заданной в 3-мерном пространстве навигационной точки в заданное время с заданным курсом при минимальном расходе топлива. В связи с этим оптимизация «в большом», осуществляемая в реальном времени в процессе управления, становится центральной проблемой современной теории автоматического управления. Эта фундаментальная проблема порождает ряд крупных проблем, задач и методов их решения. Прежде всего указанная оптимизация требует полного использования имеющейся априорной информации в виде математической модели управляемого процесса или объекта. Использование таких моделей не только на стадии проектирования, но и в процессе функционирования систем, является одной из характерных черт современной теории автоматического управления.
Оптимальное управление возможно лишь при оптимальной обработке информации. Поэтому теория оптимального (и субоптимального) оценивания (фильтрации) динамических процессов является составной частью современной теории автоматического управления. Особо важной является параметрическая идентификация (оценивание параметров и характеристик по экспериментальным данным), выполняемая в реальном масштабе времени в эксплуатационных режимах ОУ.
Центральной частью современной теории автоматического управления является, собственно, теория оптимального или субоптимального управления «в большом» детерминированными или стохастическими нелинейными процессами. Подлинная оптимизация автоматического управления в условиях неполной априорной информации возможна только в процессе функционирования системы в текущей обстановке и возникшей ситуации. Следовательно, современная теория автоматического управления должна рассматривать адаптивное оптимальное (субоптимальное) управление «в большом». Кроме того, современная теория автоматического управления должна рассматривать методы резервирования и структурного обеспечения надежности (особенно принципы автоматической реконфигурации системы при отказах).
1. ОПТИМАЛЬНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ
Определение, особенности и общая характеристика
оптимальных систем.
Оптимальной называется наилучшая в некотором технико-экономическом смысле система. Основной ее особенностью является наличие двух целей управления, которые эти системы решают автоматически.
Основная цель управления — поддержание управляемой величины на заданном значении и устранение возникающих отклонений этой величины.
Цель оптимизации - обеспечение наилучшего качества управления, определяемое по достижению экстремума некоторого технико-экономического показателя, называемого критерием оптимальности (КО).
Оптимальные системы разделяют в зависимости от вида КО на два класса: оптимальные в статике системы и оптимальные в динамике системы.
У оптимальных в статике систем КО является функцией параметров или управляющих воздействий. Этот критерий имеет экстремум в статическом режиме работы системы, причем статическая характеристика, выражающая зависимость КО от управляющих воздействий оптимизации, может непредвиденным образом смещаться под действием возмущений. Оптимальная система должна этот экстремум находить и поддерживать. Такие системы применимы, если возмущения, смещающие указанную характеристику, изменяются сравнительно медленно по сравнению с длительностью переходных процессов в системе. Тогда система будет успевать отслеживать экстремум практически в статическом режиме. Такие условия обычно выполняются на верхней ступени иерархии управления.
Оптимальные в динамике системы отличаются тем, что их критерий оптимальности представляет собой функционал, т. е. функцию от функций времени. Это значит, что, задав функции времени, от которых данный функционал зависит, получим числовое значение функционала. Эти системы могут применяться при сравнительно быстро меняющихся внешних воздействиях, не выходящих, однако, за допустимые пределы. Поэтому они используются на нижних уровнях управления.
Лекция 2
Критерии оптимальности оптимальных в динамике систем
Обычно эти функционалы имеют вид определенных интегралов по времени
где x(t), u(t) - векторы состояния и управления данной системы;
Т - длительность процесса (в частности, может быть Т = ).
В зависимости от подынтегральной функции f0 эти критерии имеют следующие основные виды.
1. Линейные функционалы, у которых f0 - линейная функция переменных:
- критерий максимального быстродействия при f0 1, т.е.
,
который равен длительности процесса, а соответствующие системы называют оптимальными по быстродействию;
- линейные интегральные оценки
- критерий максимальной производительности
,
где q(t) - количество произведенной продукции.
2. Квадратичные функционалы, у которых f0 - квадратичная форма от входящих в нее переменных:
- квадратичные интегральные оценки качества переходного процесса
;
-критерий энергозатрат на управление, у которого
,
где u - управляющее воздействие, а и2 - мощность, затрачиваемая на управление;
• обобщенный квадратичный критерий, равный сумме двух предшествующих, взятых с некоторыми весовыми коэффициентами. Он компромиссно характеризует качество переходного процесса и энергозатраты на него, т. е.
,
где Q и R - положительно определенные квадратные матрицы. Функционалы, не содержащие интегралов:
- критерий минимакса, при оптимизации по которому надо обеспечить минимальное значение максимума модуля (нормы) вектора отклонения управляемого процесса от его эталонного закона изменения, т. е.
, где xэ – эталонный закон изменения.
Простейшим примером этого критерия для скалярного случая является известное максимальное перерегулирование переходного процесса;
- функция от конечного состояния
,
которая является функционалом потому, что конечное состояние объекта х(Т) является функцией от управляющего воздействия u(t). Этот критерий оптимальности может применяться в сумме с одним из рассмотренных выше критериев, имеющих вид определенного интеграла.
Выбор того или иного критерия оптимальности для конкретного объекта или системы производится на основании соответствующего изучения работы объекта и предъявляемых к нему требований технико-экономического характера. Этот вопрос не может быть решен в рамках только теории автоматического управления. В зависимости от физического смысла критерия оптимальности его требуется либо минимизировать, либо максимизировать. В первом случае он выражает потери, во втором случае технико-экономическую выгоду. Формально, поменяв знак перед функционалом, можно задачу по максимизации свести к задаче по минимизации.
1.3. Краевые условия и ограничения
для оптимальных в динамике систем
Основная цель управления в таких системах обычно формулируется как задача перевода изображающей точки из некоторого начального состояния х(О) в некоторое конечное х(Т) состояние. Начальное состояние принято называть левым концом оптимальной траектории, а конечное - правым. Вместе взятые эти данные и образуют краевые условия. Задачи управления могут отличаться видом краевых условий.
1. Задача с закрепленными концами траектории имеет место, когда х(0) и х(Т) фиксированные точки пространства.
2. Задача с подвижными концами траектории получается, когда х(0) и х(Т) принадлежат некоторым известным линиям или поверхностям пространства.
3. Задача со свободными концами траектории возникает, когда указанные точки занимают произвольные положения. На практике встречаются и смешанные задачи, например х(0) - фиксирован, а х(Т) подвижен. Такая задача будет иметь место, если объект из заданного фиксированного состояния должен «догнать» некоторую эталонную траекторию (рис. 1).
Рис. 1.
Ограничениями называются дополнительные условия, которым должны удовлетворять управляющие воздействия и управляемые величины. Встречаются два вида ограничений.
1. Безусловные (естественные) ограничения, которые выполняются в силу физических законов для процессов в объекте управления (ОУ). Эти ограничения показывают, что некоторые величины и их функции не могут выйти за границы, определяемые равенствами или неравенствами. Например, уравнение двигателя постоянного тока (ДПТ):
,
ограничение на скорость асинхронного двигателя , где - синхронная скорость.
2. Условные (искусственные) ограничения, выражающие такие требования к величинам или функциям от них, согласно которым они не должны превосходить границ, определенных равенствами или неравенствами по условиям долговечной и безопасной эксплуатации объектов. Например, ограничение на питающее напряжение , ограничения на допустимую скорость, ускорение и т. п.
Для обеспечения условных ограничений необходимо принимать меры схемного или программного характера при реализации соответствующего управляющего устройства.
Ограничения, независимо от их вида, выражаемые равенствами, называются классическими, а неравенствами - неклассическими.
Лекция 3
Общая постановка задачи оптимального
автоматического управления
При заданных ограничениях на управляющие воздействия , управляемые величины Г(х), а также заданных уравнении объекта управления , критерии оптимальности и краевых условиях х(0) и х(Т) необходимо определить оптимальное управление и оптимальную траекторию или оптимальный алгоритм управления , обеспечивающие экстремум заданного критерия оптимальности.
Решение первой задачи приводит к разомкнутой САУ (рис. 2, а), решение второй - к замкнутой САУ (рис. 2, б), в которых АУУ - автоматическое управляющее устройство.
Рис. 2
Для решения задач оптимального управления применяются следующие методы оптимизации: Эйлера-Лагранжа, динамического программирования Р. Беллмана, принцип максимума Л.С. Понтрягина.
Задача на безусловный экстремум функционала
Эту задачу отличает отсутствие всяких ограничений, что является недостатком, так как отсутствие ограничений обычно лишает задачу практического смысла. Итак, задан минимизируемый функционал
.
Подынтегральная функция F в нем дифференцируема как по х, так и по . Требуется найти экстремаль , которая минимизирует данный функционал при заданных краевых условиях x(0), х(Т) и известном значении времени Т.
Идея вывода расчетного уравнения использует предположение о том, что к экстремали добавляется дополнительная функция с весовым коэффициентом . В результате аргумент функционала получает вариацию и будет равен:
,
Где - дифференцируемая функция с нулевыми краевыми значениями, т.е. , (рис. 3).
Рис. 3. Рис. 4
Соответственно функционал получает положительное приращение (вариацию), являющееся функцией коэффициента :
.
Эта функция имеет экстремум - минимум при = 0 (рис. 4). Исследуя эту функцию на экстремум, Эйлер получил следующее дифференциальное уравнение для нахождения экстремалей:
Компактная условная запись этого уравнения имеет вид:
,
где индексы обозначают производные по и .
Уравнение Эйлера в общем случае является нелинейным уравнением второго порядка, общее решение которого содержит две постоянные интегрирования, определяемые из краевых условий.
В задаче на безусловный экстремум может быть задан функционал, зависящий от нескольких функций и их первых производных:
,
В этом случае необходимо решить систему уравнений Эйлера:
.
В более общем случае функционал может зависеть и от производных высших порядков. В этом случае вместо уравнений Эйлера составляют и решают уравнения Эйлера-Пуассона:
,
где k- порядковый номер функции; пk - порядок старшей произ-
водной от хk; т - число функций.
Задача на условный экстремум.
Метод Эйлера-Лагранжа
Помимо минимизируемого функционала
,
подынтегральная функция которого зависит от нескольких функций и их первых производных по времени, задано произвольное число классических ограничений:
.
Требуется найти n экстремалей при заданных краевых условиях.
Метод решения этой задачи требует формирования нового функционала
,
где - неизвестные функции, называемые множителями Лагранжа.
Благодаря такой замене задача сводится к предыдущей. При этом уравнения Эйлера должны быть составлены как для искомых экстремалей, так и для множителей Лагранжа:
, (1)
, (2)
Но , а , т. е. уравнения (2) совпадают с уравнениями ограничений. Поэтому может быть выполнено совместное решение системы уравнений Эйлера (1) и заданных ограничений. Исключая время из уравнений экстремалей, можно найти алгоритм управления оптимального автоматического регулятора.
Лекция 4
Синтез оптимальных систем при одном интегральном ограничении
Изопериметрическая задача
Здесь наряду с ограничениями, принятыми в предыдущей лекции, имеется определенный интеграл по времени:
Для того чтобы эту задачу свести к предыдущей, вводим дополнительную переменную, определяемую интегральным уравнением
Для новой переменной справедливы краевые условия
Затем, дифференцируя по времени интегральное уравнение для новой переменной, получим , или в стандартной форме записи ограничений:
Подынтегральная функция нового функционала
.
Уравнение Эйлера для новой переменной примет вид:
где и даст результат
В этом и состоит особенность интегрального ограничения: множители Лагранжа для интегральных ограничений постоянны. В остальном решение аналогично, т. е. уравнения Эйлера для искомых экстремалей решаются совместно с уравнениями всех ограничений. При этом новую переменную хп+1 можно не вводить, считая .
Данная задача при одном интегральном ограничении получила название изопериметрической задачи, так как исторически в этой задаче требовалось найти уравнение линии постоянного периметра, которая вместе с отрезком прямой, соединяющим данные точки, ограничивала бы максимальную площадь на плоскости. Такой линией является дуга окружности.
Принцип оптимальности. Метод динамического программирования (МДП)
В основу метода динамического программирования положен принцип оптимальности. Согласно ему любой конечный отрезок оптимальной траектории (от произвольной промежуточной точки до одной и той же конечной точки процесса) является сам по себе оптимальной траекторией для своих краевых условий. Для доказательства предположим, что при движении по оптимальной траектории М0М1М2О (рис. 6) достигается минимум заданного критерия оптимальности.
Рис.6
Докажем, что конечный отрезок М1 М2 0 является оптимальной траекторией для своих краевых условий. Допустим, что это не так, и минимум критерия оптимальности достигается при движении по траектории М1 М'2 0. Но тогда и при движении из точки М0 меньшее значение критерия будет получено на траектории М0 М1 М2' О, что противоречит первоначальному предположению и заставляет отвергнуть сделанное допущение.
Метод динамического программирования позволяет решать задачи трех видов: дискретную, дискретно-непрерывную и непрерывную.
1. Дискретная задача. Она отличается дискретностью всех величин (времени, управляющих воздействий, управляемых величин). К числу исходных данных относятся:
а) состояния выхода объекта управления;
б) значения управляющих воздействий;
в) алгоритм перехода из предыдущего состояния в последующее:
где k - номер шага, k = 1,N, причем эти переходы задаются таблицей или диаграммой переходов;
г) начальное состояние х0 и число шагов процесса N;
д) критерий оптимальности j, зависящий от состояний и управлений в оптимальном процессе.
Рис. 7.
Пусть для примера выходная величина объекта может иметь четыре состояния: х = {а1,а2,а3,а4}. Управляющее воздействие может иметь два значения: и = {-1, 1}. Диаграмма переходов показана на рис. 7. Примем х0 = a1, N = 2.
Критерий оптимальности управления объектом примем в виде функции от конечного состояния объекта , которая задана таблично (табл. 1) и должна быть минимизирована.
Таблица 1.
Для решения задачи около каждого конечного состояния х2
на диаграмме оптимальных переходов (рис. 8) записываем в соответствии с таблицей значения критерия оптимальности J.
Затем рассматриваются все возможные переходы из каждого предыдущего состояния х1 в последующие х2. Из них выбираются только те, которые оптимальны в смысле минимума J. Эти переходы отмечаются стрелками, около которых ставятся соответствующие
Рис. 8
значения управления, а около предшествующего состояния указывается значение J . После этого находится аналогично, оптимальный переход из начального состояния x0 в x1 Оптимальная траектория обозначена двойными стрелками и получается при управлении
Лекция 5
2. Дискретно-непрерывная задача МДП.
В этой задаче управляющее воздействие и управляемые величины могут иметь бесчисленное количество значений в пределах заданных ограничений. Время изменяется дискретно с малым шагом , что соответствует численным методам решения задач на ЭВМ. Задана продолжительность процесса Т, уравнение объекта управления
(4)
Ограничение на управление и начальное состояние x(0)=x0.
Задан в виде функционала минимизируемый критерий оптимальности
(5)
Требуется найти оптимальные управление u0(t) и траекторию x0(t).
Прежде всего от дифференциального уравнения (4) переходим к разностному уравнению, заменяя dх на хк+1- хк, dt на t, х и и на xk и uk, где , , относительное дискретное время k=0,1,2, ....
Обозначив , получим из (4) разностное уравнение
. (6)
Критерий оптимальности (5) вместо интеграла необходимо представить в виде конечной суммы
, (7)
где .
Переход к уравнениям (6) и (7) означает дискретизацию задачи по времени.
В соответствии с принципом оптимальности последовательно оптимизируем конечные отрезки процесса, начинающиеся от конечной точки t=T и постепенно увеличивающиеся на (рис.9).
Рис. 9
Первым рассматриваем отрезок
.
На этом отрезке из всего функционала (7) минимизируется частичная сумма
за счет изменения управления с учетом ограничений, где хN заменено согласно (6). В результате минимизации получаем следующую функцию от состояния xN-1:
, (8)
Данную зависимость необходимо запомнить до получения аналогичной функции на следующем шаге расчета. Кроме (8) определится и оптимальное управление
. (9)
Функция (9) должна храниться в памяти до окончания расчета процесса. Затем переходим к отрезку , на котором минимизируется
.
Минимум этой частичной суммы должен быть найден по двум переменным и , но с учетом уже сделанной минимизации по в виде (8) остается минимизировать ее только по одному аргументу . В результате получим
. (10)
Функция (10) заменяет в памяти функцию (8), и находится оптимальное управление
.
Аналогично на отрезке находим
,
.
Наконец для всего процесса находим
,
. (11)
Таким образом, получен алгоритм расчета по рекуррентным формулам, который и называется динамическим программированием. При его применении по формуле (11) находим оптимальное управление , затем по уравнению объекта (6) находим состояние объекта х1, далее находим и т. д., вплоть до .
3. Непрерывная задача. Задано уравнение объекта управления
где x=[x1,…,xn]T, u=[u1,…um]T, f=[f1,…,fn]T,
и краевые условия: x(t0) - закрепленный левый конец траектории, x(tf) - подвижный правый конец.
Задано ограничение на управление и минимизируемый функционал общего вида (функционал Больца):
.
Найти оптимальное управление u0(t), траекторию x0(t) или закон оптимального управления u0=u(x, t)
Для вывода уравнения Беллмана рассмотрим две точки на искомой оптимальной траектории x(t) и x(t1) (рис. 10), причем , где - малое приращение времени. Введем обозначение
,
Рис. 10
которое указывает на то, что минимум критерия оптимальности зависит только от начального состояния и начального момента времени процесса. Применяя принцип оптимальности, можно выразить минимальное значение функционала для конечных отрезков траектории, начинающихся в точках х(t) и x(t1):
,
.
Сравнение этих равенств позволяет выразить первый минимум через второй:
.
Входящий в это равенство интеграл можно заменить произведением его подынтегральной функции на (вследствие малости последнего). Кроме того, функцию, входящую в левую часть, как независящую от управления, можно ввести под знак минимума для того, чтобы получить приращение функции S, называемой функцией Беллмана. После этого придем к следующему результату:
.
Поделив почленно равенство на и устремив 0, получим:
(12)
Считая функцию Беллмана S непрерывной и дифференцируемой функцией всех своих аргументов, выразим производную как производную сложной функции, причем производную , как независящую от управления u, перенесем в правую часть равенства:
.
Заменив входящие сюда производные переменных состояния на соответствующие функции из уравнений объекта управления, получим уравнение Беллмана в общем виде:
. (13)
Применяется и другая запись уравнения Беллмана с использованием скалярного произведения, в которое входит градиент функции S:
. (14)
В частном случае, когда объект стационарен и подынтегральная функция функционала f0 не зависит от времени, искомая функция Беллмана S также не будет явно зависеть от времени.
Следовательно, и уравнение Беллмана упрощается, что соответствует так называемой задаче Лагранжа:
. (15)
Для задачи максимального быстродействия , и уравнение Беллмана (15) приобретает вид:
. (16)
Из уравнения Беллмана должна быть найдена функция Беллмана S и оптимальное управление, что на практике выполняется в следующем порядке при оптимизации обобщенного квадратичного функционала.
1. В соответствии с исходными данными выбираем то или иное уравнение Беллмана (13)-(16).
2. Минимизируем по управляющему воздействию и левую часть уравнения Беллмана, выражая при этом искомое оптимальное управление через производные неизвестной функции S.
3. Подставляем в уравнение Беллмана найденное выражение для оптимального управления. При этом знак min опускается.
4. Решаем полученное уравнение относительно функции Беллмана S. Решение ищется в виде положительно определенной квадратичной формы . После подстановки выражения для функции S в уравнение Беллмана элементы симметричной матрицы С могут быть найдены приравниванием к 0 всех коэффициентов квадратичной формы, образовавших левую часть уравнения Беллмана.
5. Подставляем функцию Беллмана, как функцию переменных состояния, в выражение для оптимального управления, найденного в п. 2. В результате получим оптимальный алгоритм управления. Соответствующая система устойчива, так как удовлетворяет требованиям прямого метода Ляпунова. Действительно, приняв функцию Беллмана за функцию Ляпунова, т. е. Считая S=V, получаем согласно (12) при положительной определенности f0(х, и, t).
Лекция 6
2. АДАПТИВНЫЕ СИСТЕМЫ АВТОМАТИЧЕКОГО
УПРАВЛЕНИЯ
Определение, основные особенности и классификация
Адаптивной называется такая система автоматического управления, которая обладает способностью автоматического приспособления к изменяющимся в широких пределах характеристикам объекта управления и внешних воздействий Основной особенностью адаптивных систем является наличие у них двух целей управления:
1. Основная цель, которая заключается в поддержании управляемой величины на заданном значении.
2. Цель адаптации, которая состоит в автоматическом поддержании качества управления на требуемом уровне.
Классификация адаптивных систем автоматического управления (АСАУ) отображена на рис. 25.
Обучением называют автоматический процесс накопления опыта и совершенствования алгоритма адаптации в процессе работы системы. Самообучение построено по принципу выработки условных рефлексов у живых организмов. В обучаемых системах присутствует на первой стадии человек-оператор и обучаемая ЭВМ, снабженная соответствующей программой обучения. На этой стадии человек-оператор принимает решения по управлению объектом, и соответствующая информация поступает на ЭВМ.
После достаточно продолжительной совместной работы ЭВМ может принимать решения самостоятельно.
Системы без обучения называются самонастраивающимися системами (СНС). В СНС цель адаптации заключается в поддержании
Рис. 25
некоторого технико-экономического показателя, характеризующего качество управления и называемого критерием самонастройки, на экстремальном или заданном значении. Этот критерий является функцией управляющих воздействий адаптации.
Если критерий самонастройки должен поддерживаться на экстремальном значении, то СНС является в то же время оптимальной в статике (см. п.1). У такой СНС критерий оптимальности совпадает с критерием самонастройки.
В поисковой СНС экстремальное значение критерия самонастройки обеспечивается путем автоматического поиска экстремума, соответствующей статической характеристики, который может непредвиденно смещаться. Автоматический поиск экстремума заключается в последовательном выполнении трех операций
• пробное воздействие на объект;
• определение результатов этого воздействия;
• рабочее воздействие на объект по результатам пробного воздействия, направленное на достижение экстремума критерия самонастройки.
В частном случае пробное и рабочее воздействия могут быть совмещены.
В беспоисковых системах критерий самонастройки, может поддерживаться как на заданном, так и на экстремальном значении но поиск экстремума не применяется. В первом случае используются известные принципы регулирования по отклонению или (и) возмущению. Во втором случае применяются аналитическое определение скорости и направления управляющих воздействий с целью достижения экстремума критерия самонастройки. Беспоисковые системы более совершенны в смысле быстроты и точности адаптации, чем поисковые, но для их проектирования требуется большой объем априорной информации об объекте управления.
Функциональные схемы и примеры
самонастраивающихся систем
Укрупненно СНС можно рассматривать состоящей из объекта адаптации и адаптивного управляющего устройства. В роли объекта адаптации (ОА) выступает некоторая САР, замкнутая или разомкнутая, состоящая из автоматического регулятора АР и объекта регулирования ОР (рис. 26).
Рис. 26
Причем характеристики ОР, а также внешних воздействий g и v подвержены изменениям в процессе работы, что и требует адаптации (самонастройки) за счет изменения параметров автоматического регулятора.
Самонастройку осуществляют два основных блока адаптивного управляющего устройства: блок измерений и вычислений БИВ
(анализатор) и блок настройки БН (синтезатор). БИВ выполняет
следующие функции, используя поступающую на него информацию, условно показанную штриховыми линиями:
- снятие статических и динамических характеристик объектов адаптации и регулирования;
- снятие статистических характеристик случайных воздействий g(t) и v(t);
- измерение критерия самонастройки, его производных и отклонения от экстремума;
- измерение отклонения выходных величин объекта адаптации и его эталонной модели.
В поисковых СНС функции блока настройки выполняет автоматический оптимизатор АО (рис. 27), причем вся система в целом называется системой автоматической оптимизации (САО).
Рис. 27
В качестве примера поисковой САО можно привести адаптивную систему управления толщиной проката (рис. 28).
Объектом адаптации в этом примере является разомкнутая
система регулирования по возмущению, содержащая автоматический регулятор АР и исполнительный двигатель ИД, который через винтовую передачу перемещает в вертикальном направлении подвижный валок клети прокатного стана.
Именно это промышленное устройство является объектом регулирования, а регулируемой величиной здесь следует считать толщину h стальной полосы на выходе. Основным возмущением является толщина полосы Н на входе, причем разомкнутая система регулирования по возмущению использует ее как входную величину.
Рис. 28
В состав адаптивного управляющего устройства данной СНС входят блоки БИВ и АО. Анализатор БИВ измеряет толщину проката на выходе и вычисляет ее дисперсию Dh как критерий самонастройки. Автоматический оптимизатор, воспринимая эту информацию, осуществляет поиск минимума статической характеристики при непредвиденных смещениях этой характеристики путем изменения параметра настройки автоматического регулятора АР (рис. 29).
Рис. 29
В частном случае в поисковой СНС в качестве объекта адаптации может выступать сам объект регулирования. Такой объект должен иметь статическую характеристику с максимумом или минимумом, который необходимо поддерживать с помощью адаптивного автоматического управления.
Указанная характеристика смещается непредвиденным образом, что и требует адаптации. Такие системы получили название систем экстремального регулирования (СЭР), а входящие в них автоматические оптимизаторы называют экстремальными регуляторами.
Примерами объектов регулирования с экстремальной характеристикой (рис. 8.30) являются:
Рис. 30
- топочное устройство, в которое подаются для горения газ и воздух; в этом случае у - температура; и – расход газа; v- расход воздуха (возмущение);
- параллельный колебательный контур LС, в этом случае у -
напряжение на контуре (регулируемая величина); и - ем-
кость конденсатора; v - частота переменного тока;
- радиолокационная станция сопровождения цели, у которой
выходная величина у - отраженный от цели сигнал; v - перемещение цели; и - перемещение антенны;
- бурильная установка, у которой у - вертикальная скорость
проходки; и - осевое давление на бур; v - твердость породы.
Лекция 7
Общая характеристика методов поиска экстремума
Классификация методов поиска экстремума критерия самонастройки, применяемых в поисковых СНС, представлена на рис. 31.
Прямые методы предполагают задание различных значений управляющих воздействий адаптации в виде соответствующих числовых множеств, последующее измерение значения критерия самонастройки, запоминание полученного значения, если оно ближе к экстремуму, чем все
Рис. 31
предыдущие (при поиске максимума - наибольшего). Сочетание значений управляющих воздействий может задаваться детерминированно (по законам спирали, строчной развертки и др.) или случайно. Причем для улучшения работы могут чаще задаваться те из них, при которых нахождение экстремума более вероятно. Прямые методы позволяют найти глобальный экстремум, в чем состоит их преимущество. Такой поиск обычно производится на модели объекта, а результаты переносятся на реальный объект.
Градиентные методы требуют вычисления компонент градиента функции или ее отклонения от экстремума. Градиентом J называется вектор в пространстве входных величин х1, х2, ..., хп, компонентами которого являются частные производные от функции по входным величинам и который показывает направление
наибольшего возрастания функции: где xi0 - орт (единичный вектор) по оси xi.
В градиентных методах надо решать последовательно две задачи: определение компонент градиента или отклонения от экстремума и организацию движения к экстремуму на основе полученной информации.
Методы определения компонент градиента и
отклонения от экстремума
1. Метод синхронного детектирования. Рассмотрим поиск максимума статической характеристики одномерного безынерционного объекта (рис. 32).
Рис. 32
На вход объекта помимо медленно меняющегося рабочего изменения х подается также пробное воздействие . Это пробное воздействие должно быть периодическим, например, синусоидальным. Реакция объекта на пробное воздействие, т. е. соответствующее изменение критерия самонастройки , будет зависеть от того, где находится точка на характеристике.
Если точка занимает положение 1, т. е. до максимума, то колебания совпадают по фазе с колебаниями . Если точка в третьем положении, т. е. после максимума, то указанные колебания в противофазе. Амплитуда колебаний в точках 1 и 3 тем больше, чем больше крутизна характеристики, пропорциональная модулю производной В точке экстремума 2 колебания имеют удвоенную частоту по сравнению с частотой колебаний . Если подать на синхронный детектор (фазовый дискриминатор), то на выходе получится сигнал, пропорциональный .
2. Метод приращений. Этот метод обеспечивает приближенное
определение компонент градиента как отношений соответствующих малых приращений . Для реверса достаточно определять только приращение , которое при изменении своего знака укажет на переход через экстремум.
3. Метод запоминания экстремума. При приближении к экстремуму происходит слежение за изменяющимся значением критерия самонастройки. После прохождения экстремума критерия самонастройки запоминается его экстремальное значение. Кроме того, при этом измеряется и текущее значение критерия самонастройки, благодаря чему возможно определение отклонения его от экстремума.
4. Метод производной по времени. По этому методу определяется производная , которая при прохождении экстремума всегда меняет свой знак (с плюса на минус, если экстремум - максимум), что и дает информацию об отклонении J от экстремума.
Два последних метода используются для одномерных объектов, т. е. с одним входом.
2.5 Методы организации движения к экстремуму
1. Непрерывные методы отличаются непрерывным изменением входных величин объекта со скоростями, пропорциональными соответствующим компонентам градиента, т. е. по закону . Причем коэффициент пропорциональности с > 0 при поиске максимума и с < 0 при поиске минимума.
В зависимости от траектории поиска в пространстве входных величин непрерывные методы делятся на несколько видов, которые рассмотрим для двумерного объекта со статической характеристикой J(x1, х2) (рис.33), которую можно заменить семейством линий J=const в плоскости x1, x2 (рис. 34).
Рис.33 Рис. 34
1.1 Метод градиента требует одновременного изменения всех входных величин по указанному выше закону. При этом вектор скорости, направленный по касательной к траектории движения в плоскости х1, х2, будет в любой момент времени равнонаправлен с вектором градиента, направленным по нормали к линии равного уровня J=const. Такая траектория называется траекторией стекания (траектория 1.1 на рис. 34) и приводит к экстремуму, где все компоненты и вектор градиента обратятся в ноль. При сложной поверхности J(x1, x2) траектория стекания может быть извилистой и длинной, что нежелательно.
1.2 Метод Гаусса—Зейделя предполагает поочередное изменение входных величин до достижения соответствующих частных экстремумов. При этом траектория на плоскости х1, х2 имеет вид ломаной, состоящей из взаимно перпендикулярных отрезков, каждый из которых параллелен одной из осей координат и заканчивается в точке касания с одной из линий равного уровня (траектория 1.2 на рис. 34).
1.3 Метод крутого восхождения (при поиске максимума) и наискорейшего спуска (при минимуме) требует определения вектора градиента в начальной точке, движения по этому направлению до достижения частного экстремума и т. д. В результате этот метод, как модификация метода Гаусса-Зейделя, быстрее приводит к экстремуму (траектория 1.3 на рис. 34).
2. Шаговые методы предусматривают дискретное во времени изменение входных величин. Изменение, производимое в некоторый момент времени, называется шагом. Шаги осуществляются почти мгновенно, они сравнительно невелики и могут быть пробными и рабочими. Пробные шаги служат для нахождения компонент градиента методом приращений, а рабочие - для организации движения к экстремуму. Пробные и рабочие шаги могут быть совмещены, но это ухудшает качество управления.
2.1 Пропорционально-импульсный шаговый метод требует, чтобы рабочий шаг был пропорционален соответствующей компоненте градиента в данной точке, т. е. , что позволяет приближенно реализовать варианты непрерывного метода (методы градиента, Гаусса-Зейделя и др.).
2.2 Релейно-импульсный шаговый метод отличается постоянством шагов по модулю, и лишь изменения их направления (знака) происходят в соответствии со знаком компоненты градиента:
.
Этот метод проще в технической реализации, но менее точен. Он приводит к автоколебаниям около экстремума. Для построенного на рис.35 графика пробные и рабочие шаги совмещены, а объект предполагается безынерционным и одномерным.
Рис. 35
Достоинство шаговых методов - ослабление влияния инерционности объекта и помех. При инерционном объекте период следования шагов должен быть не меньше длительности переходного процесса в объекте. Уменьшение влияние высокочастотных помех достигается путем усреднения (интегрирования) критерия самонастройки на некотором отрезке времени.
2.3. Симплексный метод. Симплекс - это простейшая геометрическая фигура в пространстве входных воздействий. При двух входных величинах симплексом является треугольник, при трех - пирамида. Рассмотрим данный метод для двумерного объекта.
Из начальной точки 1 (рис. 36) осуществляются два шага в точки 2 и 3, образующие вершины треугольника - симплекса. Во всех этих точках измеряется значение критерия самонастройки и определяется, в какой из них это значение будет минимально (при поиске максимума).
Рис. 36
Допустим, что это точка 1. Тогда следующий шаг производится в точку 4, симметричную точке 1, относительно стороны 2-3. Затем точку 1 отбрасывают, и аналогично рассматривают симплексы 2-3-4, 2-4-5, 4-5-6 и т. д.
По мере приближения к экстремуму следует автоматически уменьшать размеры симплекса для повышения точности поиска. Однако этому препятствует уменьшение приращений критерия самонастройки.
2. Релейный метод задает постоянную по модулю скорость изменения входного воздействия (применяется исполнительный механизм постоянной скорости). Изменение знака скорости (реверс) происходит при изменении знака градиента, т. е. по закону .
Этот простейший, но грубый метод приводит к автоколебаниям и используется для одномерных объектов в сочетании с методами запоминания экстремума и производной по времени (см. п.20).
Лекция 8
Беспоисковая адаптивная система,
использующая функцию Ляпунова
Объектом адаптации в этой системе является замкнутая САР, состоящая из объекта регулирования ОР и автоматического регулятора АР (рис. 45). ОР - это инерционное нестационарное звено, у которого непредвиденным образом изменяется коэффициент самовыравнивавания . АР - пропорциональный регулятор с переменным коэффициентом k, реализованный на множительном звене.
В системе применена эталонная модель М-Э, которая по возмущающему воздействию v имеет передаточную функцию:
. (50)
Рис. 45
Покажем, что благодаря самонастройке изменение коэффициента можно парировать соответствующим изменением коэффициента k(t). Для этого найдем передаточную функцию САР по возмущению
. (51)
Сравнение выражений (50) и (51) показывает, что САР при будет эквивалентна модели-эталону.
Для синтеза контура самонастройки получим дифференциальные уравнения для сигнального (координатного) рассогласования
(52)
и параметрического рассогласования
. (53)
Из (50) и (51) можно получить дифференциальные уравнения эталонной модели М-Э и САР:
,
.
Вычтя из уравнения М-Э уравнение САР с учетом (52) и (53) получим уравнение для координатного рассогласования
. (54)
Примем непрерывный закон настройки коэффициента k(t) согласно уравнению
, (55)
где - функция, подлежащая определению по условию устойчивости.
Предположим, что изменяется сравнительно медленно. Тогда, дифференцируя (53), производной можно пренебречь:
. (56)
Из (55) и (56) получим дифференциальное уравнение для параметрического рассогласования:
. (57)
Уравнения (54) и (57) используем для дальнейшего синтеза системы по прямому методу Ляпунова. В качестве критерия самонастройки берем функцию Ляпунова:
. (58)
Функция (58) удовлетворяет требованию положительной определенности при > 0 и имеет равный нулю минимум в начале координат, который и следует достичь при адаптации.
Согласно прямому методу Ляпунова для обеспечения устойчивости в указанной точке экстремума надо найти и обеспечить отрицательную определенность производной .
Продифференцировав (58) как сложную функцию, в силу (54) и (57) получим:
.
Отсюда видно, что отрицательная определенность будет при
. (59)
Уравнения (55) и (59) определяют алгоритм контура адаптации, что отражено на структурной схеме системы (см. рис.45).
Беспоисковая адаптивная система, использующая функцию чувствительности
Функциональная схема системы приведена на рис. 46. Здесь СНМ - самонастраивающаяся модель объекта регулирования ОР; ( - его переменный параметр; - настраиваемый параметр автоматического регулятора АР.
Рис.46
В качестве критерия самонастройки принята функция , где - ошибка регулирования. Для самонастройки принят непрерывный закон изменения параметра по методу градиента:
. (60)
Входящую в (60) компоненту градиента найдем, дифферен-
цируя J как сложную функцию:
, (61)
где - функция чувствительности ошибки к параметру .
Ее можно найти из уравнения САР, которая является объектом адаптации:
, (62)
где - рассогласование.
Поскольку g и yм от параметра не зависят, то, дифференцируя равенства для и по параметру , получим
. (63)
Дифференцируя (62) по , с учетом (63) найдем
.
Отсюда . (64)
Оператор перед в (64) называется оператором чувствительности
(65)
и позволяет определить функцию чувствительности по рассогласованию . Подставив (64) в (61), а затем (61) в (60), получим с учетом (65) искомый алгоритм адаптации
по которому и составлена структурная схема на рис. 46.
Лекция 9
Модели в адаптивных системах
Из рассмотренных выше примеров видно, что в СНС используются два вида моделей: модель-эталон системы и самонастраивающаяся модель (СНМ) объекта управления.
Первая модель определяет желаемые (эталонные) свойства системы регулирования как объекта адаптации.
Самонастраивающиеся модели объектов управления могут выполнять функции следующих устройств:
1) датчика динамических характеристик объекта управления, в частности, его параметров;
2) корректирующего устройства, используемого, например, в качестве упредителя Смита;
3) имитатора объекта, который может использоваться, например, в тренажерах.
При построении самонастраивающейся модели объекта управления надо решить две задачи:
1) синтез модели объекта;
2) синтез автоматического управляющего устройства, которое будет эту модель настраивать.
Для решения первой задачи искомая характеристика объекта (весовая, передаточная функция и др.) представляется в виде суммы ортогональных функций, взятых с переменными весовыми коэффициентами с1, с2, ..., сп, в частности, .
Ортогональность функций Wi(s) обеспечит независимость изменения указанных коэффициентов.
Для синтеза автоматического управляющего устройства, производящего адаптацию синтезатора (модели ОУ), могут применяться различные принципы
1) поисковый;
2) беспоисковый замкнутый;
3) беспоисковый разомкнутый.
Поисковая самонастраивающаяся модель (рис. 47) включает в себя С - синтезатор, ВУ - вычислительное устройство, АО - автоматический оптимизатор, который настраивает коэффициенты синтезатора так, чтобы критерий самонастройки J достигал своего минимума. Причем критерий J должен характеризовать отклонение выходного сигнала у(t) объекта управления ОУ от выходного сигнала синтезатора ум(t).
Рис. 47
Беспоисковая замкнутая самонастраивающаяся модель объекта управления (рис. 48) содержит вычислительное устройство ВУ, которое вычисляет отклонения v1, v2,…, vn соответствующих коэффициентов с1; с2, ..., сп, от их требуемых значений.
Рис.48
Эти отклонения поступают на блок настройки БН, состоящий из п интегральных регуляторов, которые изменяют коэффициенты c1, ... , сп до получения нулевых отклонений.
Беспоисковая разомкнутая самонастраивающаяся модель (рис. 49) имеет в своей основе вычислительное устройство ВУ. Оно по входному и выходному сигналам объекта управления ОУ определяет в результате
Рис.49
параметрической идентификации коэффициенты синтезатора С, причем последний можно использовать как имитатор или корректирующее устройство.
Адаптивная оптимальная САУ на базе самоорганизующегося
оптимального регулятора с экстраполяцией
Функциональная схема такой САУ (рис. 50) содержит следующие элементы:
1. блок памяти;
2. блок оценивания;
3,7. исполнительные блоки;
4. экстраполятор нулевого порядка (ЦАП);
5. обобщенный объект регулирования (ОР);
6. блок автоматического поиска порядка математической модели (ММ) объекта.
По принципу функционирования эта САУ относится к системам с дискретным временем циклического типа. Входной величиной самоорганизующегося оптимального регулятора с экстраполяцией служит сигнал рассогласования х(t) между задающим воздействием g(t) и выходной
Рис.50
величиной y(t) объекта. Этот сигнал измеряется на каждом шаге, т. е. при t=iT, i= 0, 1, 2,….
В оперативной памяти 1 в табличном виде хранятся параметры, определенные на стадии проектирования: значения элементов матриц наблюдателей объекта с полиномиальной математической моделью различного порядка, оптимальные значения априорного времени экстраполяции и др.
В блоке оценивания 2 реализованы параллельно работающие рекуррентные циклические наблюдатели всех выбранных порядков n = 2, 3, .., nm. Полиномиальная математическая модель обобщенного регулируемого объекта эквивалентна цепочке последовательно соединенных интегрирующих звеньев, и блок 2 вырабатывает оценки векторов состояния этих цепочек для всех значений n. Соответственно каждый рекуррентный циклический наблюдатель строится по каскадной схеме, т. е. состоит из цепочки последовательно соединенных наблюдателей Нi (i = 1, ..,, п) производных (рис. 51, а), причем последние реализованы на базе фильтра Калмана-Бьюси второго порядка (рис. 51, б), у которого
Рис. 51
Помеха типа «белый шум» подавляется благодаря инерционности фильтра Калмана-Бьюси: первые оценки производных содержат «шум», а их вторые оценки - сглаженные, практически без «шума». Оценивание каждой последующей производной начинается после того, как завершится оценивание предыдущей (рекуррентный алгоритм). Так, например, после того, как и соответственно начинается оценивание и завершается при , в результате чего получается и т.д.
Для каждого фильтра Калмана-Бьюси коэффициенты k1 и k2 меняются во
Рис.52
времени в соответствии с передаточной функцией так, чтобы на начальном
этапе происходило оценивание наблюдаемой (входной) величины, а затем -
оценивание ее первой производной по времени (рис. 52).
В блок 6 (рис. 50) посылаются оценки для всех n, измеренные практически в один и тот же момент времени t благодаря малой затрате времени на оценивание (на порядок меньше периода наиболее высокочастотной составляющей движения объекта регулирования) и значительной инерционности объекта. По векторам оценок в этом блоке выполняется экстраполяция (т. е. предсказание, прогнозирование изменения) сигнала рассогласования на скользящий интервал для всех значений n, где Тэ – время экстраполяции.
Кроме того, в этот же блок поступают значения рассогласования и запоминаются на том же скользящем интервале. Далее осуществляется целочисленный поиск по п минимума усредненной нормы (например, квадрата) разности между фактическим и априорно предсказанным значением сигнала рассогласования. Это значение п считается оптимальным и по цепи местной ОС посылается в блок 2, а затем из этого блока в исполнительный блок 3. Кроме того, при этом происходит апостериорная оптимизация времени экстраполяции.
В исполнительном блоке 3 рассчитывается оптимальное управление u1 объектом на основе минимизации функционала обобщенной работы. В блоке 7 определяется дополнительное управление u2, компенсирующее неопределенности объекта. Управляющее воздействие u = u1 + u2 после экстраполятора нулевого порядка имеет вид кусочно-постоянной функции на интервалах , определяемой через рассогласование и оценки его производных. При этом могут быть реализованы астатизмы высокого порядка (v > 8), которые считались недостижимыми в эпоху аналоговой техники. Обобщенный объект 5 кроме ОР включает в себя усилители, приводы, измерительные преобразователи. На рис. 53 дана иллюстрация работы САУ и самоорганизующегося оптимального регулятора с экстраполяцией для ОР второго порядка.
Рис.53
Итак, данная САУ впервые позволяет реализовать адаптивное управление при неизвестной априори структуре ОР благодаря высокому уровню структурной и параметрической адаптации, которая обеспечивается прежде всего за счет применения наблюдателей в виде фильтра Калмана-Бьюси, устройств экстраполяции и поиска порядка математической модели.
Как было указано, в этой САУ для оптимизации используется функционал обобщенной работы - неклассический функционал с аддитивными затратами как на синтезируемое управление u, так и управление u0 в оптимальной системе:
.
ОУ задан уравнениями с линейно входящими управлениями:
При аналитическом конструировании необходим синтез алгоритма оптимального управления u° = u°(х,t) на стадии проектирования, что наталкивается на существенные трудности. Более прост поиск u0(t) САУ с прогнозирующей моделью в процессе работы системы.
Уравнение Беллмана для данной задачи имеет вид:
. (66)
Минимизация по u, т. е. дифференцирование по u и приравнивание производной к 0, приводит к решению в неявном виде:
. (67)
Подставляем (66) в (67) и учитываем дополнительное условие, налагаемое на функции U и U*:
.
Данное условие означает, что левая часть этого неравенства должна быть положительно-определенной функцией относительно и, принимающей минимальное значение, равное 0 при u=u0.
В результате получим уравнение в частных производных, на-
зываемое уравнением Ляпунова:
. (68)
Привлекая для решения этого уравнения метод характеристик, можно показать, что искомое решение строится на интегральных кривых, удовлетворяющих обыкновенным дифференциальным уравнениям свободного движения объекта ():
(69)
где - вектор частных производных функций Беллмана S по компонентам вектора состояния.
Уравнение (69) может быть также получено из (68) непосредственным дифференцированием по x и изменением порядка дифференцирования.
Кроме того, при вычислении функции S(x,t) на свободной траектории (u=0) из (68) вытекает уравнение
. (70)
Уравнения (69), и (70) составляют основу алгоритмов оптимизации с прогнозирующей моделью. Суть этих алгоритмов сводится к тому, что на основе интегрирования этих уравнений строится решение уравнения (68) и тем самым решается оптимизационная задача. Упрощение состоит в том, что не требуется поиска структуры функции S(x,t) во всей области ее определения, а требуется лишь вычисление ее значений в некоторой окрестности текущего состояния, достаточной для вычисления градиента , который затем используется в (67) для вычисления u0(t).
Лекция 10