快捷分类

一种基于最速下降法的无模型自适应控制

更新时间：2016-07-05

0 引言

建立被控系统的模型是现代控制理论的基础，随着受控对象越来越复杂，建立其精确的模型非常困难，即使建立了系统模型，模型往往也经过诸多简化，基于此建立的控制器，在实际应用中常会出现问题，而且，模型越复杂，控制器的设计就越复杂，实现越困难[1-2]。文献[1-2]提出的无模型自适应控制(Model-Free Adaptive Control,MFAC)是一种基于数据驱动的先进智能控制方法，它在被控系统附近用一系列动态线性时变模型来代替一般非线性系统，不需要被控对象的任何知识，仅基于被控系统产生的输入输出信息设计控制器，与模型、结构、系统阶数无关，且能实现系统的自适应控制，并确保其闭环稳定，从本质上消除了未建模动态对系统的影响[3-5]。无模型自适应控制算法具有广泛的适用性，计算量小，鲁棒性强，很好地处理了非线性时变系统在实际应用中的各类控制问题，在工程应用中有广阔的前景,且已经在自动泊车、电力电网、化工、风力发电等领域取得了良好的控制效果[6-9]。

近年来，国内外许多研究学者对无模型控制算法进行了改进，文献[8]提出了一种新的伪偏导数(Pseudo-Partial Derivative，PPD)参数估计方法；文献[10]考虑到被控系统内部的信息未被充分利用的问题，提出一种无模型动态矩阵算法，将动态矩阵控制算法的预测模型与伪梯度向量结合，得到系统的动态模型，进而推导出控制律；文献[11]针对无模型自适应算法的干扰作用问题，分析了可测扰动对性能的影响，提出了一种带有滤波作用的改进方法并进行了鲁棒性证明，有效解决了对可测扰动的抑制问题；文献[12]考虑执行器输入受限时的情况，对系统输入准则函数引入了约束条件，用Hildreth方法求解数值，解决了执行器的执行能力存在上限的问题。在以上研究中，在控制律和伪偏导数估计算法中都采用了试凑法或固定常数法选取惩罚因子。在无模型自适应算法中，惩罚因子一般选取为大于零的常数，其值对控制系统收敛速度、超调量以及整体系统的自适应性能等影响都很大。

为使收敛速度更快、超调量更小、自适应控制性能更优，本文提出了一种可分别对控制律和伪偏导数估计算法中的惩罚因子自适应寻优的改进算法，并对其稳定性进行证明，进一步地，通过对非线性系统的仿真验证表明了该算法对收敛速度的提升作用和对抗扰性的增强作用。

1 原型MFAC算法

考虑如下的SISO离散非线性系统

比较文学并不是一门新的学科，新加坡早在上世纪70年代就有学者极力译介比较文学的原理和方法，并努力在大学讲堂上传播比较文学的理论。然而，要掌握比较文学的原理和方法，并将它们应用到新加坡的华文文学的教学中去，亦非易事，因为比较文学要求学习者至少具备双语的能力，要求学习者对一国以上的文学有深入的研究，还要求学习者善于发现问题，敏于思考，且善于解决问题。

y(k+1)=f(y(k),…,y(k-ny),u(k),…,u(k-nu))

(1)

式中：y(k)∈R,u(k)∈R分别表示系统在k时刻的输出和输入；f()∶Rnu+ny+2∈R为未知的非线性函数；nu,ny为未知的正整数。

因而

改革开放以来，云南铁路全面抓好客运提速、装备提质和服务升级，将旅客列车增开至目前的181对，覆盖全国26个省会中心城市和云南重点城市，基本淘汰老式“绿皮车”，客车旅行时速提升2.5倍。

假设1 函数f()关于系统的控制输入u(k)的偏导数是连续的。

假设2 系统式(1)满足广义Lipschitz条件，即对任意的时刻k1≠k2，k1,k2≥0时，当u(k1)≠u(k2)有

多数的酒店管理层没有意识到对于员工的学习与培训的重要性，在人力资本的投入上是比较的不足。虽然知识型员工来自高校，受过高等教育和一定的服务技能的培训，但是毕竟实践经验不足。从学校到社会的一个过渡阶段也是他们想通过真实的社会以及工作过程去学习更多在学校学习不到的知识、经验、技能。有的酒店则急功近利，希望招到的员工一进酒店就能发挥作用，根本不做岗前培训。有些酒店甚至从未给员工任何学习培训或继续学习深造的机会，对知识型员工对自我发展的要求往往比较忽视，使员工感觉酒店的发展空间不大，影响到员工对职业生涯规划。而知识型员工的特征之一就是希望能够不断地更新自己的知识储备和能力，使自己提升到更高的层次。

上述3款获奖方案是在7名参与者(A,B,C,G,H,I,J)的贡献下完成的，获奖人数占团队全部成员的70%，而传统的“比稿”模式最多产生3名获奖者，只占团队总人数的30%。根据2.2节所述的利益分配规则，7名获奖者的获奖数额如表2所示，其中P1,P2,P3分别为3个获奖方案的奖金数。

|Δy(k+1)|≤b|Δu(k)|

(2)

式中：Δy(k+1)=y(k+1)-y(k);b>0是一个常数;Δu(k)=u(k)-u(k-1)。

引理1[1-3] 若非线性系统式(1)满足假设1、假设2,则当Δu(k)≠0时，一定存在一个称为PPD(Pseudo-Partial Derivative)的伪偏导数φ(k),使得非线性系统的泛模型成立，即

y(k+1)=y(k)+φ(k)Δu(k)

(3)

式中，|φ(k)|≤b。

考虑如下的准则函数

J(u(k))=(y*(k+1)-y(k+1))2+ λ(u(k)-u(k-1))2

(4)

式中：y*(k+1)为系统期望跟踪信号；λ为惩罚因子。

将式(3)泛模型代入准则函数式(4)中，并对u(k)求导，可得控制律算式为

(5)

式中：ρ为运算步长;φ(k)是未知的，需要对其进行在线辨识。

对伪偏导数进行估计，采用投影估计算法，从消除稳态偏差和保证系统稳定的角度出发，采用与控制策略成对称相似结构的控制输入目标函数

将式(9)改写为

(6)

式中：y0(k)为系统的实际输出；为φ(k)的估计值；μ为变化量的惩罚因子。

令的导数为0，得伪偏导数的估计算式为

(7)

式中，η∈(0,1],为步长序列。

从人口状况来看，目前竹农家庭以3～4人为主，占调查总户数的51.1%，平均每户人口为3.96人；人口在5人及其以上的农户占39.8%。从经营者年龄上看，被调查者的平均年龄为57.3岁，最大者为84岁，最小者为33岁；其中51～60岁者竹农占47.9%，61～70岁者占35.1%，71岁以上者占6.4%，50岁以下的竹农仅占10.6%。可见，大部分竹林经营者都是爷爷、奶奶辈，劳动者趋于老龄化；而且竹林经营面积越小，经营者的年龄越大。说明现有的竹林经营规模无法吸引年轻人。

对式(5)中的惩罚因子作如下离散迭代的改进

(8)

式中：ε为一个充分小的正数；为的初始值。式(8)为参数重置算法，它保证了引理1的条件，也保证了式(7)对时变参数有更强的跟踪能力[4]。

2 改进的MFAC算法

惩罚因子主要有2个作用：1) 对控制输入量和伪偏导数输入量的变化加以限制，影响系统响应的速度和超调量，同时减少系统稳态误差，保证控制输入信号的平滑性；2) 防止出现式(5)、式(7)中分母为零的奇异状况。选取合适的λ，μ值可以保证系统的稳定性，且在闭环系统响应速度和超调量之间得到最佳的平衡值，现有的方法对λ和μ的选取主要依靠经验，没有一种自动整定到最优的方法。本文中，对惩罚因子提出一种在线迭代自适应的改进方法，利用最优化中的最速下降法的思想，迭代寻找能使控制律和伪偏导数达到最优的惩罚因子值。

2.1 对控制律中的惩罚因子改进

当或|Δu(k-1)|≤ε或时

λ(k+1)=λ(k)-α1▽J(u(k))

(9)

式中，α1为学习速率。

对式(7)中的惩罚因子作如下离散迭代的改进

我不明就理地转过头盯着李小树，只见他说完这句话后就把眯着的眼睛合闭上了。他抿了抿嘴无比享受地说：“你有没有感觉得到它的柔滑与细致？”

▽

(10)

下面针对一起500 kV变电站HGIS外置式电流互感器普遍受潮的缺陷进行分析，提出了相应的受潮处理措施和防潮措施，对今后处理类似缺陷具有较大的借鉴意义。

λ(k+1)=λ(k)-α1A1B1

(11)

式中：

A1=2((φ(k)2+λ(k))Δu(k)- (y*(k+1)-y(k))φ(k))；

(12)

(13)

2.2 对伪偏导数式中的惩罚因子改进

为使控制率达到最优，其对控制律的梯度为

μ(k+1)=μ(k)-α2▽J(u(k))

(14)

式中，α2为学习速率。

同样，此改进的目的是获得控制器的最优解，其梯度为

同时，网络社交媒体的全面普及，改变了旅游者的信息搜寻模式（胡兴报、苏勤、张影莎，2012），影响了旅游者的决策过程（王贵斌，2012），重新塑造了旅游者的行为选择。此外，网络媒体平台也是旅游目的地依据旅游者的感知、偏好、评价，作好目标市场定位、制定营销策略、树立网络口碑、提升旅游目的地形象的重要手段，是实现旅游目的地营销突破的新契机。总之，网络社交媒体的快速发展，不仅改变了旅游者的行为，也深刻影响了旅游目的地的营销宣传活动。

▽

(15)

将式(15)改写为

μ(k+1)=μ(k)-α2A2B2C2

(16)

式中：

A2=2((φ(k)2+λ(k))Δu(k)- (y*(k+1)-y(k))φ(k))；

(17)

(18)

(19)

结合式(29)、式(31)，有

(20)

进而，得到控制律

(y*(k+1)-y(k))。

(21)

3 稳定性分析

为了对改进算法的闭环稳定性进行分析，做如下假设。

假设3 对某个给定的有界期望输出信号y*(k+1)，总存在一个有界的u*(k)，使系统输入该信号时，输出等于y*(k+1)。

矿区位于广西山字型构造前弧西翼内侧，主构造线方向为NNW向，北段受南岭EW向构造体系的影响，构造形迹的方向略有改变，北东部有NNE向新华夏系构造反映。

本节课的授课对象是笔者所在学校的高二科技班学生，平时运用翻转课堂在家学习数学已经成为常态.学生在翻转课堂讨论区经常提出问题、发表观点、展开讨论.经过“等差数列”相关知识的学习，学生基本掌握了等差数列的概念、通项公式的运用的基本方法.

假设4 对任意时刻k及Δu(k)≠0，系统伪偏导数的符号保持不变，即满足φ(k)>b1>0或φ(k)<-b1，其中，b1是一个小正数。

定理1 对于非线性系统式(7)，在满足假设1～4的情形下，当y*(k+1)=const时，使用式(21)、式(22)、式(30)，总存在一个常数λmin>0，使得当λ>λmin时有：1) 系统输出跟踪误差单调有界收敛；2) 闭环系统BIBO (Bounded Input Bounded Output)稳定，即输出序列{y(k)}和输入序列{u(k)}是有界的。

证明：

Step 1 证明伪偏导数的估计值有界。

当或|Δu(k-1)|≤ε或时，是有界的，其他情况下,定义为PPD估计误差，式(20)两边同时减去φ(k)，得

(22)

将Δy(k)=φ(k-1)Δu(k-1)代入式(22)中，并在两边取绝对值，则

width=302,height=52,dpi=110 Δφ(k)

。

(23)

由梯度下降的收敛性[13]可知，一定存在一个常数μ*，满足使得▽J(u(k))达到最小值，可知，μ(k)是有界的，且μ>0，可得0<μ(k)<M。

因为μ(k)>0且η∈(0,1)，所以

采用图像背景差分法对采集到的图像数据进行处理.首先，在电缆没进入管道前拍摄一幅图像，将该幅图像作为背景图像.电缆进入管道后，拍摄此时管道内的图像，将其作为当前图像.

ηΔu2(k-1)<Δu2(k-1)<μ(k)+Δu2(k-1)

(24)

(25)

为了得到系统的控制方案，对系统(1)作如下的假设。

(26)

记 1-δ=d1，2b=c，则

将数据纳入SPSS 21.0统计学软件中进行分析，计数资料比较采用χ2比较，以[n（%）]表示，计量资料比较采用 t检验，并以（±s）表示，P＜0.05 为差异有统计学意义。

(27)

可见，有界。又因为φ(k)有界，故有界。

Step 2 证明e(k)有界。

定义系统跟踪误差为

e(k+1)=y*(k+1)-y(k+1)

(28)

将式(3)、式(21)代入式(28)中，两边取绝对值，可得

|e(k+1)|=|y*(k+1)-y(k)-φ(k)Δu(k)|≤ width=187,height=55,dpi=110

(29)

同理可知0<λ(k)<N。

根据假设的条件φ(k)>σ，重置算法的保证条件及上述证明的有界可知，选取λ>λmin，则一定存在一个常数0<l<1,使得

(30)

式中，b为满足引理1结论的常数。可得

又根据式(30)，0<ρ≤1和λ>λmin，则一定存在一个常数d2<1，使得

(31)

由此得到伪偏导数估计算式为

|e(k+1)|≤d2 |e(k)|≤

(32)

故e(k)有界收敛。定理1的第1)点得证。

Step 3 证明y(k)，u(k)有界。

因为y*(k+1)为常数，则由式(28)知，y(k)有界。证得输出序列{y(k)}有界。由式(21)和不等式可得

Δu(k)= width=249,height=117,dpi=110 width=167,height=55,dpi=110 width=181,height=52,dpi=110

(33)

式中，是一个有界常数。证得|Δu(k)|是有界的。

|u(k)|≤|u(k)-u(k-1)|+|u(k-1)|≤ |u(k)-u(k-1)|+|u(k-1)-u(k-2)|+ |u(k-2)|≤|Δu(k)|+|Δu(k-1)|+…+ |Δu(2)|+|u(1)|≤P(|e(k)|+ |e(k-1)|+…+|e(2)|)+|u(1)|≤

(34)

证得输入序列{u(k)}有界。定理1的第2)点得证。

4 仿真研究

考虑如下非线性系统

(35)

期望输出信号为

(36)

扰动信号为

a(k)=1+round(k/200)

(37)

b(k)=1+round(k/500)

(38)

d(k)=0.2。

(39)

将常规的无模型自适应算法(MFAC)和改进的无模型自适应算法(IMFAC)分别应用其中，利用Matlab进行仿真比对并分析。

系统的初始参数为u(1)=0，u(2)=0，y(1)=-1，的控制器参数为ρ=1，η=1，λ=1，μ=1。IMFAC的惩罚因子初始值为λ(1)=1，μ(1)=1。其余仿真参数同MFAC。当k=100时加入阶跃干扰信号d(k)，仿真结果如图1～图3所示。

图1 输出曲线比对图 Fig.1 Comparison of output curves

为了对比两种算法的总体控制性能，分别计算其性能评价指标时间绝对误差积分(ITAE)，计算式为

教育部在《高等职业教育英语课程教学要求（征求意见稿）》中指出要以培养职场环境下英语交际能力为目标，以岗位需求为主线开发和建构英语课程，要求高职英语为专业服务，体现高职英语融基础英语和行业英语为一体的教学趋势。[1]而要建立符合我国国情的高等职业技术教育体系，应该借鉴国外的职业技术教育经验和引进先进的职业技术教育理念。

(40)

图2 输入曲线比对图 Fig.2 Comparison of input curves

图3 误差曲线比对图 Fig.3 Comparison of error curves

2种算法性能指标比较如表1所示。

表1 2种算法性能指标比较

Table 1 Performance of two algorithms

算法ITAEMFAC5650．90IMFAC2906．00

由图1可以明显地看出，IMFAC方法在跟踪参考信号时具有更快的收敛速度，但超调量有所增加，同时，在受到干扰情况下，IMFAC方法能更快地达到稳定。由图3和表1可见，IMFAC方法相比MFAC方法,误差明显减小，性能指标明显增大，综合而言，IMFAC方法具有更优的控制性能。

5 总结

本文提出了一种改进的无模型自适应控制算法，通过对其控制律与伪偏导数估计式中的惩罚因子进行迭代优化控制，简化了原有方法中对惩罚因子试凑寻优的过程，提高了参数寻优能力，对其闭环稳定性进行了严格的证明，并对改进前后的算法进行了比对。仿真结果表明，改进后的方法收敛速度更快，抗扰性更强，控制性能更优，有效提高了系统的控制效果。另一方面，在线的求解增加运算的复杂度，而如何降低复杂度，减少运算量，改变其为离线求解，或离线和在线共同求解，或加入新的算法进行改进，将是下一步的研究重点。

参考文献

[1] 侯忠生.非线性系统参数辨识、自适应控制和无模型学习自适应控制[D].沈阳:东北大学,1994.

[2] 侯忠生,金尚泰.无模型自适应控制：理论与应用 [M].北京：科学出版社,2013.

[3] 侯忠生.无模型自适应控制的现状与展望[J].控制理论与应用,2006,23(4):586-592.

[4] HOU Z S,JIN S T.Model free adaptive control:theory and applications [J].Brain Research,2013,281(2):202-205.

[5] ZHU Y M,HOU Z S.Controller dynamic linearisation-based model-free adaptive control framework for a class of non-linear system[J].IET Control Theory & Applications,2015,9(7):1162-1172.

[6] 侯忠生,董航瑞,金尚泰.基于坐标补偿的自动泊车系统无模型自适应控制[J].自动化学报,2015,41(4):823-831.

[7] 赵艺,陆超,韩英铎.多输入多输出无模型自适应广域阻尼控制器设计[J].清华大学学报:自然科学版,2013(4):453-458.

[8] XU D Z,JIANG B,SHI P.A novel model-free adaptive control design for multivariable industrial processes[J].IEEE Transactions on Industrial Electronics,2014,61(11):6391-6398.

[9] 鲁效平，李伟，林勇刚.基于无模型自适应控制器的风力发电机载荷控制[J].农业机械学报，2011，42(2):109-114,262.

[10] 侯立刚,徐利军,苏成利,等.基于紧格式线性化的无模型动态矩阵控制[J].控制工程,2013,20(2):246-249.

[11] 卜旭辉,侯忠生,金尚泰.扰动抑制无模型自适应控制的鲁棒性分析[J].控制理论与应用,2011,28(3):358-362.

[12] 程志强,朱纪洪,袁夏明.考虑执行器饱和的改进无模型自适应控制[J].自动化学报,2016,42(8):1158-1165.

[13] 刘颖超,张纪元.梯度下降法[J].华东工学院学报,1993(2):12-16.

作者

吉蕊，佃松宜，苏敏

出处

《电光与控制》 2018年第05期

上一篇：一种基于差分进化混合粒子群算法的多无人机航迹规划

下一篇：无人机覆盖搜索地域通信网交叉式航路规划

《电光与控制》2018年第05期文献

一种改进CSA算法的UAV多任务区侦察决策问题研究作者：张耀中，陈岚，张蕾，谢松岩

面向作战需求的卫星应用装备组合优化研究作者：孙盛智，侯妍，裴春宝

基于PHD滤波的箱粒子划分多目标跟踪算法作者：吴孙勇，宁巧娇，蔡如华，刘义强，孙希延

基于梯度下降法的四旋翼无人机姿态估计系统作者：刘青文，郭剑东，浦黄忠，甄子洋

一种基于差分进化混合粒子群算法的多无人机航迹规划作者：于鸿达，王从庆，贾峰，刘阳

一种基于最速下降法的无模型自适应控制作者：吉蕊，佃松宜，苏敏

无人机覆盖搜索地域通信网交叉式航路规划作者：郑超，许阳明

基于案例和MAX-MIN云推理的UCAV双层战术决策作者：刘小平，王杰，李聪，唐传林

基于改进遗传算法的干扰资源分配问题研究作者：宗思光，刘涛，梁善永

灰度图像的边缘检测作者：李轩，张红

基于稀疏表示和拉伸变换的SAR图像目标识别作者：李廷元

鲁棒自适应控制的靶机蛇形机动控制律设计作者：李雪兵，李春涛，坤娅

基于改进型小波神经网络的电子战无人机作战效能评估研究作者：陈侠，胡乃宽

基于深度卷积神经网络的飞机识别研究作者：唐小佩，杨小冈，刘云峰，任世杰

一种针对海面SAR图像的视觉注意模型设计作者：熊伟，徐永力

基于几何约束的视觉闭环检测和位姿优化作者：李卓，刘洁瑜，周伟

追逃定性微分对策中界栅的确定作者：于飞，李擎，张昊

基于操稳特性的飞行器包线划分方法作者：何敏，余长贵

基于网格连通的航迹自动起始方法作者：张成宝，杜杭，黄磊

一种基于偏转镜的激光空间合束方法研究作者：郭豹，张兵，黄伟，李卫森，郑耀锋

杂志信息网