快捷分类

离散时间平均场二次最优控制问题

更新时间：2016-07-05

1 引言

1958年,贝尔曼开始研究二次型最优控制.1960年卡曼建立了基于状态反馈的线性二次型最优控制理论,并在最优控制理论中引入了黎卡提微分方程.这样就可以用统一的解析式来表示线性二次型最优控制的解,且得到一个简单的线性状态反馈控制律,从而构成闭环最优控制.同时线性二次型最优控制问题还可以兼顾系统的性能指标等多方面的因素,如它可以把得到的最优反馈控制与非线性系统开环最优控制结合起来,可以减少开环系统的误差,得到更精确的结果.

从20世纪50年代末开始,控制理论进入了一个新的发展时期,它所研究的对象扩展为多输入多输出的,非线性的,时变的离散时间系统,它涉及到了线性控制,自适应控制,最优控制,鲁棒控制,非线性控制,控制系统CAD等理论和方法.今天,随着被控模型的复杂性,不确定性和规模的增大,传统的基于精确的数学模型的控制理论的局限性日益明显. 众所周知,系统很容易受到各种限制因素的影响,例如温度、压力等.因此受约束的随机线性二次最优控制问题的研究是一个非常重要的课题.文献[1]针对模型自由的随机线性离散时间系统,通过Q学习算法,求解无限时间随机线性二次最优控制问题.文献[2]研究了离散时间随机二次最优控制问题.文献[3]考虑了具有确定性系数的平均场随机微分方程的线性二次最优控制问题.在文献[4]中,研究了在无限时间范围内存在的平均场二次最优控制问题.文献[5]提出了有限时域随机最优控制模型的数值方法,推导出了随机最小值原理,并在此基础上提出了一种基于最小值原理直接求解的数值方法.文献[6]研究一类基于社交影响力和平均场理论的信息传播动力学模型,在针对影响力度量中主要研究静态拓扑结构,利用平均场理论来忽略个体行为特征,提出了一种基于动态节点行为和用户影响力的信息传播动力学模型.

本文利用凸分析的拉格朗日乘子定理研究带终端的随机线性二次最优控制问题,并且将平均场理论应用到最优控制问题中,可以最大限度的减小噪声对系统的影响,并能方便的处理噪声方面的问题.同时验证了平均区域随机二次最优控制问题存在线性反馈最优解的必要条件,其结果可以看作是平均场离散时间随机二次最优控制问题的推广.

秦铁崖来京城之前，翻阅旧案卷宗，去了趟证物库房，翻出这个烟花筒带在身边。秦铁崖道：“你不叫乔十二郎，你是陆枫桥。”

为了方便,给出以下定义：M'是矩阵M的转置；Tr(M)是矩阵M的迹；当M>0(M≥0)时,M为正定矩阵；Ex代表随机变量x的数学期望,Rm×n为n×m矩阵；N={0,1,2,…,T}；并且令

2 问题陈述

通过类似的方法,(20)式也可以被证出.

(1)

bi1x1T+bi2x2T+…+binxnT=ξi, i=1, 2,…, r

(2)

上市公司的违规行为会影响其债务融资吗？——基于地区法制环境差异性的分析....................................................................................................................窦炜郝晓敏李培源（1）

(3)

ξi为给定的FT可测的平方可积随机变量,即E|ξi|<+ width=11,height=8,dpi=110 ,bij为已知实数,i=1,2,…,r;j=1,2,…,n. 令Nr×n=(bij)r×n,ξ=(ξ1,ξ2,…,ξr)′,则约束(2)可写为NT=ξ,在这里假设N为行满秩.

表述本文主要定理之前,首先给出本文要用到的拉格朗日乘子定理和一些重要的引理.

定义1[7] 设X为向量空间,Y为赋范线性空间,T为X到Y的变换,对x,h∈X,如果极限

(4)

存在,称此极限为T在x处方向h的方向导数或Gateaux导数.若对任意的h∈X,上述极限都存在,则称T在x处为 Gateaux 可导.

定义2[7] 设X,Y为赋范线性空间,T为定义于X到Y的变换.对于给定的x∈D,h∈X,T在x处为Gateaux 可导,Gateaux导数δTx; h∈Y关于h为有界线性变换,且满足

则称T在x处为 Frechet 可导,δTx, h为T在x处h的 Frechet 导数.

定义3[7] 设Tx为定义于Banach空间X到Banach空间Y的变换,且有连续的Frechet导数.若对x0∈D,δTx; h为从X到Y的满射,则称x0为变换T的正则点.

引理1 [7] 设fx是定义于 Banach 空间X上具有连续的Frechet导数的实值函数,Hx为X到Banach空间Z的映射,x0为变换Hx的正则点.若fx在约束Hx=0下在x0处达到极值,则存在Z上有界线性泛函使Lagrang泛函

在x0处有驻点,即†Hx0; h=0,对所有h∈X都成立.

在本节的最后再给出一个关于广义逆矩阵的引理.

国内学术界最初针对农民工的社会保障现状等方面展开。任兰兰、王春蕊和姜伟(2015)对农民工社会保障待遇确定机制进行研究，得出农村与城镇职工社会保障待遇相差较大，应建立与经济发展相适应的农民工社会保障待遇。郑兰先(2016)从社会保障领域面临的新课题和存在问题进行研究，得出应完善社会保障制度，以适应流动性和保证可持续性。凌敏(2016)运用Logistic 模型，对新生代农民工其参与失业保险的意愿及影响因素进行了分析，研究表明:性别、外出务工时间、劳动合同签订情况、从事行业、对社会保险政策满意度及社会救助情况是影响参保意愿的主要因素。

引理2[8] 给定M∈Rm×n,则存在唯一的M†∈Rn×m,满足

矩阵M†称为M的 Moor-Penrose 广义逆.

3 主要结论

对于离散时间控制系统(1),给出关于可容许控制集Uad的目标函数

(5)

其中是对称矩阵.

定义4 如果存在 u0∈Uad 满足

Jx0, u0=infJx0, u，>- width=11,height=8,dpi=110 , u∈Uad

(6)

则称u0为最优控制,系统(1)为适定的.为最优轨迹,Jx0,u0为最优目标函数.

而(11)式定义了从Cn×n[0,T] 到Rr×r的变换

(7)

其中Lt, t∈NT-1是矩阵值函数,为最优状态反馈控制.

把(7)代入(1),则二次最优控制问题变为以下形式

(8)

称Lt, t∈N为新的控制集.

令通过(8)式可以得到

width=545,height=79,dpi=110

(9)

要学好《测量基础》课程，不仅要求学生勤于思考、认真学习，也要求任课教师做好教学设计，不断创新，为后续专业课的学习打下扎实的基础。

(10)

把(9)和(10)代入(5),经过简单的变形得到目标泛函如下

其中是给定的矩阵值函数；xt和ut分别是状态过程和控制过程；E[ωt]=0和E[ωtωt]=δst是一个二阶过程,δst是Kronecker函数；ωt, t∈N是定义在概率空间(Ω, F, P)上的一维的标准Brown运动,Ft=σ(ωs:s∈N+)为Brown运动生成的信息流.u(.)属于允许控制集

的 Fretchet 导数为

约束终端(2)变为

选取我院2016年7月至2016年12月80例共108个手术切除的甲状腺结节患者，男性17例，女性63例，年龄15～71岁，平均年龄45.7岁。所有患者术前均接受甲状腺常规超声及时弹性成像检查。

(11)

最优控制问题归结为以下形式

目标泛函Jx0, u可视为定义在空间Cm×n[0,T]×Cm×n[0,T]上,其中Cm×n[0,T]为所有元素是[0,T]上连续函数的n阶方阵构成的空间；(9)式和(10)式定义了从Cm×n×Cm×n到Cn×n的变换

(12)

如果线性反馈控制对问题(1)和(6)是最优的,那么它在下列形式的反馈中也是最优的

G(XT)=NXTN′

从而约束(9)式,(10)式,(11)式可表示成为

对于收益一般的山东省沾化县、河北省黄骅市常规栽培区，考虑投入接受能力，可以在枣果进入幼果期时，施加品质较高、水溶性较好的复合肥。根据具体挂果量，施肥量一般控制在50 kg/株左右。可以在行间枣树滴水线处开宽20 cm左右、深10 cm左右的施肥沟，覆土施肥，然后灌一定量的水，促进复合肥溶解，快速发挥肥效。

(13)

下面来证明和有连续的Frechet 导数.

4)通过研究金银花水分吸湿等温线可以确定金银花及其含物制品的安全储藏的含水率, 且可指导产品包装的方式和材料。

定理都有连续的 Frechet 导数,且导数为

δHX( ΔXt+1)=-ΔXt+1

若许多译名的差别仅在于形式差异,而含义是一致的,译者此时就可以从视觉等值的角度,选择与原文结构近似的译名。若原文前后在同一语境下使用同一术语,那么译文在处理相同语境下的术语英译时也应该保持一致。

(14)

(15)

其中

X0=Ex0x0′

其中是矩阵值连续函数.

证明在这里只证明(14)式,其他证明过程跟(14)式相似.

令Xαt=Xt+αΔXt,通过定义1,能够得出

(16)

其中

(17)

令α→0,可以得出(14).

定理2 如果存在

(18)

是最优控制,那么存在对称矩阵和λ∈Rr×r满足

(19)

width=572,height=164,dpi=110

(20)

证明设是(5)式的最优解,通过定理2,可以得到对称矩阵和满足以下等式

詹姆斯的中篇小说《螺丝在拧紧》（The Turn of the Screw,1898）自发表以来便备受争议，引发了批评家及读者的激烈争论，其中主要有两个批评派别：“弗洛伊德派，以埃德蒙德·威尔森为代表，认为小说讲述的其实是一个性压抑者的欲望故事；反弗洛伊德派，以罗伯特·赫尔曼为代表，认为小说是一个诡异版的伊甸园神话，幽灵其实是邪恶的象征”（马元龙 2017:31）。这部作品之所以有各种不同的解读，与其采取的叙事视角有很大的关系。

δJXΔXt+δHXΔXt+1+δHXΔXt+δGΔXT=0

(21)

δJLΔLt+δHLΔHt=0

(22)

由于那么(21)式和(22)式变为

采用爱丁堡产后抑郁量表（EPDS）对护理后两组产妇抑郁情况进行评定，共10个条目，每个条目0～3分，总分30分，评分越高，表示产妇抑郁症状越严重[3-4]。采用本院自行设计拟定的护理满意度问卷对两组护理后产妇的满意度进行统计，总分100分，分数在90分及以上为非常满意；分数在70～89分为满意；分数不足70分为不满意；总满意=非常满意+满意。

NΔXTN'-TrPTΔXT=0

由于ΔXt和ΔXT相互独立,则(19)式证出.

考虑以下形式的平均区域离散时间系统

结论1 如果(8)式,(11)式,(18)-(20)式存在解是最优控制,则最优目标函数满足

“其父善游”是个悖论，现代人万不可抱持此陋见。一个人不自己努力是长不了本领的，处理问题不从实际出发，不实事求是、因地制宜，也是办不好事情的。

其中

把(16)式代入(5)式,经简单变形,就可得到上述结论.

推论1 对于平均场二次最优控制问题,如果满足

则满足≥0,t∈T.

此证明过程与参考文献[9]的证明过程相似,不再加以赘述.

谭志勇等[10]通过乳液聚合方法合成了SAN树脂作为ABS基体树脂，利用分子量调节剂TDDM控制SAN树脂分子量。研究了在相同橡胶含量情况下，ABS树脂的冲击强度与基体SAN分子量之间的关系，如图5所示。为便于分析，谭志勇等采用SAN树脂的熔融指数(MFR)代替SAN分子量。因为SAN树脂分子量与熔融指数之间有对应关系，树脂分子量大则熔融指数低。在橡胶质量分数21%的条件下，共混物在基体SAN树脂分子量增加到一定值后冲击强度急剧增加，根据吴守恒增韧理论，当基体SAN树脂分子量增加时，材料的脆韧转变粒子间距离临界值增加，当临界值达到或超过橡胶粒子间距后，材料发生脆韧转变。

4 数值例子

考虑一个周期为3的数值例子

满足

其系数值为

借助于Riccati方程(12)和(18),可以得到Riccati解为

应用结论1,可以得到最优控制其中

5 总结

主要研究了平均场线性二次最优控制问题.借助于拉格朗日乘子定理,给出了该问题存在最优解的必要条件,并计算出了状态反馈最优解.将平均场理论应用到最优控制问题中,可以最大限度的减小噪声对系统的影响并能方便的处理噪声问题.最后通过一个数值例子验证了结论的正确性.

上海发那科机器人有限公司是上海电气（集团）总公司所属上海电气实业公司与日本FANUC株式会社联合组建的高科技合资企业。公司成立于1997年，主要从事机器人、智能机器以及包含机器人的自动化成套生产系统的销售、安装和保养，为客户提供各种以日本FANUC先进技术为基础的生产自动化系统的设计、生产、销售、技术培训及高品质的应用和维修等全方位一条龙服务。

参考文献:

[1] 么彩莲,王涛.模型自由的离散时间系统的随机线性二次最优控制问题[J].辽宁石油化工大学学报,2016,36(6):64-68.

[2] X.K.Liu.Y.Li,W.H.Zhang.stochastic linear quadratic optimal control with constraint for discrete-time systems[J].Applied Mathematics and Computation,2014,228(9): 264-270.

[3] J.M.Yong.A linear-quadratic optimal control problem for mean-field stochastic differential equations[J].SIAM J.Control and Optim,2013,51(4):2809-2838.

[4] Y.N.Ni,R.Elliott,X.Li.Discrete-time mean-field stochastic linear-quadratic optimal control problems,: Infinite horizon case[J].Automatica,2013,57(11):65-77.

[5] P.Parpas,M.Webester.A stochastic minimum principle and an adaptive pathwise algorithm for stochastic optimal control[J].Automatica,2013,49(6):1663-1671.

[6] 肖云鹏,李松阳,刘宴兵.一种基于社交影响力和平均场理论的信息传播动力学模型[J].物理学报,2017,66(3):1-13.

[7] D.G.Luenberger,Optimization by vectors Space Methods[M].Wiley,New York,1968.

[8] M.A.Rami.J.B.Moore.X.Y.Zhou.Indefinite stochastic linear quadratic control and generalized differential Riccati equation[J].SIAM J.Control & Optimization,2001,40:1296-1311.

[9] R.J.Elliott,X.Li,Y.H.Ni.Discrete-time mean-field stochastic linear-quadratic optimal control problems[J].Automatica,2013,49:3222-3223.

作者

冀鹏飞

出处

《德州学院学报》 2018年第02期

上一篇：哈密顿-凯莱定理的应用

下一篇：一族可积晶格孤子方程及其达布变换

《德州学院学报》2018年第02期文献

哈密顿-凯莱定理的应用作者：张立华，吴琳琳

离散时间平均场二次最优控制问题作者：冀鹏飞

一族可积晶格孤子方程及其达布变换作者：吴迪

石墨烯光纤生物传感器研制及性能的研究作者：徐文豪，许士才，于子恒，宋佳佳，岳彩峰，张朋

对称群S5的一个新刻画作者：王孝敏

利用表面预烯基化纳米硅胶颗粒制备有机与无机杂化强阳离子交换液相色谱整体柱作者：李金祥，邹温然，杨芮萌，王贺

溴百里酚蓝分光光度法测定茶叶中锗的实验研究作者：张存兰

葛根素-Al3+体系的荧光猝灭效应及Al3+的分析测定作者：张星，贾贞，秦菲，朱慧，于雪梅，牛如月，李亚枫

新型酰基化壳聚糖季铵盐复合修饰衍生物的制备及抑菌活性作者：韩柏林，李荣春，华玉山，任艳芳，李文浩

全光照喷雾条件下不同ABT对丁香和丝棉木扦插育苗的研究作者：韩多红，王恩军，罗天

德州岔河昆虫资源初步调查作者：孙颖慧，孙永岭

德州市阿尔茨海默病患者及其照护家属相关伦理学问题调查及分析作者：郑桂芳，刘金叶，孙晖，刘鸿丽，刘胜英

窄带物联网(NB-IoT)现状和发展趋势分析——基于Fulink数字平台文献数据作者：庄新辉

决策树ID3算法中引入简单工厂模式的设计研究作者：孙道远

基于MATLAB软件“PID校正控制”教学研究作者：肖理庆

环境因素对平板型集热器热性能影响的模拟分析作者：陈洁

远程控制系统的设计作者：林薇

山东省金融产业集聚与产业经济增长关系研究作者：吕晨曦

德州市物流业发展的SWOT分析及建议作者：臧姗

“服务”引导“需求”:鲁产烟上水平的整合营销之思作者：薛伟，刘志勇

基于OBE的CREO机械基础与应用教学改革与实践作者：孟俊焕，柳永亮，吴延霞

基于微信环境移动学习平台的构建研究作者：张道华

应用定向免费医学生培训标准化病人的实践及思考作者：张媛媛

基于可追溯性的专业课堂教学质量内涵探索作者：许炳照

杂志信息网