快捷分类

基于改进优先经验重放算法的游戏控制研究

更新时间：2016-07-05

直觉上，我们知道一部分经验比其他经验要对参数的训练产生更大的作用。基于此，Schaul等人提出使参数更新倾向使值估计变化更大的经验。而如何衡量哪些经验对值估计的贡献呢，这就需要有定量的测度。在model-free的场景中，这个测度一般选用时间差错误法(TD error,temporal-difference error)[1]。具体地，TD error越大，可以让它们重放的次数越频繁。基于这种思想，实现的贪婪TD error算法将经验数据和其TD error按序存在重放经验记忆中，每次取最大TD error的经验进行重放，同时参数更新的量也与之同比。另外，新的经验会设成最大优先级以保证它至少被训练一次，从而最大限度地减少过拟合的可能。

虽然在制度层面，房屋定着物单元的划分已有相应规则，但缺乏操作层面的客观程序和具体标准，且随着经济社会的快速发展，房屋已从原来简单、单一的形态逐渐向复杂、复合的组合发展，各种混合功能和结构的房屋不断涌现。因此，登记实务中，如何依据已有规则划分房屋定着物单元，一直以来都是困扰登记机构的问题。据不完全了解，各地做法主要有以下两种。

然而之前的方法在定义每个状态转移的抽样概率P(i)的时候没有进行充分的数学论证与理论指导。基于以上考虑，提出了一种改进的优先经验重放技术[2]来弥补这个问题。该方法通过大量科学数据计算对比得出最优的抽样概率P(i)。并采用OpenAI Gym提供的小车爬山强化学习[3]环境来验证该算法的可行性，通过改变优先级到概率的映射函数，得到更重视最大优先级的函数表达式。实验表明，该方法可以在保证游戏得分的情况下有效地降低学习玩游戏的时间，算法的性能得到明显提高，使游戏学习最优策略的速度提高了近五成。

1 随机经验重放

2013年Mnih等[4]实现了直接从高维的感知输入中学习控制策略。模型是一个卷积神经网络[5]，利用 Q-learning的一个变种来进行训练，输入是原始像素，输出是预测将来的奖励的价值函数(value function)。将此方法应用到 Atari 2600游戏上来，进行测试，发现在所有游戏中都比之前的方法有效，甚至在其中3个游戏中超过了一个人类玩家的水平。实现这种结果的一大功臣就是深度Q网络(DQN，deep Q-learning network)[6]应用的经验重放技术。

1.1 强化学习Q函数

我们定义一个最优动作值函数Q*(s，a)作为采用任何策略后的最大期望，在观察一些序列 s 然后采取了一些动作 a，即有

深度Q学习[7]得益于深度学习与强化学习的结合，深度强化学习简单点说就是深度学习加强化学习。强化学习[8]其实就是一个连续决策的过程。传统的机器学习中的监督学习就是给定一些标注数据，这些标注作为监督者，学习一个好的函数，来对未知数据做出很好的决策。但是有时候你不知道标注是什么，即一开始不知道什么是“好”的结果，所以RL不是给定标注，而是给一个回报函数，这个回报函数决定当前状态得到什么样的结果(“好”还是“坏”)。其数学本质是一个马尔科夫决策过程。最终的目的是决策过程中整体的回报函数期望最优。

(1)

其中：π是一个从序列到动作的映射。最优的动作值函数服从一个重要的等式，称为贝尔曼方程(Bellman equation)。基于如下观察：如果下一个时间步骤的序列s′的最优值Q*(s′，a′)对于所有可能的动作 a′ 都是已知的，最优策略就是选择动作 a′ 使得期望值 r+γQ*(s′，a′)最大化：

(2)

通过图2可以看出，相比于随机经验重放，优先经验重放的运用对学习速率有了一些提升。

鉴于偷采江砂行业具有暴利而且一般不用承担刑事责任的特点，长江河道采砂管理环境异常复杂，任务异常艰巨。一些非法采砂人员为了牟取暴利，与有些职能部门的个别人和涉黑势力相勾结，引起采砂纠纷，甚至暴力抗法，直接影响到一些地方的社会秩序，给采砂管理工作带来很大的压力和困难。只有加强长江河道采砂管理能力建设，才能维护沿江地方采砂秩序和社会稳定。

Li(θi)=Es，a～ρ(*)[(yi-Q(s，a；θi))2]。

(3)

Q*(s，a)=maxπ E[Rt|st=s，at=a，π]，

深度强化学习就是用深度学习网络自动学习动态场景的特征，然后通过强化学习对应场景特征的决策动作序列。

输入游戏画面图像通过一个深度网络变成状态，然后按照Q-learning的流程会产生(st，at，rt，st+1)这样的数据，我们将这些数据放入经验重放中。训练网络时，以Q-learning的中的TD error作为目标函数，从经验重放中进行采样，进行梯度求解。这就是深度Q学习的工作方式。

1.2 经验重放的应用研究

通过喂给深度神经网络[9]足够的数据，通常可以学习到比手工设计特征要好得多的特征表达。

和 TD-Gammon以及类似的在线方法相对，我们利用一种称为经验重放[10]的技术，将代理商每一个时间步骤的经验存储起来，et=(st，at，rt，st+1)，将许多片段存储进一个重放记忆中。在算法内部循环中，采用Q-learning更新，或小批量更新，来采样经验，从存储的样本中随机提取。在执行经验重放之后，代理商根据贪婪算法，选择并且执行一个动作。

根据这个概率值在经验重放池中来进行transition优先级的选定，从而影响最后游戏的结果。

服务支撑工作需要制度的保证。不断把实践中证明成熟的做法和经验及时上升为制度，是土地管理体制机制创新的必然要求。早在2004年，时任原省国土资源厅副厅长的潘圣明同志，便提出了构建土地质量地质调查服务土地管理制度保证体系的要求，并着力推进制度的建设。事实证明，在浙江土地质量地质调查中，制度的保证不可或缺。

2 改进优先经验重放技术分析

2.1 优先经验重放的优势与不足

上述经验重放方法的效果很好，但目前的做法还是对以往经验均匀采样的。如果能根据经验的重要程度进行有侧重的重放效果可以更好。

死记硬背，也许能在考试中取得好的成绩，但是不经思考的记忆，遗忘速度也非常快。课堂上，面对教师提出的问题，孩子们已经形成了一种思维定势：反正老师最后会给出正确答案，自己只要记下来、背下来就行了，不用动脑子照样可以拿高分。可是长此以往，他们的思维就会像困在笼中的小鸟，渐渐失去飞行的意识与能力。因此，我要想办法帮助学生摆脱依赖情绪，改掉墨守成规的习惯，让自由的天性、与生俱来的好奇心得到保护和发展。

transition(st，at，rt，st+1)为i的优先级pi与TD-error的差值有关，每个优先级pi出现的概率为

(4)

在这个方法之中，算法仅仅存储最近N个经验元组，当执行更新的时候，随机的从经验重放[11]数据集上均匀的采样。这种新的强化深度学习模型仅使用原始像素作为输入，使用在线Q学习的一个变体，它将随机小批量更新与经验重放记忆相结合，以便轻松培训RL的深层网络。这种方法在测试的游戏中获得了最先进的成绩，没有对架构或超参数进行调整。

但是在优先经验重放算法中对优先级出现的概率的设定没有经过数学推导与对比实验，导致可能会出现更好的实验结果而没有被发现并被运用到训练游戏当中去。

2.2 改进的优先经验重放技术

根据上述问题，针对优先级pi出现的概率，改变这个概率求解公式，可以多尝试几种，只要满足条件(1)：∑p(i) = 1；条件(2)：0≤p(i)≤1。然后进行实验对比，看应用哪种概率选择公式能使游戏学习的更快[12]。

将设施园艺景观发展为农业旅游后，要根据游客的一些需求开展景观的规划工作，划分好景观区域。休闲娱乐设施是必不可少的一部分，设计师需要考虑互动以及体验式项目的位置安排，将景观与这些体验式项目设施结合在一起，让游客们在参观景观的同时，能够比较方便地参与到体验项目中，从而感受家庭庭院的乐趣[3]。同时，设计师还需要考虑设施园艺景观的展示区域，使设施园艺景观通过展示被更多的游客所了解。设计师需要在设施园艺景观的布局以及美观设计上面花费更多的精力，要让游客在欣赏设施园艺景观的同时，能够发现自己喜欢的产品，刺激游客消费。

通过大量实验可以得到的结论是：变化率大的函数表达式会更重视最大优先级，使得最大优先级的概率大增。

Log函数以2为底的表达式为

青辰躲在巨石后，捂着嘴巴，简直不敢相信自己的眼睛。云浮山上，何时生活了这么大的蜘蛛？它体高大概已经超过了一丈，八只长长的节足，踏在望天归的背上，借着背后圆月的光辉，整个身体都闪烁着黑亮的光泽，犹如着了一层坚硬的钢铁铠甲。这还不算什么，最令青辰恐怖的是，这只蜘蛛，竟生了一颗人头！

经由相差3℃、5℃、10℃、15℃不同温度变化情况对比，由本小组发明设计的温度计与x牌温度计相差无几，x牌温度计整体效果在我们之上。灵敏度打7分。

(5)

其中：pi为优先级，当p1≤p2≤p3≤pi时，exp(pi)-exp(pi-1)≫pi- pi-1≥log2(pi)-log2(pi-1)。差值越大，即各个优先级之间的差距越大，概率映射函数对最大优先级越重视，最大优先级的概率越大，使得游戏能够从以往的经验池中更多的学习到奖励最大的状态转移，使得学习玩游戏得到的奖励值最大[13]，也就是在最少的时间内将游戏玩的结果每次都能快速达到要求。

我们提出的改进的优先重放算法就是针对优先级到概率的映射函数，通过实验选定函数f(x)=ax，它的数学曲线图像的变化率随着变量x的增大而快速增大。可令a等于自然数e，同时通过大量实验对比得到最优的映射函数为

(6)

其中：pi是转移i的优先级。指数α决定了使用多少优先级，当α= 0 时是均匀的情况。

通过改变优先级到概率的映射函数，在α不变时，我们得到了更优的实验结果，对比原始优先经验重放，改进的优先经验重放找到正确的完成游戏或任务的方法的速度大幅提升。

3 实验结果与分析

实验中应用OpenAI Gym中小车上山这个小游戏来验证我们改进版的针对优先级到概率的最优映射函数是否可行。实验运用的gym中的小游戏小车爬山的环境如图1所示。

图1 小车爬山强化学习环境 Fig.1 Trolley climbing reinforced learning environment

3.1 实验过程

在运用OpenAI Gym提供的小车爬山强化学习环境时，设定小车在能够爬到山顶获取小旗子的时候奖励R设定为+10，当小车没有爬到山顶拿到小旗子时设定奖励R为-1，将2种情况所获得的奖励差异[14]加大有助于小车更快的学习到正确的获取小旗子的策略。将决定优先级重要性的参数α=0.6，同时，设定的其他重要参数如表1所列。

在参数设置完成后，将上述提到的各种不同的针对优先级到概率的映射函数依次进行实验。

通过将OpenAI Gym中小车爬山游戏各项数据进行分析，将表1中的各项参数设置到python编写的程序代码中，并对源代码进行相应的修改，从而编写各种不同算法与传统的DQN算法的对比代码。并在最后将各个算法集合在一起并与最初的随机经验重放算法对比，从而可以更加直观地了解到改进的基于式(6)的有限经验重放算法的最优效果。

表1 实验参数设定

Table 1 Experimental parameters setup

参数学习率奖励衰退贪婪度迭代一次数目记忆数目批量数数值0．0050．90．95001000020

首先对原始实验进行模拟，比较优先经验重放与随机经验重放的差别，运用针对优先级到概率的映射函数(5)，通过计算机仿真得到优先经验重放与随机经验重放对比，如图2所示，其中竖坐标为训练所用步数，横坐标为循环节数(轮次)。

图2 优先经验重放与随机经验重放对比 Fig.2 Comparison between prior experience replay and random experience replay

将带有权重的神经网络函数记为：Q-network。一个Q-network可以通过一个序列的损失函数Li(θi)最小化来实现每一次迭代 i 的改变，即

然后，运用不同的映射函数进行训练并与随机经验重放进行对比，log形式映射函数、exp形式映射函数与随机经验重放的对比如图3、图4所示。

毛泽东曾经说过，中国的命运一经操在人民自己的手里，中国就将如太阳升起在东方那样，以自己的辉煌的光焰普照大地。

通过图3可以看出，相比于随机经验重放，基于式(5)的优先经验重放的运用对学习速率有了一些提升但是不明显。通过图4可以看出，相比于随机经验重放，基于式(6)的优先经验重放的运用对学习速率有了明显的提升。

3.2 结果分析

将所有形式的映射函数与随机经验重放放在一起进行对比，结果见图5。

图3 log形式的映射函数与随机经验重放对比 Fig.3 Comparison between log-type mapping function and random experience playback

图4 exp形式的映射函数与随机经验重放对比 Fig.4 Comparison between exp-type mapping function and random experience playback

图5 所有映射函数与原始方法对比 Fig.5 Comparison between all mapping functions and original methods

[2] 陈希亮，曹雷，李晨溪，等.基于重抽样优选缓存经验回放机制的深度强化学习方法[J/OL].控制与决策，2017.

表2 各映射函数与原始方法所用时长对比

Table 2 Time length comparision between various mappingfunctions and original methods

方法随机经验重放优先经验重放log形式的映射函数exp形式的映射函数所用时长/步51800380004380034700对比原始方法提高概率/%036．3118．2649．28

由表2可知，在α保持不变时，所有的优先经验重放方法都要比随机经验重放方法所用的时间少，同时，可以发现运用改进优先经验重放的优先级到概率的映射函数，对比最开始的优先重放算法，经过大量的实验得出以式(6)为映射函数的方法所有时间最少，实验效果最好。

4 结论

对优先经验重放算法进行了改进，使之更有效的运用于游戏智能体学习更有效的策略完成游戏。采用OpenAI Gym提供的小车爬山强化学习环境，通过改变优先级到概率的映射函数，得到更重视最大优先级的函数表达式。

⑲欧阳兆熊:《水窗春呓》卷下“维扬胜地”条，转引自陈从周《中国园林》，广东旅游出版社1996年版，第108页。

新方法比所采用的提升最大优先级概率的映射函数使游戏学习最优策略的速度提高了49.28%，在样本数改变的情况下，速度也优于原来的优先重放算法，可见该算法是比较成功的。

简单机械设备操作、调整技能；测绘制图技能；液压传动维护检修技能；生产工艺设备操作；调整技能及产品质量控制技巧等等能力。

参考文献：

[1] 段勇，徐心和.基于多智能体强化学习的多机器人协作策略研究[J].系统工程理论与实践，2014，34(5)：1305-1310.

通过对比发现尽管每次实验都会有误差的影响，但由图5可知，可以清楚地发现不同的映射函数与随机经验重放的差别。

设备更新可提高患者就诊的效率，改善工作环境，提高工作效率。近年来，我国“看病难看病贵”的问题比较突出，许多大医院专家号“一号难求”，究其原因是各种优质资源不断向大医院聚集，医疗的两极化非常严重，基层空心化和大医院资源富集的现象并存［4］。引进MRI设备，可有效提高中心的医疗水平，在一定程度内减少患者对大医院的依赖，从而积极改善周边居民的就诊环境，提高周边居民生活的获得感。

[3] 陈兴国，俞扬.强化学习及其在电脑围棋中的应用[J].自动化学报，2016，42(5)：685-695.

[4] Mnih V，Kavukcuoglu K，Silver D，et al.Playing Atari with Deep Reinforcement Learning[J].Computer Science，2013,12：1-9.

病虫草害防控上贯彻好“预防为主、综合防治”的植保方针，牢固树立“公共植保、绿色植保”理念，全面采用“绿色防控技术”。根据植保部门病虫草害防治技术意见，选用绿色环保型农药，开展统防统治，提高防治效率和农药利用率。杂草化除上重视冬前化除和早春补药工作，特别是秸秆还田田块，麦苗抗逆性弱，应避免寒流来临前用药，抢抓“冷尾暖头”开展好化除工作，防止“药冻害”产生。根据病虫害的预测预报，重点防治好纹枯病、白粉病、赤霉病等，将病虫害造成的产量影响降至最低限度。

[5] Antipov G，Baccouche M，Berrani S A，et al.Effective Training of Convolutional Neural Networks for Face-based Gender and Age Prediction[J].Pattern Recognition，2017：32-38.

[6] Mnih V，Kavukcuoglu K，Silver D，et al.Human-level Control Through Deep Reinforcement Learning[J].Nature，2015，7540：518-529.

[7] 孙志远，鲁成祥，史忠植，等.深度学习研究与进展[J].计算机科学，2016，43(2)：1-8.

[8] 高阳，陈世福，陆鑫.强化学习研究综述[J].自动化学报，2004，30(1)：86-100.

[9] Van Hasselt H，Guez A，Silver D.Deep Reinforcement Learning with Double Q-learning[J].Computer Science，2015：71-78.

[10] 黄小燕.基于经验回放Q-learning的最优控制算法[J].计算机工程与设计，2017，38(5)：1352-1355.

基于CAS理论的低碳生态城市指标体系构建…………………………………… 陶许，陶怡，杨文娟，王玮（3-77）

[11] Schaul T，Quan J，Antonoglou I，et al.Prioritized Experience Replay[J].Computer Science，2015：46-51.

[12] Silver D，Huang A，Maddison C J，et al.Mastering the Game of Go with Deep Neural Networks and Tree Search[J].Nature，2016，529(7587)：484.

[13] 赵冬斌，邵坤，朱圆恒，等.深度强化学习综述：兼论计算机围棋的发展[J].控制理论与应用，2016，33(6)：701-717.

[14] 邱立威.深度强化学习在视频游戏中的应用[D].广州：华南理工大学，2015.

作者

赵文仓，吴建辉

出处

《甘肃科学学报》 2018年第02期

上一篇：线性回归与灰色理论在用电量预测中的应用

下一篇：力偶作用下形状记忆合金梁的非线性弯曲理论分析

《甘肃科学学报》2018年第02期文献

分数阶热弹理论下温度依赖材料特性问题研究作者：马永斌，李琪

ZOIP混合回归模型的参数估计作者：吕敏红，张惠玲，吴成晶

线性回归与灰色理论在用电量预测中的应用作者：任芳玲，李文波，贺甜

基于改进优先经验重放算法的游戏控制研究作者：赵文仓，吴建辉

力偶作用下形状记忆合金梁的非线性弯曲理论分析作者：王吉昌，沈永春，杨静宁

基于支持向量机的浊积扇沉积微相自动识别作者：国景星，陈铭

具有Logistic死亡率的连续和脉冲接种的SIRVS传染病模型作者：姚小娟，吕陇

基于贪心算法的城市生活垃圾收运路线优化作者：肖帆

数码比色法测定二氧化硫浓度的多元非线性回归模型作者：刘楠，刘迪

蔬菜大棚土壤过氧化氢酶活性及与养分关系研究作者：王建，卢超超，芦珊珊，高涵，祁迎春

Tei指数对甲亢性心脏病患者右室功能的评估作者：胡小玲，刘姝妮，谭开彬，李书兵

甲状腺癌术后碘131治疗对唾液腺功能及生命质量的影响效果分析作者：张凤萍，张美春

肿瘤坏死因子-α与强直性脊柱炎中医辨证分型相关性的研究作者：李兴锐，葛显应，谭悦，刘童，陆继娣

碘131与甲硫咪唑联用对甲亢患者疗效及唾液腺功能的影响分析作者：宗晓芳，李爽

宁波轨道交通1号线全封闭声屏障降噪性能试验研究作者：唐吉意，林平

楞古水电站夏日边坡边界条件确定及稳定性评价作者：范博远，孙少锐，李振江，张楚楚，王武超

主管加内套管的加强K型搭接节点滞回性能研究作者：高栋，杨文伟，索雅琪，林健康

深厚土层散体材料桩桩体竖向承载力计算作者：施瑞，王旭，刘德仁，蒋代军

城步地区土坡坡度与滑坡发育概率关系研究作者：赵芳芳，陈新跃，杨浩

巨厚软土地区深基坑应力与变形研究作者：张跃，颜庭成

回流孔面积大小对自吸泵性能影响的研究作者：马希金，张亚琼，崔生磊，张潮，蔺尚杰

离心泵不同叶轮与隔舌径向间隙对泵压力脉动特性影响的研究作者：杨从新，杨焘，王玲

基于光电传感器智能循迹万向车台的设计作者：汤子龙，丁志强，丁永强

深海阀门湿模态振动特性的研究作者：张希恒，李宏刚

基于电流过零区域检测的H桥逆变器死区补偿作者：李巍，张津京

陕西省商洛市旅游资源分析与评价作者：李晓刚，陈云凤，李婵

M：MgAl2O4(M=Mn,Cr) 的发光性质及能量传递作者：夏心俊，阎峰云，孙文峰，魏富中，马文丽

企业碳排放权交易决策模型研究作者：宋杰鲲，梁璐璐，牛丹平

多维美式勒式期权有限差分定价模型研究作者：杜军，韩子惠，李佳欣

供给侧结构性改革下的天津制造业资源配置效率研究——基于DEA模型作者：齐二石，范世豪，刘亮

杂志信息网