快捷分类

基于Dyna框架的非参数化近似策略迭代增强学习

更新时间：2009-03-28

0 引言

增强学习是一种并列于监督学习和非监督学习的机器学习方式，它利用外部环境提供的少量奖惩信号，依靠智能体自身经历获取知识。经典增强学习采用离散马尔可夫决策过程进行建模，采用表格形式存储并计算V值或Q值，可较好地应用于小规模或离散状态空间;但应用于大规模或连续状态空间将导致“维数灾”问题。

此外，该规程还作了以下重要规定：采用防火构造的外保温工程，其防火构造的施工应与保温材料的施工同步进行。保温层施工后，宜尽早安排覆盖层（抹面层或界面层）的施工，没有保护面层的保温层不得超过三层楼高，裸露不得超过两天；外保温施工期间如遇公休日及节假日，需对已安装的裸露保温层进行防火覆盖处理；放假前应对外保温工程进行检查，确保无裸露的保温层和板材堆放。

近似策略迭代是解决经典增强学习“维数灾”问题的主要方法之一，当前已有较多研究，但都存在各自的问题:Lagoudakis等［1］证明了近似策略迭代增强学习算法的收敛性，并提出了最小二乘策略迭代(Least-Squares Policy Iteration，LSPI)算法，但该算法为离线算法，计算量较大、收敛速度较慢;Busoniu等［2］提出的在线最小二乘策略迭代(Online Least-Squares Policy Iteration，Online LSPI)算法解决了LSPI的在线计算问题;周鑫等［3］提出的批量最小二乘策略迭代(Batch Least-Squares Policy Iteration，BLSPI)算法在Online LSPI的基础上进一步提高了样本的利用率，并在一定程度上降低了近似策略迭代算法的计算量;文献［4－6］提出的一类离策略带参近似策略迭代算法基于高斯过程对带参值函数进行建模，并根据贝叶斯推理求解值函数的后验分布，可在一定程度上加快收敛速度;但以上算法的逼近器均依赖先验知识或通过反复试凑确定，不具备自动构建的能力。基于核的近似策略迭代增强学习是典型的非参数化增强学习，能够依据样本自动确定逼近器中基函数的数量和中心，但依然需要手动选择核宽度矩阵、稀疏度阈值等参数，且随着样本数量的增加计算量逐步增大:Xu等［7］提出了基于核的最小二乘策略迭代(Kernel-based Least-Squares Policy Iteration，KLSPI)算法，利用核稀疏化过程降低基函数数量以提升学习速度;Barreto等［8］提出了基于核的随机因式分解(Kernel-Based Stochastic Factorization，KBSF)算法，将模型信息进一步压缩为固定大小的逼近器结构以提升学习速度;朱稷涵［9］提出了基于优先级扫描的非参TD最小二乘策略迭代(Prioritized-Sweeping-Based Nonparametric LSPI，PNLSPI)算法，利用优先级扫描提升学习速度;闫称［10］提出了一类基于状态－动作图测地高斯基的策略迭代算法，采用测地距离构建基函数以更好地逼近光滑且不连续的值函数。以上算法均未能彻底解决逼近器的自动构建问题。

本文提出了一种基于Dyna框架的非参数化近似策略迭代(Nonparametric Approximation Policy Iteration based on Dyna Framework，NPAPI-Dyna)增强学习算法。该算法针对近似策略迭代增强学习均需要采集样本的共性，进一步提高了样本的利用率:一方面，通过样本自动生成表征环境状态的基函数并确定强化学习率，彻底实现算法逼近器结构依据环境进行自动构建的过程;另一方面，通过样本自动生成环境估计模型，利用Dyna框架的模型辨识思想，将学习和规划过程有机结合，利用计算复杂度代替采样复杂度，进一步加快动态环境下的增强学习速度［11］。

下面，按照NPAPI-Dyna算法的实现步骤依次介绍其样本采集、网络结构构建、环境估计模型构建和自主学习阶段，最后将其应用于一级倒立摆平衡控制问题，仿真实验结果验证了该算法的有效性和鲁棒性，且相比其他算法，NPAPI-Dyna具有收敛速度更快的优势。

1 采集样本

核心状态基函数用于表征环境状态分布的骨架特征，该特征在一级状态样本集TSP和总体状态样本集SP中都应显著存在，因此，在数量较少的TSP上预先判定表征骨架特征的聚类数量是可行的，同时还可极大降低在SP上直接应用trial-and-error过程的计算量。针对SP，确定核心状态基函数的步骤如下。

采样时，系统使用随机策略运行，从初始状态S0开始，当越过边界Sb或到达目标Sg时停止，S0、Sb和Sg均由目标问题给定。若系统在当前状态St采取动作at后，下步状态St+1越过Sb，则 St为边界状态样本，记为 Se，(St－1，St，at－1) 为边界状态转移样本，记为Mse;若St+1既未到达Sg，也不属于边界状态样本集合，则St为状态样本，(St，St+1，at)为状态转移样本;相应的，Tsp为一次运行采集的非重复状态样本集合，Tmsp为一次运行包含的所有状态转移样本，Tmsp为多重集合，其中的样本可以重复。

为使采样过程能够依据采样情况自动结束，需要定义前后两个状态采样集合G和G'之间的变化率rate:

pagenumber_ebook=14,pagenumber_book=1231

其中:ratei为第i维的变化率，fbcli={fci，bci，fli，bli}，fci和bci定义了G'在第i维的范围，fc=me'－ma'，bc=me'+ma';fli和bli定义了G在第i维的范围，fl=me－ma，bl=me+ma;其中，me和me'分别为G和G'的样本均值，ma和ma'分别为G和G'在各维分量上的平均绝对离差向量，ma定义为:

其中:ng为G的数量，运算abs()用于计算向量在各维分量上的绝对值。ma'类似式(2)进行定义。

总之，在大风降温前应做好防风保温准备，为猪只创造良好的生存环境，以维持猪群的稳定，充分发挥猪只的生产性能，提高猪场的效益。

1．1 一级采样

一级采样在状态样本和边界状态样本单次采样变化率均小于ε时停止。同时，单次采样需保证采集的非重复状态样本数量ln≥L，L为采样缓存长度。具体过程如下:

(4)在完整的监控视频中；伤者丈夫刘某拍打巡逻车车门进行求救，车内巡逻员并未下车。在此之后到来的多辆巡逻车因道路原因无法开上老虎与受害人所处平台，也没有任何救助工具与措施，仅仅是反复冲坡、绕道寻找接近老虎的其他路径。

步骤1 运行一次系统，设置单次采样次数T=1，设置系统运行次数tr=1。初始化一级状态样本集合SpT=Tsp，一级边界状态样本集合SpeT=Se，一级状态转移样本多重集合Msp=Tmsp，一级边界状态转移样本多重集合Mspe=Mse;L为Tsp的样本数量。

步骤2 开始单次采样，T=T+1。设置ln=0，SpT=SpT－1。

步骤3 运行一次系统，tr=tr+1，SpT=SpT∪ Tsp，SpeT=SpeT∪ Se，Msp=Msp∪ Tmsp，Mspe=Mspe∪ Mse，依据式(3)和(4)分别更新L和ln:

其中nt为Tsp的数量。若ln≥L，执行步骤4;否则，执行步骤3。

步骤4 依据式(1)计算SpT相对SpT－1的变化率rsp和SpeT相对 SpeT－1的变化率rse，若rsp ＜ ε 且rse＜ ε，一级采样结束;否则，执行步骤2。

1．2 总体采样

总体采样在状态样本和边界状态样本一级采样变化率均小于ε时停止。具体过程如下:

环境估计模型是对环境状态转移规律的显示描述，包括状态动作转移模型B和边界状态动作转移模型B':

步骤2 系统运行一次一级采样，T'=T'+1，SPT'=SPT'∪TSP，SPET'=SPET'∪ SE，MSP=MSP ∪ TMSP，MSPE=MSPE∪MSE。

除骨架特征外，环境状态分布还有一系列次要特征，只有找出这些次要特征，才能对环境状态进行较为准确的逼近，因此，本文以状态样本空间完全覆盖为目标对核心状态基函数进行扩展，生成初始状态基函数，具体步骤如下:

2 构建算法网络结构

NPAPI-Dyna算法的网络结构由状态输入层、Q值函数逼近器和动作选择器三部分组成，如图1所示。

pagenumber_ebook=15,pagenumber_book=1232

图1 NPAPI-Dyna算法的网络结构Fig．1 Network structure of NPAPI-Dyna

2．1 状态输入层

状态输入层由n个输入神经元组成，接收输入状态S=(s1，…，si，…，sn)T ∈ Rn。其中，n 为状态空间的维数，依据目标问题设定;si为S在各维空间上的分量。

2．2 Q值函数逼近器

Q值函数逼近器由基于RBF的线性逼近结构实现，状态动作对(S，A)对应的近似Q值通过式(5)计算:Φ(S)=(Φ1(S)，…，Φj(S)，…，Φm(S))T为特征向量，定义为:

在明初文人曲学系统中，以朱权《太和正音谱》、贾仲明《续录鬼簿》为代表，都对元曲的艺术成就和雅文化属性进行了总结和定性，呈现出鲜明的推尊元曲为曲学标杆的倾向。

φ(S)=(φ1(S)，…，φj(S)，…，φm(S))T为逼近器的状态基函数向量，其值为状态S在各状态基函数下的隶属度，值越大表示S与基函数的空间距离越近，使用RBF函数定义为:

其中:m 为状态基函数的个数，μj=(μ1j，…，μij，…，μnj)T 和δj=(δ1j，…，δij，…，δnj)T 分别为 φj的中心和半径。

Φ'(S)描述状态S在下一步转移到各状态基函数中心附近的可能性，用于弥补φ(S)仅通过欧氏距离判定状态S隶属度的不足。其定义为:

D为内部状态转移矩阵，定义如下:

其中Pjl表示由μj附近转移到μl附近的可能性。

其中:K为可选离散动作的数量，由目标问题定义;ak为第k个可选的离散动作; pagenumber_ebook=15,pagenumber_book=1232 j为逼近器参数，其意义为在状态基函数φj中心执行动作ak的投票数。

ω(A)=(ω1(A)，…，ωj(A)，…，ωm(A))T为逼近器的插值参数向量，其意义为在各状态基函数中心执行所选动作A的Q值，利用插值方法定义为:

由上述表示形式可以看出，实现Q值函数逼近器自动构建的核心问题就是要确定内部状态转移矩阵D和状态基函数φ(S)，前者在第3章讨论，以下对φ(S)的构建方法进行阐述。

2．2．1 trial-and-error过程

改革实施后发现学生参与设计的热情高、进度快，设计报告整体上更加规范、完整，由于参与度高学生们基本都写出了较为深刻的心得体会，杜绝了雷同报告，由于细化了平时成绩的考核，组员间的成绩区分度好，体现了评价指标中的差异性。教学实践表明：这种“以学生为中心”的教学模式，结合任务型教学和讨论法相结合的教学方式，以及关注过程管理的综合成绩评定方法提高了学生的学习积极性和参与度，形成了良好的互助互学的学习氛围，在学生巩固专业知识的基础上，提高了学生的工程实践能力。

trail-and-error过程是一种使用相对准则判定样本集最佳聚类数的方法，本文基于轮廓指标、采用K均值聚类算法实现该过程，如下所示。

步骤1 初始化样本集的可能聚类数集合NC为:

其中:NC的最大取值为为样本数量。

步骤2 遍历NC，对当前聚类数nc运行K均值聚类算法得到聚类结果CL，并采用轮廓指标计算其有效性vc。

其中:np为聚类CLp的基数，aq为CLp中元素xq到CLp中其他元素的平均距离，bq为xq到除CLp之外的最接近xq的聚类的平均距离，运算 pagenumber_ebook=15,pagenumber_book=1232 (·，·)用于计算一个点到一个集合的平均距离测度。

步骤3 若NC遍历结束，则依据聚类有效性输出样本集最佳聚类结果，trial-and-error过程结束;否则，执行步骤2。

2．2．2 确定核心状态基函数

NPAPI-Dyna为非参数化增强学习算法，其状态基函数和环境估计模型均基于样本进行构建，为使其更为准确，本文提出了一种二级随机采样方法。该方法分为一级采样和总体采样两个层次，依据预先设定的增强学习误差率ε采集总体状态样本集合SP、总体边界状态样本集合SPE、总体状态转移样本多重集合MSP和总体边界状态转移样本多重集合MSPE。

步骤1 初始化SP的可能聚类数集合NC= pagenumber_ebook=16,pagenumber_book=1233 。

步骤2 若总体采样未结束，则利用trial-and-error过程在每次一级采样后计算TSP的最佳聚类数，并将其并入NC;否则，执行步骤3。

步骤在SP上应用trial-and-error过程输出最佳聚类结果CL，并通过式(13)和(14)分别计算核心状态基函数φp(S)的中心μp和半径δp:

pagenumber_ebook=16,pagenumber_book=1233

同样的，上述步骤可基于边界状态样本集确定边界状态基函数ψ(S)的中心和半径，ψ(S)=(ψ1(S)，…，ψj'(S)，…，ψm'(S))T，依然采用式(7)的形式进行定义。

通过查阅石门县地质图以及矿产资源分布图等资料，发现新关镇、新铺乡与易家渡镇位于泥盆系、二叠系、三叠系的过渡地段，地质条件复杂，褶皱、断层发育，区内存在众多石煤矿，采矿活动密集，该地段硒含量高与地质条件与采矿活动密切相关。

2．2．3 生成初始状态基函数

步骤3 依据式(1)计算SPT'相对SPT'－1的变化率RSP和SPET'相对SPET'－1的变化率RSE，若RSP ＜ ε 且RSE ＜ ε，总体采样结束;否则，执行步骤2。

步骤1 初始化基函数向量φ(S)={φp(S)|p=1，2，…，nc}。

步骤2 遍历SP。通过当前样本(SP)h与φ(S)中心间的欧氏距离定位与(SP)h最邻近的状态基函数，并判定(SP)h是否位于其半径内部。若是，继续执行步骤2;若否，执行步骤3;若SP中所有样本均位于最邻近基函数的半径内，则表明状态基函数完成了对样本空间的完全覆盖，执行步骤4。

步骤3 新增一个状态基函数，将其中心初始化为当前样本，并加入φ(S)中。通过式(15)和(16)调整所有状态基函数中心和半径，执行步骤2。

其中:NS为SP的样本数量，behj为(SP)h到φj(S)的距离度量。

步骤4 通过式(18)计算逼近器的平均学习率η，初始状态基函数生成过程结束。

其中:X=(X，…，X，…，X)T 为各状态基函数的构建样本

1jm数向量，表示为:

2．3 动作选择器

动作选择器由1个选择输出神经元组成，采用贪心策略实现，定义为

“伙计，你刚来的吧？以前看大门的向来只收五元钱的停车费，还不管在小区里停多长时间！哪有过路费这一说。看你的穿戴，怎么这么贪财。”我说话不客气了。

其中POk是对当前状态S下执行动作ak的投票结果，定义如式(20)所示:

一般情况下，PC上大都设有RS232接口，RS232其逻辑电平对地是对称的，逻辑高电平是12V，逻辑低电平为-12V，传输距离约为15m。为了使PC机和单片机的电平匹配，需要转换器件；为了获得较远的传输距离，本设计采用了RS485，RS485传输距离可达到1 000m。但RS485的电平1为+2～+6V，电平0为-2～-6V,为解决485和PC机的RS232间的电平匹配问题，采用转换接口RS232/RS485。这样，系统完全满足SHT11在粮仓环境中的使用，传输距离也可以满足粮仓与监控室之间长距离的信号传输要求。

可以看出，投票算法可有效降低单个 pagenumber_ebook=16,pagenumber_book=1233 的估计误差对动作选择结果的影响。

3 构建环境估计模型

步骤1 系统进行一次一级采样。设置一级采样次数T'=1，初始化 SPT'=TSP，SPET'=SE，MSP=TMSP，MSPE=MSE。其中，TSP、SE、TMSP、MSE 分别为一级采样得到的状态样本集合、边界状态样本集合、状态转移样本多重集合、边界状态转移样本多重集合。

其中，矩阵Bj描述在φj(S)中心μj附近采取不同动作后转移到各状态基函数中心附近的可能性，pkjl表示在μj附近采取动作ak转移到μl附近的可能性。基于B，可通过式(24)计算内部状态转移矩阵D，有:

其中，矩阵Bj'描述在φj(S)中心μj附近采取不同动作后转移到各边界状态基函数中心附近的可能性 pagenumber_ebook=16,pagenumber_book=1233 表示在μj附近采取动作ak转移到边界状态基函数ψj'(S)中心μj'附近的可能性。同样的，基于B'，可通过式(26)计算边界状态转移矩阵

状态动作转移模型B的构建过程如下:

PCB®推出新款加速度计，型号HTJ356B01。该产品适用于要求地面隔离的应用，以减少在高温环境下测试部件受到的电气噪声和地面环路影响。这种新颖的设计将加速度计连接在一个三面钛杯上，钛杯内包含了一个填充了环氧树脂的中空绝缘玻璃。该型号具有较高的ICP®操作温度180℃，全温度范围为 -54～180℃。

步骤1 初始化Bj为K行m列的零矩阵。

在吴镇烽的《金文人名大全》一书里，“子某”这种类型的称谓有近110个，其中属于殷商时期的人名约60个，超过西周、春秋和战国之和。朱凤翔先生在《商周家族形态研究》中也提到，光自、宾组王卜辞中“子某”名称就有一百一十余个，常见的达三十余个。

步骤2 遍历 MSP，针对当前样本(S，S'，ak)，通过式(17)分别计算状态S和S'到φ(S)的距离度量be=(be1，…，bej，…，bem) 和 be'=(be1'，…，bel'，…，bem')。

步骤3 通过式(27)更新Bj中的值，若遍历未完成则执行步骤2，否则构建过程结束。

⑥创新治理机制。引入市场机制，推行股份合作、承包治理。帮助建设企业、业主引入政策性低息、贴息贷款防治水土流失、修复生态。

相应地，上述步骤可基于MSPE构建边界状态动作转移模型B'。由模型B和B'的构建过程可以看出，其实质是对总体(边界)状态转移样本进行统计，利用访问频次来描述状态基函数之间(状态基函数到边界状态基函数之间)转移的可能性，从宏观上描述基函数之间的拓扑特征，加快Dyna框架的学习速度。

4 算法自主学习

算法自主学习基于Dyna框架实现，包括学习过程和规划过程，其中，学习过程依据经历自适应调整Q值函数逼近器与环境估计模型的结构和参数，规划过程利用环境估计模型产生的虚拟样本来更新Q值函数逼近器参数。

本文利用傅里叶变换红外光谱法对不同快递公司快递塑料袋样品进行了分析检验，实验结果表明，可以根据样品特征吸收峰的不同对快递塑料包裹袋样品进行区分。在刑事案件中发现快递塑料包裹袋时，可以利用傅里叶变换红外光谱法进行检验，进而达到对样品快递塑料包裹袋区分的目的，可以为侦查破案提供线索，指明方向，为证实犯罪提供科学的依据。该方法对检材无损，检验快捷方便，结果可靠。

4．1 学习过程

学习过程主要包括新增结构、合并结构、调整各项参数等操作。

4．1．1 新增结构

4．1．2 合并结构

pagenumber_ebook=17,pagenumber_book=1234

其中:FLAGinitial表征与S最邻近的基函数为初始状态基函数;e－0．5为状态在某分量的值位于其半径处的隶属度;Δ为TD误差，rt为即时奖励，γ为折扣率。新增结构操作的步骤如下:

步骤1 对当前状态S，依据式(28)判定是否进行新增结构操作:若是，则执行步骤2;否则，不执行新增结构操作。

步骤2 新增状态基函数φnew，并初始化其中心μnew=S，半径δnew=δnear，near为与S最邻近的基函数序号，通过式(29)计算:

步骤3 新增参数结构并初始化为零向量。

步骤4 对环境估计模型B和B'进行新增操作，并更新模型中的值，依次为:

新增结构操作围绕新增状态基函数进行。由于状态基函数在构建时已对状态样本空间进行了完全覆盖，因此所有样本都至少位于某个初始状态基函数的半径内。学习过程中，若与S最邻近的基函数为初始状态基函数，S位于所有状态基函数的半径外，且TD误差率RΔ＞ε，应新增一个状态基函数以保持对状态空间的全覆盖，判定条件为:

(3) 随胡杨林退化程度加剧，林地土壤沙化、土壤持水贮水性能和调节水分供应的潜在能力降低，而且会加快干旱区土壤蒸发，增强干旱胁迫并抑制荒漠植被对土壤有效水分的利用与正常生长，导致荒漠植被衰败和生态系统退化，进而威胁到绿洲的生态安全。

合并结构操作围绕合并状态基函数进行。由采样过程的结束条件可知，样本在各维分量的误差率都应小于ε，因此，对于状态 S，若有 2 个或以上的基函数隶属度超过(e－0．5ε2)n时，应执行合并操作，判定条件为:

其中:e－0．5ε2 为状态某分量 si位于离该分量中心 μij距离 εδij处的隶属度。合并结构操作步骤如下:

步骤1 依据式(30)判定是否进行合并结构操作:若是，则执行步骤2;否则，不执行合并结构操作。

步骤2 合并状态基函数，并设置目标基函数中心为要合并基函数中心的均值，半径为要合并基函数半径的最大值。

步骤3 合并逼近器参数结构，并设置目标参数为要合并参数的均值。

步骤4 对环境估计模型B和B'进行合并操作，并更新模型中的值，依次为:

其中:IDM为要合并的状态基函数序号集合;aim为合并目

标状态基函数的序号，是集合IDM中的最小值。

4．1．3 调整参数

调整参数操作依次调整状态基函数参数、逼近器参数和模型的值。状态基函数的中心和半径采用delta规则调整，对φj有:

调整后的半径应不低于初始半径的最小值，以避免基函数产生萎缩。

逼近器参数也采用delta规则进行更新，如式(33)所示:

环境估计模型B和B'的值可类似式(27)进行调整。

4．2 规划过程

规划过程通过环境估计模型生成的虚拟样本来更新Q值函数逼近器参数，其对学习速度的提升除了取决于环境估计模型外，还与规划状态及每轮学习的规划次数密切相关。由于随机采样时，系统在边界状态附近一般会以较快速度进入越界状态，使得越靠近边界状态，模型B和B'越准确，且考虑到动作噪声的影响，为保证规划的准确性，文中的Dyna框架在规划状态离边界状态基函数ψ(S)较近时进行1次规划。具体步骤如下:

步骤1 通过式(6)计算规划状态S的特征向量RE，通过式(34)获取与S最邻近的状态基函数序号IDs。

步骤2 通过式(6)分别计算目标Sg、ψ(S)中心μ'的特征向量，类似式(34)获取与Sg最邻近的状态基函数序号集合IDc、与μ'最邻近的状态基函数序号集合IDb。

步骤3 若满足式(35)，则S离边界更近，转移至步骤4;否则，结束规划过程。

步骤4 通过式(24)计算得到内部状态转移矩阵D，通过式(26)计算得到边界状态转移矩阵D';通过式(36)和(37)对D和D'的每行进行归一化，分别得到矩阵ND和ND'。

pagenumber_ebook=18,pagenumber_book=1235

步骤5 通过式(38)计算与S最邻近的边界序号id:移到ψid(S)中心的概率矩阵P2B。

其中，P2B(j，k)表示在μj附近采用动作k转移到μid'附近的可能性。

步骤7 通过式(40)计算越界可能性最大的动作序号Ia。

步骤8 通过式(41)计算S下采取动作aIa时转移到φ(S) 中心 μ =(μ1，…，μj，…，μm)T附近的概率向量 RE2I。

步骤9 通过式(42)计算S下采取动作aIa时转移到ψ(S) 中心 μ'=(μ1'，…，μj'，…，μm')T附近的概率向量RE2B。

步骤10 通过式(43)计算S的下步状态虚拟样本S':

步骤11 若虚拟样本越过边界，则r=－1;否则，r=－max(RE2B);通过式(33)更新Q值函数逼近器参数。

5 算法步骤

NPAPI-Dyna算法的步骤依次分为结构构建和自主学习两个阶段。

5．1 结构构建阶段

结构构建阶段的主要任务是构建算法网络结构和环境估计模型，具体步骤如下:

步骤1 指定增强学习误差率ε。

步骤2 使用第1章中的二级随机采样方法采集目标问题的总体样本集合 SP、SPE、MSP 和 MSPE。同时，使用 2．2．2节中的步骤在采样过程中确定核心状态基函数{φp(S)|p=1，…，nc}与边界状态基函数ψ(S)。

步骤3 使用2．2．3节中的步骤对核心状态基函数进行扩展，生成初始状态基函数φ(S)，计算逼近器的平均学习率η。

步骤4 依据2．3节中的定义构建动作选择器。

步骤5 按照图1构建算法网络结构。其中，Q值函数逼近器参数向量初始化为 0向量。

步骤6 使用第3章中的步骤构建状态动作转移模型B和边界状态动作转移模型B'。

5．2 自主学习阶段

自主学习阶段的主要任务是基于学习经历自适应调整逼近器和环境估计模型的结构与参数，学习解决目标问题的策略，具体步骤如下:

步骤1 初始化当前状态St=S0。目标系统开始一次尝试;

1)通过式(6)计算St的特征向量Φ(St);

2)通过式(20)进行策略评估，通过式(19)选择St下应采取的动作At，获取即时奖励rt，且环境转移到下步状态St+1;

3)依次使用4．1．1节和4．1．2节中的步骤对算法的逼近器和环境估计模型结构进行新增、合并操作;

4)依据4．1．3节中的方法调整逼近器和环境估计模型的参数;5)将St作为规划状态，使用4．2节中的方法进行规划;6)若本次尝试结束，执行步骤2;否则，设置当前状态St=St+1，执行步骤1);

步骤2 若本次尝试成功，则学习结束;否则，通过式(27)更新边界状态动作转移模型B'，并执行步骤1再次进行尝试。

6 仿真实验

一级倒立摆平衡控制是增强学习研究的标准测试问题，本文对其进行仿真实验来验证NPAPI-Dyna算法的各项性能。为了与已有类似算法进行对比，采用文献［1］的倒立摆模型，如式(44)所示:

其中:系统状态S= pagenumber_ebook=18,pagenumber_book=1235 T(状态维数n=2)，θ为摆杆偏离垂直方向的角度为角速度;F为作用于小车质心上的水平推力分别为－50 N、0 N和+50 N(方向向右取+，向左取－，动作数量K=3)，且总有［－10 N，+10 N］的噪声叠加在F上，MC为小车质量(MC=8．0 kg)，MP为摆杆质量(MP=2．0 kg)，len为摆杆长度的一半(len=0．5 m)，g为重力加速度(g=9．8 m/s2)。

实验中，仿真时间步为0．1 s，折扣率γ =0．95。若摆杆偏离垂直方向角度超过90°则失败;否则，若摆杆在上述约束条件下保持指定时间步不倒则成功。相应的即时奖励r如式(45)所示:

此外，按照算法要求，设定初始状态S0=［0 0］，边界Sb=［± 90 inf］，指定 Sg= ［0 0］。

6．1 NPAPI-Dyna算法实验分析

设置实验目标为倒立摆运行3000时间步不倒，实验最大尝试次数为300，ε 取0．1、0．05、0．01 时分别进行100 次独立仿真运算，实验结果如表1和表2所示。

表1 ε在不同取值下的实验结果(性能数据)Tab．1 Experimental results under different ε values(performance data)

pagenumber_ebook=19,pagenumber_book=1236

ε 成功率/%最小尝试次数最大尝试次数平均尝试次数角度平均绝对偏差/(°)角度平均振荡范围/(°)0．10 100 3 117 11．14 4．1798 2．7807 0．05 100 3 82 9．50 3．5761 2．7203 0．01 100 2 174 7．73 3．0538 2．7590

表2 ε在不同取值下的实验结果(过程数据)Tab．2 Experimental results under different ε values(process data)

ε 平均样本数量初始基函数平均数量学习后基函数平均数量基函数合并次数平均学习率0．10 396．64 14．32 14．69 0 0．0396200 0．05 777．71 16．05 16．18 0 0．0235300 0．01 5665．93 20．89 20．90 0 0．0042084

由表1和表2中的数据可以看出，当ε逐步降低时，状态样本数量不断增加，状态基函数随之增加，Q值函数逼近器泛化能力逐渐提升;另一方面，当ε逐步降低时，平均学习率也随之降低，但由于近似算法的每步更新均能够将学习结果传递至所有状态基函数，因此对学习速度不会造成太大影响;从整体上看，基于环境估计模型的规划过程可有效降低因状态基函数增加带来的学习反复性和不确定性，NPAPI-Dyna算法的学习速度较快。ε取 0．1、0．05、0．01时分别进行 100次独立仿真运算的学习速度分布如表3所示，反映了ε取不同值时，在特定尝试次数内学习成功的次数。

表3 ε在不同取值下的学习速度分布Tab．3 Learning velocity distribution of different ε values

ε特定尝试次数内学习成功次数10 20 30 40 100 200 0．10 75 7 8 5 4 1 0．05 84 3 1 3 8 0 0．01 95 1 0 1 1 2

此外，从角度平均绝对偏差和角度平均振荡范围来看，随着ε逐步降低，二者精度呈逐步增加趋势，且无论ε(在0．1～0．01)如何取值，二者均能稳定在较优范围内。

6．1．1 取消规划过程后的实验结果

算法取消规划过程后，即从第5章的算法步骤中去掉与规划相关的部分，且将特征向量Φ(S)定义为:

采用与上述实验相同的样本集、初始基函数和学习率，结果如表4所示。

表4 取消规划过程后ε在不同取值下的实验结果Tab．4 Experimental results under different ε values after cancelling plan

ε 成功率/%学习后基函数平均数量基函数合并次数平均尝试次数角度平均绝对偏差/(°)角度平均振荡范围/(°)0．10 100 16．23 2 11．40 5．9526 2．9381 0．05 100 18．12 4 12．94 5．2043 2．8505 0．01 100 23．13 7 27．17 3．8383 2．8380

对比表4与表1、2中的数据可以看出，取消规划过程后，当ε逐步降低时，学习过程中的基函数合并次数、学习结束后的基函数数量均有所增加，学习速度逐渐降低，且随着ε减小这一趋势愈加明显，从反面印证了算法采用的规划过程对由基函数数量增加导致的学习反复性和不确定性具有较好的抑制效果。

此外，在取消规划后，角度平均绝对偏差大幅上升，角度平均振荡范围也略有增加，从反面证明了算法采用的规划过程在提升学习精度方面也具有较好的效果。

6．1．2 对规划过程的实验分析

为了更好地理解NPAPI-Dyna算法的规划过程，现通过实验对其进行分析说明。当ε取0．1时进行一次实验，采集到的状态样本集合、边界状态样本集合、初始状态基函数和边界状态基函数如图2所示。

图2 初始样本与初始基函数Fig．2 Initial samples and basis functions

其中，空心点为状态样本集合，实心点为边界状态样本集合，初始状态基函数和边界状态基函数以矩形框表示，标号1～14为初始基函数序号，标号Ⅰ和Ⅱ为边界状态基函数序号。

由于状态动作转移模型B和边界状态动作转移模型B'数量较多，这里仅列出内部状态转移矩阵D和边界状态转移矩阵D'，如下所示。

观察矩阵D的12列和13列，以及矩阵D'可以看出，越靠近边界状态区分度越大，模型越准确，同时也验证了NPAPI-Dyna算法在规划状态离边界状态基函数ψ(S)较近时进行规划的科学性。

pagenumber_ebook=20,pagenumber_book=1237

学习结束后的状态样本集合、边界状态样本集合、初始状态基函数和边界状态基函数如图3所示。

图3 学习成功后样本与状态基函数Fig．3 Samples and state basis functions after learning success

相应的，内部状态转移矩阵D和边界状态转移矩阵D'如下所示:

对比学习前，矩阵D和D'已经学习到规律性，可以更好地指导倒立摆在平衡位置附近(矩阵D的第3列、4列、5列、9列和11列)摆动，学习成功的运动曲线如图4所示。

图4 学习成功后的摆杆运动曲线(角度)Fig．4 Motion curve(angle)of pendulum after learning success

从图4可以看出学习成功后摆杆的摆动角度平均偏差为3．4124°，平均振荡范围为 2．874 8°，最大振荡范围基本稳定在10°以内，显示出算法具备较好的控制性能。

6．2 与典型近似策略迭代增强学习算法进行对比

NPAPI-Dyna、Online LSPI、BLSPI均为在线近似策略迭代增强学习算法，一般通过不同参数条件下获得控制策略的速度进行评价。将ε取0．1时进行100次独立仿真运算的结果与 Online LSPI、BLSPI算法的最优实验结果［3］进行比较，三种算法在不同尝试次数下的平均平衡时间步如表5所示。

表5 与典型在线近似策略迭代增强学习算法的对比Tab．5 Comparison with typical online approximation policy iteration reinforcement learning

300次尝试NPAPI-Dyna ε比较算法 50次尝试100次尝试150次尝试200次尝试250次尝试=0．1 2900 2989 3000 3000 3000 3000 Online LSPI 27 35 36 37 928 2112 BLSPI LSTD-Q 921 1800 2187 2576 2771 3000 BLSPI LSPE-Q 34 1532 2701 3000 3000 3000

从表5可以看出，NPAPI-Dyna算法基本可在50次尝试内学习得到一级倒立摆平衡的控制策略，速度远快于Online LSPI和 BLSPI。

7 结语

NPAPI-Dyna算法只需指定增强学习的误差率就能完全自主地实现样本采集、网络结构构建和环境估计模型构建过程，同时算法还引入Dyna框架的模型辨识思想，将学习和规划过程有机结合以提升学习速度。一级倒立摆平衡控制仿真实验验证了算法在不同增强学习误差率取值下的有效性和性能变化趋势，分析了算法的规划过程，与目前典型的在线近似策略迭代增强学习算法相比较，NPAPI-Dyna具有收敛速度更快的优势。本文解决了单个智能体的非参数化增强学习问题，非参数化并行增强学习和多智能体非参数化增强学习将是未来的重点研究方向。

参考文献(References)

［1］ LAGOUDAKIS M G， PARR R．Least squares policy iteration［J］．Journal of Machine Learning Research，2003，4(6):1107－1149．

［2］ BUSONIU L， ERNST D， de SCHUTTER B， et al．Online leastsquares policy iteration for reinforcement learning control［C］//Proceedings of the 2010 American Control Conference．Piscataway，NJ:IEEE，2010:486－491．

［3］周鑫，刘全，傅启明，等．一种批量最小二乘策略迭代方法［J］．计算机科学，2014，41(9):232－238．(ZHOU X，LIU Q，FU Q M， et al．Batch least-squares policy iteration［J］．Computer Science， 2014， 41(9):232 －238．)

［4］傅启明，刘全，伏玉琛，等．一种高斯过程的带参近似策略迭代算法［J］．软件学报，2013，24(11):2676－2686．(FU Q M，LIU Q，FU Y C，et al．Parametric approximation policy iteration algorithm based on gaussian process［J］．Journal of Software， 2013，24(11):2676 －2686．)

［5］傅启明．强化学习中离策略算法的分析及研究［D］．苏州:苏州大学，2014:72－85．(FU Q M．Analysis and research on off-policy algorithms in reinforcement learning［D］．Suzhou:Soochow University， 2014:72 －85．)

［6］尤树华．贝叶斯强化学习中策略迭代算法研究［D］．苏州:苏州大学，2016:50－57．(YOU S H．Research on policy iteration algorithm within Bayesian reinforcement learning［D］．Suzhou:Soochow University， 2016:50 －57．)

［7］ XU X，PENG C，DAI B，et al．A kernel-based reinforcement learning approach to stochastic pole balancing control system［C］//Proceedings of the 2010 IEEE/ASME International Conference on Advanced Intelligent Mechatronics．Piscataway， NJ:IEEE， 2010:1329－1334．

［8］ BARRETO A M S， PRECUP D， PINEAU J．Practical kernel-based reinforcement learning［J］．Journal of Machine Learning Research，2016(17):1－70．

［9］朱稷涵．基于非参函数逼近的强化学习算法研究［D］．苏州:苏州大学，2014:18－28．(ZHU J H．Research on reinforcement learning algorithm based on nonparametric approximation［D］．Suzhou:Soochow University， 2014:18 －28．)

［10］闫称．基于测地高斯核的策略迭代强化学习［D］．徐州:中国矿业大学，2015:17－42．(YAN C．Policy iteration reinforcement learning based on geodesic Gaussian kernel［D］．Xuzhou:China University of Mining and Technology， 2015:17 －42．)

［11］王雪松，朱美强，程玉虎．强化学习原理及其应用［M］．北京:科学出版社，2014:58．(WANG X S，ZHU M Q，CHEN Y H．Principle and Application of Reinforcement Learning［M］．Beijing:Science Press， 2014:58．)

［12］于剑，程乾生．模糊聚类方法中的最佳聚类数的搜索范围［J］．中国科学(E辑)，2002，32(2):274－280．(YU J，CHENG Q S．The search scope of optimal cluster number in fuzzy clustering method［J］．Science in China(Series E)， 2002， 32(2):274 －280．)

作者

季挺，张华

出处

《计算机应用》 2018年第05期

上一篇：基于可穿戴传感器的人体活动识别研究综述

下一篇：基于局部远亲差分增强的扰动粒子群优化算法

《计算机应用》2018年第05期文献

基于可穿戴传感器的人体活动识别研究综述作者：郑增威，杜俊杰，霍梅梅，吴剑钟

基于Dyna框架的非参数化近似策略迭代增强学习作者：季挺，张华

基于局部远亲差分增强的扰动粒子群优化算法作者：王永贵，胡彩云，李鑫

融合Shapley值和粒子群优化算法的混合特征选择算法作者：邓秀勤，李文洲，武继刚，刘太亨

基于熵权Vague 集的多目标决策方法作者：赵庆庆，黄天民

求解动态优化问题的多种群竞争差分进化算法作者：袁亦川，杨洲，罗廷兴，秦进

考虑用户特征的主题情感联合模型作者：许银洁，孙春华，刘业政

基于聚类分析的微博广告发布者识别作者：赵星宇，赵志宏，王业沛，陈松宇

结合注意力机制的长文本分类方法作者：卢玲，杨武，王远伦，雷子鉴，李莹

基于改进的多层BLSTM 的中文分词和标点预测作者：李雅昆，潘晴，．W

面向汉维机器翻译的调序表重构模型作者：潘一荣，李晓，杨雅婷，米成刚，董瑞

改进的显式形状回归人脸特征点定位算法作者：贾项南，于凤芹，陈莹

基于多标签判别字典学习的图像自动标注作者：杨晓玲，李志清，刘雨桐

复杂环境中基于视觉词袋模型的车辆再识别算法作者：王茜，陈一民，丁友东

基于迁移学习的水产动物图像识别方法作者：王柯力，袁红春

基于多角度多区域特征融合的苹果分类方法作者：刘媛媛，王晖，郭躬德，江楠峰

正负关联规则两级置信度阈值设置方法作者：陈柳，冯山

基于节点中心性和社区相似性的快速标签传播算法作者：顾军华，霍士杰，王守彬，田喆

基于文献信息网络语义特征的相似性搜索作者：邱庆羽，李婧，全兵，童超，张利君，张海仙

基于距离类别的多源兴趣点融合算法作者：徐爽，张谦，李琰，刘嘉勇

基于HBase和Hive 的航班延误平台的存储方法作者：吴仁彪，刘超，屈景怡

基于异方差高斯过程的时间序列数据离群点检测作者：严宏，杨波，杨红雨

密码云中基于熵权评价的虚拟密码机调度方法作者：王泽武，孙磊，郭松辉，孙瑞辰

基于改进单类支持向量机的工业控制网络入侵检测方法作者：刘万军，秦济韬，曲海成

面向分布式网络结构的APT攻击双重博弈模型作者：张为，苏旸，陈文武

抗合谋攻击能力可调的有状态组密钥更新协议作者：敖丽，刘璟，姚绍文，武楠

多属性环境下基于容错学习的全同态加密方案作者：白平，张薇

基于集成学习的口令强度评估模型作者：宋创创，方勇，黄诚，刘亮

海量小文件系统的可移植操作系统接口兼容技术作者：陈博，何连跃，严巍巍，徐照淼，徐俊

高维胖树系统中确定性路由容错策略实现作者：徐佳庆，万文，蔡东京，唐付桥，何杰，张磊

杂志信息网