更全的杂志信息网

基于L1范数改进的自回归算法及分类应用

更新时间:2016-07-05

0 引 言

神经自回归密度估计(Neural autoregressive distribution estimation, NADE)[1-2]是由Larochelle等于2011年提出的一种新型估计高维密度分布的算法.受到受限玻尔兹曼机(Restricted boltzmann machine, RBM)[3-6]的启发,针对高维分布中配分函数(Partition function)计算复杂度高的问题,Larochelle等根据全可视贝叶斯置信网络(Fully visible sigmoid belief network, FVSBN)[7-9]中的贝叶斯置信网络[10]的思想,将联合密度分布分解为每个变量的条件概率的乘积形式,对每个变量的条件概率分布进行拟合,即可计算出联合密度分布.

神经自回归密度估计模型是一个生成模型,为了完成分类任务需要把NADE改进为一个判别模型,受到监督文档主题生成模型(Supervised latent dirichlet allocation, SLDA)[11]的启发,文献[12]基于NADE模型提出一种新的图片分类主题模型:监督文档神经自回归密度估计(Supervised document neural autoregressive estimation, SupDocNADE).由于网络模型参数维度很高,带来了网络模型泛化能力差,模型不易解释的问题,对此文献[13]提出基于L1范数的稀疏自回归网络(Sparse autoregressive networks),验证了自回归神经网络中稀疏性对网络拟合性能的重要性.在网络模型的参数训练过程中,参数更新的稳定性是影响训练速度和分类准确率的一个关键因素.考虑到波利亚科夫平均(Polyak Averaging)参数思想[14]能够消除参数更新过程中相邻两个参数之间相差过大所引起的不稳定现象,从而加快参数训练速度,且加入Polyak averaging思想的RBM模型不仅具有最优的渐进收敛率,还可以提高识别的准确率[15-16],本文把Polyak averaging思想加入到NADE模型的参数更新过程中,提出一种新的改进算法(PAS-NADE),并把改进后的算法应用到SupDocNADE的图片分类中.

1 基本的自回归算法

1.1 神经自回归密度估计

观测值输入向量x(x1,x2,…,xd,…,xD),为了估计联合密度分布p(x),首先考虑属性xd是二值型变量,即xd∈{0,1},∀d.NADE中的D维分布p(x)可以分解为一维条件概率分布的乘积,变量间的因果关系用一个任意的序列ο(整数序列0,1,…,D的任意排序)表示,则

(1)

其中ο<d表示在序列ο中的前d-1维,xο<d表示输入向量xd-1维子向量.p(xοd|xο<d)表示第d维在前d-1维变量下的条件概率,图1为NADE的网络模型.其在图1中,输入层中,变量值为0用黑色的圆圈表示,为1用白色的圆圈表示.连接箭头的末端表示加权平均输入,输出层表示输入向量xO中每个变量激活时的条件概率分布,层间连接对应共享连接权重矩阵W

图 1 NADE模型 Fig.1 NADE model

通过前向传播神经网络计算每个变量的条件概率

p(xοd=1|xο<d)=sigm(Vοdhd+bοd),

(2)

hd=sigm(W·,ο<dxο<d+c).

(3)

其中sigm(a)=1/(1+exp(-a)),H表示隐藏层中变量的个数.NADE模型中.WRH×D表示输入层与隐藏层之间的连接权重矩阵,VRD×H表示连接权重矩阵W的逆矩阵,bRD表示输入层的偏置向量,cRH是隐藏层的偏置向量.其中连接权重矩阵W和偏置向量c在每个隐藏层hd(每个hd的维度是一样的)中是共享的.限制参数的数目可以减少过拟合的风险,另一个原因是降低计算复杂度.用ad=W·,ο<dxο<d+c 表示第d个隐藏层激活前的加权平均输入,隐藏层的计算公式如下:

h1=sigm(a1),a1=c.

(4)

hd=sigm(ad),ad=W·,ο<dxο<d+c=W·,οd-1xοd-1+ad-1 for d∈{2,…,D}.

(5)

NADE可以通过最小化平均负对数似然函数,使用随机(小批量)梯度下降法进行训练:

(6)

1.2 监督文档神经自回归密度估计

给出图片的输入向量x(x1,x2,…,xd,…,xD)和类标签y∈{1,…,C},监督文档神经自回归密度估计(SupDocNADE)[12]模型的联合概率分布为

(7)

每个条件概率通过前馈神经网络进行计算,这个过程与神经自回归密度估计几乎相同,在SupDocNADE中的条件概率p(xοd|xο<d)使用与文档神经自回归密度估计(DocNADE)[17]中相同的结构.现只需定义条件概率p(y|x)表达式.

Step 8 判断是否满足终止条件,若满足则终止循环,否则返回Step 7.

p(y|x)=softmax(d+UhD).

(8)

其中是输出层的偏置向量,URC×H是隐藏层hD与输出层之间的连接权重.

最后通过最小化负对数似然函数来完成模型的训练:

(9)

方程(9)右边第一项称为判别模型项,第二项是生成模型项,第二项能够解释无监督的网络中的统计特性.针对生成模型与判别模型的混合学习,一般对生成模型项加上一个正则化参数λ,则式(9)转化为

(10)

2 算法改进

2.1 L1范数正则化

L1范数正则化[18]可以对网络中的特征进行自动选择,防止过拟合问题,提高自回归神经网络的泛化能力,并且让模型更加容易解释.形式上,对模型中连接权重W的L1正则化的定义为

(11)

即各参数的绝对值之和,可以通过缩放惩罚项Ω(θ)的正的超参数α来控制L1权重衰减的强度,正则化的目标函数表达式为

钩藤是一种耐干旱、耐贫瘠的植物,种植地坡度需小于45度,光照充足。可以选择荒山、荒坡、荒土、林边空地等区域作为钩藤种植区,也可以选择疏林地、残次林地、果园边缘地和人工造林后的幼林地间种钩藤,在种植前应割除地块上的杂草、灌丛。种植地海拔300~2 000米,应远离城区、工矿区、交通主干线、工业污染源、生活垃圾场等场地[10-11]。

数据集LabelMe[17],通过网络工具获得像素为256*256的八类图片:公路,城市内部、海岸、森林、高楼、街道、空旷的野外、高山.每一类有200张图片,并将每一类图片随机地平均分为训练集和测试集.数据集UIUC-Sports[17]包含1792张图片,将每个图片的最大侧(图片多个维度中变量最多的一个维度)像素调整到400.分为八类:羽毛球运动(313张),滚球运动(137张),槌球运动(330张),马球运动(183张),攀岩运动(194张),划船运动(255张),帆船运动(190张),单板滑雪运动(190张).将每一类图片随机地平均分为训练集和测试集.由每个模型对数据集的分类准确率来判断模型泛化能力强弱,分类结果如表2所示.

夏日炎炎,我的书包还可以张开太阳能电池板翅膀,带我飞过平原,飞过河流,来到清凉的高山森林度假村。在这里,我和小鹿、小松鼠等畅玩儿森林躲猫猫游戏。

(12)

[9] BENGIO Y,BENGIO S.Modeling high-dimensional discrete data with multi-layer neural networks[C]//Advances in Neural Information Processing Systems.Cambridge:MIT Press,2000:400-406.

wJ(w;x,y).

(13)

2.2 波利亚科夫平均思想

Step 10 L1正则化项的参数更新:

(14)

以滨江生态提升塑造国际品质。依托滨江生态资源和已建成的河西滨江旅游风景道,进一步提升环境品质,科学规划布局,按照5A级景区标准打造极具滨江特色的都市生态旅游目的地,加快建设24公里长的环岛健身绿道,推进河西南部和江心洲省级海绵城市示范片区建设。

(15)

其中ρ为神经网络中的动量学习率,t为当前的循环次数.

1)帷幕灌浆法的应用。在帷幕灌浆的应用中最主要的是对浆液的比例进行调和,因为浆液本身就具有胶凝性以及流动性,在通过一定的比例调和之后,会增加其附着性,在调配完浆液之后,通过钻孔将其压至岩层的缝隙中,浆液在岩石的缝隙中会自动胶结硬化,通过浆液的胶结硬化能够极大地改善岩层的性能,提升岩层的硬度以及强度,进而达到了防渗的目的。当前我国最常使用的是孔口封闭灌浆的方法。

2.3 改进的算法

将L1范数正则化以及波利亚科夫平均(Polyak Averaging)思想,融合到神经自回归密度估计算法中,提出改进后的算法PAS-NADE.算法步骤如下:

许沁现在不好找。许沁的抛光部门关着,法院的封条被锋利的冷风割破了,挣扎着,嗷叫着。玉敏给许沁打电话,许沁概不接。玉敏换了个手机,许沁接了。玉敏非常真诚地说,有要事相商。这次许沁没有拒绝。

Step 1 输入观测向量x与相应的一个随机位置序列ο,初始化参数b,V,c,W.

由于该站平面形状类似于正方形,平面长、宽尺寸太大,工程位于长江一级阶地,所处的地质条件很差,因此对车站基坑支护系统设计带来很大困难。该基坑工程短边长度大于100 m,长边长度大于200 m,如果采用内支撑,需设较多立柱,支撑截面也较大,导致水平支撑构件断面尺寸和自重较大,以及施工工期加长;如采用不设内支撑的悬臂支护桩或者桩锚体系,由于地质条件差,且工程周边有在建建筑,导致工程无法实施。

Step 2 把Step 1中的c赋值给a1,令p(x)=1.

Step 3 进行迭代计算:

hd=sigm(ad),

(16)

p(xοd=1|xο<d)=sigm(Vοdhd+bοd),

(17)

p(x)=p(x)(p(xοd=1|xο<d)xοd(1-p(xοd=1|xο<d))1-xοd),

(18)

ad+1=ad+W·,οdxοd.

(19)

Step 4 判断是否满足终止条件,若满足则终止循环,否则返回Step 3.

Step 5 根据Step 4输出p(x),加入L1范数正则化项

(20)

Step 6 根据步骤(5)计算的p(x),计算-logp(x)中各个参数的梯度.

Step 7 初始化δaD,δc,分别为零,进行迭代计算:

目前湖南省水资源 “三条红线”控制指标正报省政府批准,但控制指标仅落实在地市层面,尚未分解至区县一级,但即便从地市层面分析,一般城市总体规划的用水增量通常也占据了该地市用水总量红线增量的较大比重,这主要是由于省层面给各地市的用水总量红线增量较少,而通常制定城市总体规划时,只考虑了经济的增长,却并未考虑用水总量控制红线。

δbοd←(p(xοd=1|xο<d)-xοd),

(21)

2.1.1 种类。此次调查共发现凉山州3科8属8种牧草上真菌性病害20种(表1),其中主要病害12种,饲用玉米3种,分别为小斑病、大斑病和锈病;光叶紫花苕3种,分别为斑枯病、白粉病和叶斑病;黑麦草3种,分别为锈病、镰孢枯萎病和离孺孢叶枯病;紫花苜蓿3种,分别为褐斑病、黄斑病和茎点霉叶斑病。

(22)

(23)

δcδc+δhdhd(1-hd),

(24)

δW·,οdδadxοd,

(25)

δad-1δad+δhdhd(1-hd).

(26)

使用隐藏层hD来表示图像表征来完成分类任务,利用softmax函数模型来计算条件概率

Step 9 根据Step 8计算结果,输出 δb,δV,δc,δW,进行参数更新:

b(t+1)b(t)+ηδb,

(27)

c(t+1)c(t)+ηδc,

(28)

V(t+1)V(t)+ηδV,

(29)

W(t+1)W(t)+ηδW.

(30)

平均前后两次更新的参数,可以消除参数更新中相邻的两个参数之间相差过大所引起的不稳定现象.使用波利亚科夫平均(Polyak Average)思想[14]的RBM模型不仅具有最优的渐进收敛率,还可以提高识别的准确率[15-16],更新形式如下:

记者型主持人要想在发展迅速的新媒体时代站稳脚跟,首先必须提升自身的“媒介素养”,所谓媒介素养,是一种能力,它体现了人们获取和分析各种大众传媒信息的水平,以及利用传统媒体、新媒体或者自媒体等来服务社会生活所需要的信息以及服务工作所需的技巧和能力。

W(t+1)W(t+1)+sign(W(t+1)).

(31)

Step 11 波利亚科夫平均参数更新

Step 12 判断是否满足终止条件,若满足则终止循环,输出log p(x)否则返回Step 2.

W(t+1)=W(t)+ρW(t+1),

(32)

(33)

临床资料取我院2015年12月-2017年9月收治96例烧伤患者为研究对象,随机分为对照组和观察组各48例。所有患者烧伤面积≤10%,烧伤局部有脓性分泌物,但无合并全身感染症状,所有患者均无严重心、肝、肾和造血系统的合并症。

3 数值试验

从UCI Machine Learning Repository中选择6个常用的标准基准数据集,用来完成定量的评估对比试验.6个观测数据集都是多变量二值型数据,包括生物、图像、文本数据.所有的数据分为训练集、验证集、测试集3个部分,通过计算logp(x)的值来评估本文算法在6个不同的数据集上的性能.6个数据集信息如表1所示.

缩放惩罚项Ω(θ) 的正的超参数α根据文献[19]进行调试,Polyak Averaging中的参数动量ρ 在{0.2,0.5,0.7}中选择,学习率η在{0.05,0.005,0.000 5}中选择,在SupDocNADE模型中的生成模型项的正则化参数λ根据文献[17]进行调试.

1 平均似然函数对比结果

Table 1 Comparison results of the average likelihood functions

数据集AdultConnect4DNAMushroomsNIPS⁃0⁃12Web训练集5000160001400200040014000验证集141440006005001003188测试集261474755711865624124032561维度123126180112500300MOB-20 44-23 41-98 19-14 46-290 02-30 16RBM-16 26-22 66-96 74-15 15-277 37-29 38FVSBN-13 17-12 39-83 64-10 27-276 88-29 35MADE⁃E-13 12-11 90-79 66-9 69-277 28-28 25NADE-13 19-11 99-84 81-9 81-273 08-28 39PAS⁃NADE-13 08-11 94-79 76-9 60-271 60-28 21

每个数据集中表现最好的用黑体来显示.其他模型的基准结果从文献[2]中取得,由表1可以看出,改进后的模型在数据集Adult,Mushrooms,NIPS-0-12,Web中性能得到提升,在数据集Connect 4,DNA中差别不大,但改进的PAS-NADE在6个数据集的结果均比原NADE算法好.

此行我们采访了阳光印网首席运营官杨斌,听他讲述了阳光印网与合作企业共享、共生、共融的发展之道,受益匪浅。

现将改进方案应用到监督文档神经自回归密度估计(SupDocNADE)中,进行多分类任务试验.

2 不同模型的分类准确率对比

Table 2 Classification accuracy comparison results of different models

模型LabelMe准确率/%UIUC⁃Sports准确率/%SPM[20]80 8872 33MMLDA[21]81 4774 65sLDA[11]81 9776 87SupDocNADE[17]83 4377 29PAS⁃SupDocNADE83 8578 12

除文中改进算法,其他模型的分类结果均从原文献中获得,由表2可以看出改进算法PAS-SupDocNADE与SupDocNADE的对比结果,数据集LabelMe的准确率从83.43%提高到83.85%,数据集UIUC-Sports的准确率从77.29%提高到78.12%.

4 结束语

本文利用L1正则化技术与波利亚科夫平均思想,对神经自回归密度估计模型进行优化,并在训练过程中稳定更新参数,通过超参数的调节,在数据集上进行测试,相对于原来的模型,改进后的模型在概率分布的拟合性能上得到了提升,在图片分类应用中提高了图片的分类准确率.下一步可以研究PAS-SupDocNADE模型的隐层层数对图片分类准确率的影响.

参考文献(References):

[1] LAROCHELLE H,MURRAY I.The neural autoregressive distribution estimator[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics.Cambridge:MIT Press,2011:29-37.

构建税收服务高质量发展的征管系统。不断推进完善税务征管体制改革,构建优化高效统一的税收征管体系。以纳税人需求为导向,从纳税人反映强烈的“难点、痛点、堵点”入手,切实降低征纳成本,提高征管效率,为纳税人提供更加优质高效便利的服务。

[2] URIA B,Marc-Alexandre,GREGOR K,et al.Neural autoregressive distribution estimation[J].Journal of Machine Learning Research,2016,17(1):7184-7220.

[3] FREUND Y,HAUSSLER D.A fast and exact learning rule for a restricted class of Boltzmann machines[J].Advances in Neural Information Processing Systems,1992,4:912-919.

[4] HINTON G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1771-1800.

[5] LAROCHELLE H,BENGIO Y,LOURADOUR J,et al.Exploring strategies for training deep neural networks[J].Journal of Machine Learning Research,2009,10(1):1-40.

[6] LAROCHELLE H,BENGIO Y.Classification using discriminative restricted Boltzmann machines[C]//Proceedings of the 25th International Conference on Machine Learning.Helsinki:Ominipress,2008:536-543.

[7] NEAL R M.Connectionist learning of belief networks[J].Artificial Intelligence,1992,56(1):71-113.

[8] FREY B J,HINTON G E,DAYAN P,et al.Does the wake-sleep algorithm produce good density estimators?[C]//Advances in Neural Information Processing Systems.Cambridge:MIT Press,1996,5:661-667.

对应的梯度(实际上是次梯度)为

[10] LOWD D,DOMINGOS P.Naive Bayes models for probability estimation[C]//Proceedings of the 22nd International Conference on Machine Learning.New York:ACM,2005:529-536.

[11] BLEI D M,MCAULIFFE J D.Supervised topic models[J].Advances in Neural Information Processing Systems,2010,3:327-332.

[12] ZHENG Y,ZHANG Y J,LAROCHELLE H.Topic modeling of multimodal data:An autoregressive approach[C]//Computer Vision and Pattern Recognition.New York:IEEE,2014:1370-1377.

[13] GOESSLING M,AMIT Y.Sparse autoregressive networks[J].Computer Science,2015,1050:15-23.

[14] 张艳霞.基于受限玻尔兹曼机的深度学习模型及其应用[D].成都:电子科技大学,2016.

ZHANG Y X.Deep learning models and applications based on the restric ted Boltzmann machine[D].Chengdu:University of Electronic Science and Technology,2006.

[15] SWERSKY K,CHEN B,MARLIN B,et al.A tutorial on stochastic approximation algorithms for training restricted boltzmann machines and deep belief mets[C]//Information Theory and Applications Workshop.New York:IEEE,2010:1-10.

[16] POLYAK B T,JUDITSKY A B.Acceleration of stochastic approximation by averaging[J].SIAM Journal on Control and Optimization,1992,30(4):838-855.

当当前,我国农业保险在迅猛发展的同时,也暴露出很多问题和短板。对此,中国农业大学经管学院教授李晓峰在接受采访时表示,我国农业保险发展的短板主要集中在市场供需失衡、政策补贴方式单一、补贴范围较窄等几个方面。

[17] ZHENG Y,ZHANG Y J,LAROCHELLEH H.Topic modeling of multimodal data:An autoregressive approach[C]//Computer Vision and Pattern Recognition.New York:IEEE,2014:1370-1377.

[18] HEATON J.Ian Goodfellow,Yoshua Bengio,Aaron Courville:Deep learning[M].Cambridge:MIT Press,2016:230-236.

[19] HINTON G.A practical guide to training restricted Boltzmann machines[J].Momentum,2010,9(1):926.

[20] LAZEBNIK S,SCHMID C,PONCE J.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]//Computer Vision and Pattern Recognition.New York:IEEE,2006,2:2169-2178.

[21] WANG Y,MORI G.Max-margin latent dirichlet allocation for image classification and annotation[C]//British Machine Vision Conference,British:BMVA Press,2011:1-11.

陈国泽,贺兴时
《纺织高校基础科学学报》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号