更全的杂志信息网

人工神经网络中损失函数的研究

更新时间:2016-07-05

人工神经网络因性能卓越而被广泛研究和应用.一般而言,利用该技术解决问题的关键在于网络规模和相关参数的设定.网络规模越大所能描述的特征将越丰富,性能越好.但随着网络规模的增大,参数个数也随之剧增,从而导致网络无法快速收敛,训练时间较长.因此,怎样加速网络收敛速度是人工神经网络技术推广的关键.尽管使用基于GPU的并行计算技术能够加速网络训练、减小耗时,但是该技术的引入不但增加了问题解决难度,而且也提高了解决问题的硬件成本,因此,并不能从根本上解决训练耗时的问题.通过研究发现,损失函数不同,人工神经网络的训练时间不同.特别是,当网络性能无较大差异时,平方差损失函数和交叉熵损失函数对网络收敛速度带来的差异更大.因此通过数理推导,解释两种损失函数的差异,并通过实验验证二者对网络收敛性的影响.

其主要任务有研制绿色投入品、研发绿色生产技术、发展绿色产后增值技术、创新绿色低碳种养结构与技术模式、绿色乡村综合发展技术与模式、加强农业绿色发展基础研究、完善绿色标准体系七个方面共25项具体内容。

1 人工神经网络中损失函数的对比

为了便于描述和推导,将以单个sigmoid神经元(简称神经元)为例进行解释,并约定:输入样本为x,期望输出为y,神经元的实际输出为α.

图1是单个神经元的结构图形,其中W表示权重,b表示偏置.sigmoid神经元是指学习函数为sigmoid函数的神经元,该函数的表达式如(1)式所示,(2)式是(1)式的导函数.

(2)式中 Z=Wx+b,图 2 描绘了 sigmoid 函数的曲线图形,观察图形可知:当Z→-∞时,函数无限趋近于0;当Z→+∞时,函数无限趋近于1.

(1)因为 α∈[0,1],所以 lnα<0,ln(1-α)<0,故 C>0;

图1 单连接神经元

图2 sigmoid函数

对于单个sigmoid神经元的网络,平方差损失函数可表示为:

(8)式可为损失函数的原因是满足以下两个条件:

通过观察图1并结合上述推导可知,当神经元的实际输出σ(Z)→1时,sigmoid函数的曲线将会更加扁平,此时该函数的导数值σ′(Z)将会非常小,由(4)式和(5)式可知参数w和b的偏导值也将很小.极小的偏导值将导致每次迭代中参数几乎不发生改变,从而网络训练速度变慢,无法快速收敛.因此,平方损失函数的使用,可能引起网络收敛速度变慢的现象.

通过文献综述我们了解图式理论在中小学英语阅读教学的运用研究并非罕见。但是,以民族地区高中生为研究对象开展图式理论的实证研究却是凤毛麟角。语言的学习受环境和教学资源以及经济文化的发达程度的影响极大,因为语言的学习本身蕴含丰富的文化积累。然而民族地区的外语教育在这方面的研究存在很大缺口,因此,该研究具有及时性和研究价值。该研究的主要目的是调查图式理论在民族地区高中英语阅读教学中实际运用情况;了解语言图式、内容图式和结构图式与民族地区学生的英语阅读能力的相关性;探讨图式理论对民族地区英语阅读教学的启示。

由(9)式和(10)式可知,参数 w、b 的偏导数与期望输出和实际输出的差成正比关系,即差值越小偏导数越小,差值越大偏导数越大.结合(6)式和(7)式可得出网络预判能力越差,参数将变化较大,网络收敛速度将会加快;预判能力越好,收敛速度将会变缓.因此,使用交叉熵损失函数的人工神经网络起初应随期望输出和实际输出差别大而收敛较快,后期随差别的减小而放缓学习速度,表现出前快后慢的收敛现象.与平方差损失函数相比不受学习函数导数的影响.

根据链式求导法则,分别计算参数w和b相对于损失函数 C 的偏导,见(4)式和(5)式.

相对于平方损失函数,交叉熵损失函数能够避免上述现象发生.对于单个sigmoid神经元的网络,该函数可用(8)式表示:

总之,作为转型期中国社会的“表征”,中国当代都市电影围绕消费主义语境下人们的精神处境设置矛盾、展开叙事,对人们的身份认同危机进行了饶有意味的表达。

(3)式中 a=σ(Z),表示神经元的实际输出.

集团(总局)党委第一时间制订下发了《深入学习宣传贯彻习近平总书记在垦区考察时的重要讲话精神实施方案》。方案要求,垦区上下要深刻领会、准确把握习近平总书记对北大荒一系列重要讲话精神实质和深刻内涵,把思想和行动统一到习近平总书记对农垦改革发展的重大判断和部署要求上来。总局党委宣传部下发了《深入学习宣传习近平总书记重要讲话精神的通知》,召开了学习宣传总书记重要讲话精神新闻策划会议,对新闻媒体营造氛围、推动学习宣传习近平总书记重要讲话精神工作不断普及深入做出部署。垦区各级党组织通过精心组织、周密策划,上下齐动,多措并举,迅速掀起了学习宣传习近平总书记重要讲话的精神热潮。

(2)满足当 α≈0∧y=0或 α≈1∧y=1时(即所有训练数据的实际输出接近于期望输出时),C=0.

为了便于解释交叉熵损失函数的收敛性,首先计算参数w的偏导

其次将(2)式代入上式,化简后得(9)式

同理可得参数b的偏导

式中t、t+1表示迭代次数,η表示学习速率.

人工神经网络的学习过程,是通过不断迭代更新参数w和b,直到网络收敛.(6)式和(7)式为利用梯度下降算法更新参数的表示式.

2 实验对比

通过实验进一步对比两种损失函数在实际问题中的表现.实验选用MINST数据集,该数据集是一个基准数据集,被广泛使用于分类算法的测试和对比.它有60000个训练样本和10000个测试样本,每个样本是由28 x 28个像素点构成的手写数字图片,如图3所示.

图3 MINST数据集示例

实验中使用的人工神经网络是一个三层前馈式网络,其中输入层784个节点、隐藏层30个节点、输出层10个节点.由于输出层使用10个节点,因此每个样本的实际标识需要进行编码,即每个标识使用10位二进制数表示,如数字5编码之后为(0,0,0,0,1,0,0,0,0)T.实验中,学习算法采用随机梯度下降法(Stochastic Gradient Descent,SGD),其中批尺寸 batchsize为10,epoch为400.

图4显示了使用两种损失函数的上述网络,在每个训练周期内损失(Cost)值的变化情况.首先,观察变化曲线可知,使用交叉熵损失函数的网络其损失减小速度快于采用平方差损失函数的网络,并且当epoch大于10时,二者出现明显差别.因此,实验结果符合上节的分析结论,即使用交叉熵损失函数能有效加快网络收敛速率;其次,交叉熵损失函数前陡后缓变化趋势,也证明了使用该损失函数的网络前快后慢的收敛现象.

她听他说,这是天津起士林的一号西崽出来开的。想必他拣中这一家就是为了不会碰见熟人,又门临交通要道,真是碰见人也没关系,不比偏僻的地段使人疑心,像是有瞒人的事。

观察所有患者进行护理干预后发生便秘的情况,调查患者对护理的满意情况,统计护理后便秘发生率以及护理满意度。护理满意度分为相当满意、满意、不满意三种情况,护理满意度=(相当满意度+满意度)/总例数×100%。

图4 交叉熵损失与平方差损失的对比

3 结论

研究结果表明,交叉熵损失函数不但可以简化网络计算量 (与平方差损失函数相比不再计算Sigmoid函数的导数),而且能够有效克服Sigmoid函数因饱和而导入网络收敛慢的问题.同时发现,虽然交叉熵损失函数对网络收敛性提升较大,但网络中参数初始化等因素对该函数的性能存在一定影响,是下一步重点研究内容.

参考文献:

[1]Michael Nielsen.Neural Networks and Deep Learning[EB/OL].http://neuralnetworksanddeeplearning.com/index.html,2017-08/2017-10.

[2]徐学良.人工神经网络的发展及现状[J].微电子学,2017,47(2):239-242.

[3]Simon Haykin.神经网络原理[M].北京:机械工业出版社,2004:178-190.

任进军,王宁
《甘肃高师学报》 2018年第02期
《甘肃高师学报》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号