快捷分类

人工神经网络中损失函数的研究

更新时间：2016-07-05

人工神经网络因性能卓越而被广泛研究和应用.一般而言，利用该技术解决问题的关键在于网络规模和相关参数的设定.网络规模越大所能描述的特征将越丰富，性能越好.但随着网络规模的增大，参数个数也随之剧增，从而导致网络无法快速收敛，训练时间较长.因此，怎样加速网络收敛速度是人工神经网络技术推广的关键.尽管使用基于GPU的并行计算技术能够加速网络训练、减小耗时，但是该技术的引入不但增加了问题解决难度，而且也提高了解决问题的硬件成本，因此，并不能从根本上解决训练耗时的问题.通过研究发现，损失函数不同，人工神经网络的训练时间不同.特别是，当网络性能无较大差异时，平方差损失函数和交叉熵损失函数对网络收敛速度带来的差异更大.因此通过数理推导，解释两种损失函数的差异，并通过实验验证二者对网络收敛性的影响.

其主要任务有研制绿色投入品、研发绿色生产技术、发展绿色产后增值技术、创新绿色低碳种养结构与技术模式、绿色乡村综合发展技术与模式、加强农业绿色发展基础研究、完善绿色标准体系七个方面共25项具体内容。

1 人工神经网络中损失函数的对比

为了便于描述和推导，将以单个sigmoid神经元（简称神经元）为例进行解释，并约定：输入样本为x，期望输出为y，神经元的实际输出为α.

图1是单个神经元的结构图形，其中W表示权重，b表示偏置.sigmoid神经元是指学习函数为sigmoid函数的神经元，该函数的表达式如（1）式所示，（2）式是（1）式的导函数.

（2）式中 Z＝Wx+b，图 2 描绘了 sigmoid 函数的曲线图形，观察图形可知：当Z→－∞时，函数无限趋近于0；当Z→＋∞时，函数无限趋近于1.

（1）因为 α∈[0，1]，所以 lnα＜0，ln(1-α)＜0，故 C＞0；

图1 单连接神经元

图2 sigmoid函数

对于单个sigmoid神经元的网络，平方差损失函数可表示为：

（8）式可为损失函数的原因是满足以下两个条件：

通过观察图1并结合上述推导可知，当神经元的实际输出σ（Z）→1时，sigmoid函数的曲线将会更加扁平，此时该函数的导数值σ′（Z）将会非常小，由（4）式和（5）式可知参数w和b的偏导值也将很小.极小的偏导值将导致每次迭代中参数几乎不发生改变，从而网络训练速度变慢，无法快速收敛.因此，平方损失函数的使用，可能引起网络收敛速度变慢的现象.

通过文献综述我们了解图式理论在中小学英语阅读教学的运用研究并非罕见。但是，以民族地区高中生为研究对象开展图式理论的实证研究却是凤毛麟角。语言的学习受环境和教学资源以及经济文化的发达程度的影响极大，因为语言的学习本身蕴含丰富的文化积累。然而民族地区的外语教育在这方面的研究存在很大缺口，因此，该研究具有及时性和研究价值。该研究的主要目的是调查图式理论在民族地区高中英语阅读教学中实际运用情况；了解语言图式、内容图式和结构图式与民族地区学生的英语阅读能力的相关性；探讨图式理论对民族地区英语阅读教学的启示。

由（9）式和（10）式可知，参数 w、b 的偏导数与期望输出和实际输出的差成正比关系，即差值越小偏导数越小，差值越大偏导数越大.结合（6）式和（7）式可得出网络预判能力越差，参数将变化较大，网络收敛速度将会加快；预判能力越好，收敛速度将会变缓.因此，使用交叉熵损失函数的人工神经网络起初应随期望输出和实际输出差别大而收敛较快，后期随差别的减小而放缓学习速度，表现出前快后慢的收敛现象.与平方差损失函数相比不受学习函数导数的影响.

根据链式求导法则，分别计算参数w和b相对于损失函数 C 的偏导，见（4）式和（5）式.

相对于平方损失函数，交叉熵损失函数能够避免上述现象发生.对于单个sigmoid神经元的网络，该函数可用（8）式表示：

总之，作为转型期中国社会的“表征”，中国当代都市电影围绕消费主义语境下人们的精神处境设置矛盾、展开叙事，对人们的身份认同危机进行了饶有意味的表达。

（3）式中 a=σ（Z），表示神经元的实际输出.

集团（总局）党委第一时间制订下发了《深入学习宣传贯彻习近平总书记在垦区考察时的重要讲话精神实施方案》。方案要求，垦区上下要深刻领会、准确把握习近平总书记对北大荒一系列重要讲话精神实质和深刻内涵，把思想和行动统一到习近平总书记对农垦改革发展的重大判断和部署要求上来。总局党委宣传部下发了《深入学习宣传习近平总书记重要讲话精神的通知》，召开了学习宣传总书记重要讲话精神新闻策划会议，对新闻媒体营造氛围、推动学习宣传习近平总书记重要讲话精神工作不断普及深入做出部署。垦区各级党组织通过精心组织、周密策划，上下齐动，多措并举，迅速掀起了学习宣传习近平总书记重要讲话的精神热潮。

（2）满足当 α≈0∧y=0或 α≈1∧y=1时（即所有训练数据的实际输出接近于期望输出时），C=0.

为了便于解释交叉熵损失函数的收敛性，首先计算参数w的偏导

其次将（2）式代入上式，化简后得（9）式

同理可得参数b的偏导

式中t、t+1表示迭代次数，η表示学习速率.

人工神经网络的学习过程，是通过不断迭代更新参数w和b，直到网络收敛.（6）式和（7）式为利用梯度下降算法更新参数的表示式.

2 实验对比

通过实验进一步对比两种损失函数在实际问题中的表现.实验选用MINST数据集，该数据集是一个基准数据集，被广泛使用于分类算法的测试和对比.它有60000个训练样本和10000个测试样本，每个样本是由28 x 28个像素点构成的手写数字图片，如图3所示.

图3 MINST数据集示例

实验中使用的人工神经网络是一个三层前馈式网络，其中输入层784个节点、隐藏层30个节点、输出层10个节点.由于输出层使用10个节点，因此每个样本的实际标识需要进行编码，即每个标识使用10位二进制数表示，如数字5编码之后为(0,0,0,0,1,0,0,0,0)T.实验中，学习算法采用随机梯度下降法（Stochastic Gradient Descent，SGD），其中批尺寸 batchsize为10，epoch为400.

图4显示了使用两种损失函数的上述网络，在每个训练周期内损失（Cost）值的变化情况.首先，观察变化曲线可知，使用交叉熵损失函数的网络其损失减小速度快于采用平方差损失函数的网络，并且当epoch大于10时，二者出现明显差别.因此，实验结果符合上节的分析结论，即使用交叉熵损失函数能有效加快网络收敛速率；其次，交叉熵损失函数前陡后缓变化趋势，也证明了使用该损失函数的网络前快后慢的收敛现象.

她听他说，这是天津起士林的一号西崽出来开的。想必他拣中这一家就是为了不会碰见熟人，又门临交通要道，真是碰见人也没关系，不比偏僻的地段使人疑心，像是有瞒人的事。

观察所有患者进行护理干预后发生便秘的情况，调查患者对护理的满意情况，统计护理后便秘发生率以及护理满意度。护理满意度分为相当满意、满意、不满意三种情况，护理满意度=（相当满意度+满意度）/总例数×100%。

图4 交叉熵损失与平方差损失的对比

3 结论

研究结果表明，交叉熵损失函数不但可以简化网络计算量（与平方差损失函数相比不再计算Sigmoid函数的导数），而且能够有效克服Sigmoid函数因饱和而导入网络收敛慢的问题.同时发现，虽然交叉熵损失函数对网络收敛性提升较大，但网络中参数初始化等因素对该函数的性能存在一定影响，是下一步重点研究内容.

参考文献：

[1]Michael Nielsen.Neural Networks and Deep Learning［EB/OL］.http://neuralnetworksanddeeplearning.com/index.html,2017-08/2017-10.

[2]徐学良.人工神经网络的发展及现状[J].微电子学，2017，47（2）：239-242.

[3]Simon Haykin.神经网络原理[M].北京：机械工业出版社，2004：178-190.

作者

任进军，王宁

出处

《甘肃高师学报》 2018年第02期

上一篇：秦王川灌区种植小麦对地表微环境的影响

下一篇：基于单片机的盆花智能浇水控制系统的设计

《甘肃高师学报》2018年第02期文献

基于维生素C药片中Vc含量测定自动管理系统的设计与应用作者：张海瑞，张丽，张国福

甘肃农业科技进步贡献率测算体系研究作者：魏赟，岳秋菊，杨杰

高等代数课堂教学中培养学生的科研能力一例作者：李旭东，宋雪梅，王丽

从学术形态走向教育形态：线面积分教学之分析作者：张锐，詹紫浪，李树海

师范院校体育篮球专业大学生运动员损伤调查分析与预防作者：黄小龙，吴卫军，武一康

甘肃省高校独立学院大学生课外体育活动现状分析作者：徐晓烜，王田祖

奥尔夫教学法在儿童钢琴教学中的运用作者：张瀚玉，魏琴

兰州现代服务业职教集团化办学实施情况调查与分析作者：王卓

教师教学行为规范中某些规定的现代教育学反思作者：张维英，郑新，张海钟

基于“三支柱”理论的e-HR系统建设路径探析作者：朱栩莹，赵亮

倾斜对的一个推广作者：何东林

N（2，2，0）代数的一个同余分解（3）作者：李树海，李旭东

动态规划多阶段决策过程最优化推广作者：温大伟，谢文环

Daugavet空间的R指数特征作者：夏跃华，张艳锋

Liénard系统周期解的讨论作者：臧子龙

可分离变量微分方程的人口总量预测模型作者：汪爱红

我国社会消费品零售总额的时间序列分析与预测作者：樊亮

可控微波促进AlCl3催化下二酯类化合物的环境友好合成作者：白林，刘霞，汪杰，王彦彪，王永杰

双联（Gemini）两性表面活性剂的复配性能研究作者：张建，赵苑，李昂，丁佳佳，李洵洲

负载氧化铁凹凸棒脱除硫化氢的研究作者：施祺儒，刘芳，徐飞，朱彦荣

倾斜式生长Alq3薄膜及其光学性能的表征作者：敏乾，刘子恒

温度敏感不锈钢丝分子印迹固相微萃取头的制备作者：杨彩玲，徐飞，杨文杰，郑志峰，席琦

兰州柳沟河高速公路旁侧土壤中铅污染研究及绿化对策作者：刘海霞，杨鹏，张丽，郑艳萍，刘芳

具有Holling IV型功能反应的N种群食物链离散系统的持久性作者：张玲，曲文娟

红豆杉扦插初期试验分析作者：马正才，周学义，杨在红，马明

秦王川灌区种植小麦对地表微环境的影响作者：李昂，吴应珍，叶鹤琳，张鸣，陈伟，葛承暄

人工神经网络中损失函数的研究作者：任进军，王宁

基于单片机的盆花智能浇水控制系统的设计作者：石蕊，刘永莉，刘辉

低渗油藏降压增注剂性能评价研究作者：张彩霞，仵慧宁，吴亮，权红梅

杂志信息网

人工神经网络中损失函数的研究

1 人工神经网络中损失函数的对比

2 实验对比

3 结论