更全的杂志信息网

基于轻量型卷积神经网络的图像识别

更新时间:2016-07-05

自2006年Hinton在Science上提出深度学习[1]以来以及计算机硬件的飞速发展(如GPU),基于深度学习的特征提取方式引起了研究者的广泛关注,在图像处理领域已经取得了重大突破[2]。卷积神经网络通过多个卷积层与池化层的交替变换对输入图像进行特征提取并得到特征向量,在一定程度上具有平移、尺度不变性。

在一定程度上,卷积神经网络层次的深浅往往能决定网络的分类精度。若卷积神经网络层级较浅,可能提取不到具有表征性的特征向量从而导致性能不高;但随着网络层次的加深,网络参数以及整体复杂度都会增加,可能导致过拟合问题或难以收敛等问题。本文提出的轻量型卷积神经网络,在有效缓解过拟合以及降低网络参数的前提下,加深了网络的深度,与同规模模型相比,性能更优。

1 卷积神经网络

1.1 卷积神经网络的发展

最早的卷积神经网络模型是LeCun等人在1998年提出的LeNet5[3]网络模型,该模型由两个卷积层和池化层交替以及最后的全连接层组成。由于该网络层次较浅、目标类别数较少并且背景单一等原因,导致网络在识别其它类别数多和背景复杂的图像时分类精度并不高。Krizhevsky 等人设计了AlexNet[4]网络以领先于第二名10%以上的精度获得了2012LSVRC比赛的冠军,是深度学习在图像分类上的巨大成功。在2013年,Min Lin提出的Network in Network[5]首次提出用1×1的卷积核。在2014年Szegedy等人用GoogleNet[6]网络进行图像分类,提出了并行卷积的Inception模块,并且取得了当年ILSVRC比赛分类精度第一的成绩,但是网络规模巨大,不仅对硬件设备要求高并且收敛缓慢。受Network in Network的启发,谷歌团队提出了计算瓶颈并将1×1卷积核应用到Inception模块中,得到了多个改进的Inception模型。在2015年,He K等提出了MSRA-Net[7],主要是将5×5的卷积核拆成两个3×3的卷积核,既减少了计算量也增加了深度,从而提升网络性能。同年,He K等还提出了ResNet[8]网络,网络通过对残差进行学习能大大提升性能,在同年的ILSVRC比赛中取得了冠军。在2016年,出现了一个名为SqueezeNet[9]的超轻量网络结构,该模型的参数数量极少并且精度和AlexNet相当。本文的轻量型思想也受此启发。

1.2 卷积神经网络的工作原理

卷积神经网络的分类过程可以分为两部分,即训练和测试。网络的训练从本质上来说是监督学习过程,该过程又可分为两部分,即前向计算与误差反向传播[10],网络前向计算是逐层计算输出,中间层的输出又作为下一层的输入,最后由全连接层得到特征向量并用Softmax分类器进行分类;误差反向传播是通过误差由后往前来逐层更新权值和偏置等参数。网络通过前向计算与误差反向传播的不断交替来极小化误差,直至训练结束;网络在测试时,则只通过前向计算,得到最终的特征向量进行分类。

网络由卷积层的局部感受野并采用权值共享的方式对上层图像进行卷及操作并提取特征,然后通过激活函数得到卷积层的输出,可由公式1得到:

(1)

其中,是上层输出,是卷积核权值,“×”代表卷积操作,是该层的偏置,f(.)是激活函数。

网络通过池化层把上层输出的特征图中相邻像素简化成一个像素,以此来降低特征图维度。池化层的输出可由公式2得到:

可以看出,改进的方式是先用大小不变,数量较少的卷积核进行卷积,再通过并行的方式用1×1和3×3的卷积核进行卷积操作,最后把两部分输出整合在一起。改进前的网络输入为256个特征图,输出为384个特整图,卷积层参数数量为:P=256×3×3×384=884736。改进的原则是使输出的特征图维度与数量保持不变,可以看出改进后输出仍为384个特征图,并且可以通过设置pad保证特整图维度不变。改进后的好处是增加了网络的深度,并且用大小不同的卷积核保证了特征提取的充分性与多样性。若两条通道整合时采用级联的方式,则该层参数数量为:P=256×3×3×128+128×1×1×192+128×3×3×192=540 672。若采用融合的方式,则该层参数数量为P=256×3×3×128+128×1×1×384+128×3×3×384=786 432。两种方式在一定程度上都可减少该层参数数量。

今后中级维修技师需掌握机械钳工、液压机电、电子通信等技术,高级维修技师需掌握一般诊断技术,技师需掌握高深诊断技术。今后国企与民企共存,4S店与综合汽修厂共存,大规模汽修厂与连锁保养店共存,由于技术资料公开、备件公开,综合汽修厂的实力将逐渐增强。汽车维修量的增长将由一线(北上广深)、二线(省城),向三线(地级)、四线(所有)城市转移。汽车修理哪家强,就看诊断技术谁能担当,诊断技术能力强的维修企业客户资源必然多于诊断能力弱的维修企业。

(2)

网络通过全连接层把二维特征图转化为一维特征向量,在通过分类器进行分类。全连接层的输出可由公式3得到:

其中,是池化层的权值,down(.)是下采样函数,是上层输出,是偏置项,f(.)是激活函数。

xi=f(ωixi-1+bi)

(3)

其中,ωi是全连接层的权值,xi-1是上层输出,bi是偏置参数,f(.)是激活函数。

网络的平均误差代价函数可由公式4得到:

王宇[10]等借助焓差试验台测试了5个不同环境温度条件下空气源热泵热水器的非用水及用水过程能效系数,并按照标准年日平均温度分布划分了5个温度区间,分别以已经测试的5个工况中用水加热阶段的能效表征每个温度区间的运行性能,考虑日用水制热量和寒冷程度对用水频率的影响,评价了寒冷地区、夏热冬冷地区及夏热冬暖地区的全年运行综合能效。结果表明,夏热冬暖地区空气源热泵热水器最具适用性,寒冷地区同样具有应用潜力。

(4)

其中,N为样本数量,C为类别数。在实际操作中,为了防止过拟合,会加入正则化项。

网络中的权值更新可由公式5得到(同理,偏置的更新也如公式5):

(5)

其中,M1M2分别为卷积层的输入与输出特征图数量,K为卷积核的面积。为了简化计算,公式6未考虑偏置参数和Dropout的影响。从表一中可以看出,网络的参数主要集中在最后的全连接层,最后一个全连接层的神经元个数根据数据集的类别而定,故由原来的1 000变为256或101。

2 基于轻量型卷积神经网络设计

2.1 AlexNet网络

数据集介绍:实验所用的数据集是caltech256和101_food。Caltech256包含了257个类别的图片,其中有一类是背景类,在本文的操作中,去除了背景类,并随机把每类按4:1的比例分为训练集与测试集,最终得到23919张训练图片和5862张测试图片。101_food数据集包含了101类食物,共有101 000张图片,每类食物都有1000张图片,其中,750张图片用于训练,剩余的250张图片用于测试。共得到75 750张训练图片与25 250张测试图片。

AlexNet网络是Krizhevsky等提出的, 并获得了2012年ILSVRC比赛的冠军。AlexNet网络的创新之处有:增加了卷积层的层数并增加了每层卷积核的个数来提取更本质的特征;采用线性修正单元Relu激活函数代替了Sigmoid函数来加速网络收敛,并有效防止梯度消失[11]等问题;为了避免过拟合现象,在全连接层使用了Dropout[12]技术;为了解决图片数量较少的问题,提出数据增强的方法。

AlexNet整体结构也如图一所示,只是层次更深,前几层主要是卷积层以及池化层的交替,靠近输出的最后三层是全连接层,网络的整体参数设置如表1所示。

表1 AlexNet网络参数设置

操作类型卷积核大小/步长/pad输出维度参数数量Input—227×227×3—Conv1/LRN11×11/4/055×55×9634848MaxPool13×3/2/027×27×96—Conv2/LRN5×5/1/227×27×256614400MaxPool23×3/2/013×13×256—Conv33×3/1/113×13×384884736Conv43×3/1/113×13×3841327104Conv53×3/1/113×13×256884736MaxPool33×3/2/06×6×256—Fc1—409637748736Fc2—409616777216Fc3—256/1011048576/413696

表一中网络的参数数量是根据公式6得到的:

P=M1×K×M2

第五,在文艺思想方面的交流。 士僧交往,习禅之风盛行,必然对士大夫们的文艺思想产生很大的影响,譬如王士祯的“神韵说”。 他在《香祖笔记》中说:“舍筏登岸,禅家以为悟境,诗家以为化境,诗禅一致,等无差别。” 王士祯虽说到“严沧浪以禅喻诗,余深契其说,而五言尤为近之”,受到严羽“羚羊挂角,无迹可求”、司空图“不着一字,尽得风流”以及王惟、孟浩然等前辈以禅论诗的影响,但是究其生平,他喜与僧人交往,智朴是交往最密切的一位了,智朴对他文艺思想的影响值得关注。

(6)

其中,ωi-1是待更新的权值,α为学习率大小。

“除了划定常年禁渔区外,从今年开始,我们还将全县84条河流列入季节性禁渔区,千岛湖全域均实现了禁渔。”淳安县渔政局局长吴福建说。

2.2 轻量型网络架构

图1给出了AlexNet网络第三个卷积层示意图,图2给出了改进后的卷积层示意图:

图1 AlexNet卷积结构

图2 改进后卷积结构

单因素分析发现DFI、原发肿瘤是否得到完整切除、转移瘤的切除性质、是否存在淋巴结转移、术后是否接受辅助化疗是肺转移瘤术后影响生存率的因素(P<0.05)。见表1。

壳聚糖酶的最适温度主要在30~60 ℃之间。Johnsen等从Janthinobacterium sp. 4239中分离出一种冷活性壳聚糖酶在10~30 ℃条件下可以保留30%~70%的酶活性。大多数被报道的壳聚糖酶在自然界中都是嗜温的,然而热稳定的壳聚糖酶很少有报道。众所周知,耐高温的壳聚糖酶在工业生产中有很多优势,高温条件下,反应进程加快,液体黏度降低,微生物污染率也会降低。Chen等报道了从A. fumigates中分离的一种壳聚糖酶,80 ℃下半衰期为205 h,90 ℃下为1 h,100 ℃下为32 min,这种具有热稳定性的酶在工业生产的应用上更具有优势[18]。

网络的整体架构是用图三的卷积结构来代替AlexNet网络中的卷积层,并用BN[13]层代替原有的LRN层,其余层保持不变。加入BN层的好处是减少对初始化的依赖,学习率设置高一点也影响不大,使梯度传递更为顺畅,并在一定程度上防止网络过拟合。但是加入BN层会增加网络的计算量,使网络的训练变得相对缓慢。BN层的计算公式可由公式7得到:

(7)

2.3 模型设置

其它设置:在caltech256上训练时,初始学习率大小设置为0.005,gamma设置为0.1,stepvalue设置为24000和48000,最大迭代次数设置为60000,dropout_ratio设置为0.5,测试时batch_size设置为50;在101_food上训练时,初始学习率大小设置为0.005,gamma设置为0.1,stepvalue设置为40 000、80 000和120 000,最大迭代次数设置为150 000,dropout_ratio设置为0.5,测试时batch_size设置为50。

表2 轻量型级联网络的整体结构设置

操作类型卷积核大小/步长/pad/数量输出维度参数数量Input—227×227×3—Conv1/BN11×11/4/0/9655×55×9634848MaxPool13×3/227×27×96—Conv2/BNConv2_1/BNConv2_2/BN5×5/1/2/963×3/1/1/128(concat)1×1/1/0/128(concat)27×27×2563532800MaxPool23×3/213×13×256—Conv3/BNConv3_1/BNConv3_2/BN3×3/1/1/1283×3/1/1/192(concat)1×1/1/0/192(concat)13×13×384540672Conv4/BNConv4_1/BNConv4_2/BN3×3/1/1/1283×3/1/1/192(concat)1×1/1/0/192(concat)13×13×384688128Conv5/BNConv5_1/BNConv5_2/BN3×3/1/1/963×3/1/1/128(concat)1×1/1/0/128(concat)13×13×256454656MaxPool33×3/26×6×256—Fc1—409637748736Fc2—409616777216Fc3—256/1011048576/413696

基于轻量型融合网络的整体结构设置也如表二所示,只是把并行输出的整合方式从级联(concat)换成融合(fuse),并把对应的并行通道卷积核数量翻倍(保证特征图输出数量不变)。

3 实验

3.1 实验设置

本文提出的级联与融合的轻量型卷积网络是在AlexNet网络的基础上进行改进,因此,首先介绍AlexNet网络。

预处理:本文预处理主要包括尺度归一化、去均值以及图像扩增。首先,把两个数据集的图片大小都缩放为256×256,并在训练之前去均值,最后,使用AlexNet网络的图像扩增技术,即把所有图片分别从左上角,右上角,左下角和右下角以及中间随机裁剪为227×227大小,并进行水平翻转。这样做的好处是把数据集扩增为原来的10倍,在一定程度上可以防止过拟合并增加泛化能力。

实验环境:实验过程所有的网络结构是用caffe框架[14]来部署的,各模型的实验结果都是在i7-6700K四核CPU、Ubuntu14.04操作系统、32GB内存以及NVIDIA-GTX 1070的GPU上完成的。

基于轻量型级联网络的整体结构设置如表2所示。

这一时期,风景园林的各项行业法规及政策极大地促进了产业快速良性发展,并且扩大了行业覆盖范围,丰富了风景园林行业内涵。

3.2 实验结果及分析

主要对比了经典AlexNet网络,AlexNet网络加上BN层以及改进之后的级联与融合网络的性能优劣。表3以及表4分别给出了各模型在caltech256和101_food数据集上的性能。

表3 各模型在caltech256上的性能

网络模型参数数量(Conv)参数数量(FC)分类精度(%)训练时间(min)AlexNet37458245557452851.855AlexNet+BN37458245557452854.278MyNet_concat20715845557452854.691MyNet_fuse28088645557452855.7112

表4 各模型在101_food上的性能

网络模型参数数量(Conv)参数数量(FC)分类精度(%)训练时间(min)AlexNet37458245493964856.7184AlexNet+BN37458245493964859.9247MyNet_concat20715845493964861.9297MyNet_fuse28088645493964862.7375

图3以及图4分别给出了各模型在caltech256和101_food数据集上准确率曲线。

图3 各模型在caltech256上的准确率

图4 各模型在101_food上的准确率

从表3以及表4中可以看出,在caltech256和101_food上AlexNet网络分别达到51.8%和56.7%的准确率;加入BN层之后,网络的分类精度有了一定提升,分别达到54.2%和59.9%,但同时,BN层会增加一定计算量,因此训练时间有所增加;轻量型级联网络的分类精度能够进一步提升,而且能够大量减少卷积层参数,但因为每个卷积层后都加有BN层与激活层,因此训练时间也进一步增加;轻量型融合网络的分类精度最优,分别达到了55.7%和62.7%,和AlexNet相比有了较大提升,并且也减少了卷积层参数,但同时因为网络中BN层与激活层的计算量也最多,因此训练时间也最长。

(4)热分解重镁水溶液过程中,无定形物首先转化成亚稳态的棒状晶体,溶液浓度或热解时间等条件发生改变时,棒状晶体表面或整个棒状结构会发生溶解重新形成无定形颗粒,最终形成多孔棒状4MgCO3·Mg(OH)2·3H2O。

与校友企业合作,既隶属于校友工作,也隶属于校企合作工作。在校友工作中,与校友企业合作,可以构建“校友—学校”双向服务机制,提升校友对母校的归属感、依赖感和校友工作的可持续性。在校企合作中,与校友企业合作,可以提升校企合作的广度和深度,提高校企合作效能。因此,与校友企业合作,既有利于校友工作,也有利于校企合作工作,是二者耦合运行的桥梁。

整体来看,改进后的网络减少了大量的卷积层参数(AlexNet的参数主要集中在全连接层)并增加了网络的深度和宽度,虽然会增加更多的BN层以及激活层计算量导致相同迭代次数下训练时间变长,但是网络的分类精度更优。

4 结束语

本文通过对经典AlexNet网络进行分析并提出改进方法,提出了两种轻量型的网络模型,在减少网络参数的同时增加了特征提取的多样性并增加了网络深度和宽度;同时,为了防止过拟合,将AlexNet网络中的LRN层用BN代替,最后在caltech256以及101_food数据集上进行了测试,结果表明本文提出的网络性能更优。本文的主要工作是在增加网络深度的同时降低了网络的参数,提升了网络性能,这对卷积神经网络在图像识别领域是很有意义的。后续的工作是继续对网络结构进行改进,比如对并行通道的两部分输出继续进行轻量型改进、应用全局池化方式降低全连接层参数以及与其它提升网络性能的方法相结合如多尺度和多通道网络等,同时,在更大规模的数据集如ImageNet上测试优化来增加网络的泛化能力,并应用到其它领域如目标检测和图像分割等。

参考文献

[1] HINTON G E, SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786):504.

[2] 王媛媛,周涛,吴翠颖. 基于卷积神经网络的PET/CT多模态图像识别研究[J]. 电视技术, 2017, 41(3):88-94.

[3] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.

[4] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. CurranAssociates Inc. 2012:1097-1105.

[5] LIN M, CHEN Q, YAN S. Network In Network[J]. Computer Science, 2013.

[6] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]. IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2015:1-9.

[7] HE K, SUN J. Convolutional neural networksat constrained time cost[C]. Computer Vision andPattern Recognition. IEEE, 2015:5353-5360.

[8] He K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016:770-778.

[9] IANDOLA F N, HAN S, MOSKEWICZ M W, et al. SqueezeNet: AlexNet-level accuracy with50x fewer parameters and <0.5MB model size[EB/OL].[2016-02-24].http://diyhpl.us/~bryan/papers2/ai/machine-learning/comprehensibility/SqueezeNet:%20AlexNet-level%20accuracy%20with%2050x%20fewer%20parameters%20and%20%3C0.5%20MB%20model%20size%20-%202016.pdf.

[10] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning internal representation by back-propagation of errors[J]. Nature, 1986, 323(323):533-536.

[11] HOCHREITER S. The vanishing gradient problem during learning recurrent neural nets and problem solutions[M]. World Scientific Publishing Co.Inc., 1998.

[12] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4):212-223.

[13] IOFFE S, SZEGEDY C. Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. Computer Science, 2015.

[14] JIA Y, SHELHAMER E, DONAHUE J, et al.Caffe: Convolutional Architecture for Fast Feature Embedding[C]. ACM International Conference on Multimedia. ACM, 2014:675-678.

杨远飞,曾上游,周悦,冯燕燕,潘兵
《电视技术》 2018年第03期
《电视技术》2018年第03期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号