快捷分类

基于全卷积网络的目标检测算法

更新时间：2009-03-28

0 引言

在迈向更为复杂的图像理解中，需要的不仅是图像里有什么物体，更需要知道物体的具体位置，因此目标检测就显得尤为重要[1]。相比于特定目标的检测，如人脸检测、行人检测、车辆检测，通用目标检测需要检测的物体类别众多，类别之间距离大，难度大大增加，以至于传统的滑动窗口加分类器的一般检测流程难以驾驭。近年来，深度学习[2]不断在图像识别上取得突破，受到国内外研究人员的高度关注。自2013年以来深度学习开始应用到目标检测领域。相比于图像识别任务，目标检测任务更为复杂。首先，一幅图像中通常不只一个目标出现。其次，目标检测需要精确的包围框(bounding box)定位目标并对其进行分类。现有基于卷积神经网络[3]的目标检测算法普遍网络结构臃肿，要实际应用还需克服速度慢、模型参数巨大等不足。为此，提出一种基于全卷积结构的目标检测算法。

1 相关工作

早期的HOG+SVM或者DPM等传统算法[4-8]，都是采用手工设计特征、滑动窗口加简单分类器的设计，在行人检测、人脸检测等单目标检测中效果较好，但是对多目标检测则比较局限。卷积神经网络由于其强大的表达能力，近年来在目标检测领域表现大大超越了传统算法。基于深度学习的目标检测算法可以分为两大类，一类是基于可能区域，另一类是基于直接回归。

2013年Girshick R等提出基于可能区域的RCNN算法[9]，先采用其他算法提取可能的目标区域，再用卷积网络对每个区域进行特征提取与边框回归，由于可能区域数目较大，每个区域都需要进行一次前向传播，算法效率十分低下。2015年Girshick R等针对RCNN的这一缺点，提出了Fast RCNN[10]，使用感兴趣区域池化层(ROI pooling)，在特征图(feature map)上对每个区域进行特征选择，得到统一长度的特征后合并，统一送入后续网络。2015年Ren S等提出了Faster RCNN[11]，进一步将可能区域的提取集成到网络中，设计了预定义框(anchor)机制，使得检测任务变成端到端，不需要额外的可能区域的提取过程。

2016年Redmon J等提出了基于回归的YOLO算法[12]，针对基于可能区域的方法速度慢这一问题，采用回归的方法，直接回归出目标的BBox与类别，牺牲了一部分精度，但是速度更快。由于使用了全连接层输出预测结果，YOLO模型的参数巨大。

2015年Long J等提出基于全卷积网络的图像分割算法[13]，证明了全卷积网络在图像分割中的有效性。

(2)全连接层参数多，而卷积层参数少，不容易过拟合。

2 算法原理

2.1 算法概述

不同于YOLO的是用卷积层代替全连接层做预测输出。如图1(a)，YOLO采用全连接层(FCDet层)进行回归预测，通过对下层信息的融合直接输出目标的BBox和类别信息。而文中算法采用anchor机制，用卷积层(ConvDet层)输出目标信息，如图1(b)。

算法采用基于回归的方法，直接以图像为输入，通过优化给定的目标函数，网络可以预测输出图像中目标的类别与BBox，是一种端到端的结构。这种结构的主要优点是速度快。

2.2 全卷积网络

卷积神经网络是人工神经网络的一种，在图像领域具有广泛的应用。一般的卷积神经网络包括卷积层、池化层、全连接层。而全卷积网络，只包含卷积层和池化层。全卷积网络的优点包括：

图1 模型对比

算法的损失函数是一个多任务损失函数，包括边框回归、anchor得分回归，还有分类的交叉熵损失。

基于可能区域的方法精度较高，但是网络复杂臃肿，速度慢。基于直接回归的方法虽然牺牲了部分精度，但是速度快，更能满足实际应用的实时性需求。文中提出的算法是采用直接回归的方法，不同于YOLO的是采用了全卷积结构，减小了模型的参数量和过拟合的风险，同时借鉴了Faster RCNN的anchor机制，设计了一个多任务的损失函数，减小直接回归的难度。

(3)全卷积网络能适应不同的输入大小。

2.3 预定义框机制

预定义框机制是在卷积输出的特征图上的每个像素位置上设置一组不同大小、不同长宽比的预定义框，如图2所示。通过选择与目标IOU最大的一个预定义框进行目标函数优化。ConvDet层将在每个像素位置同时输出各个预定义框的位置和尺寸的调整量(δx,δy,δw,δh)，是否含有目标的分数Score，还有属于各个类别的概率Class。最后通过非极大值抑制(non-maximum suppression)得到最终的目标检测框。文中算法通过对训练集的标签框做K均值聚类(k-means clustering)得到9个预定义框。

图2 预定义框机制

2.4 损失函数

(1)全连接层对特征图上每个像素点同等对待，提取了全图信息，包括背景信息。而全卷积的特征图上每个像素只提取了其对应的图像感受野内的信息，减少了无关背景的干扰。

(1)

Lbbox部分处理边框回归。其中，λbbox是该部分损失的权重系数；Nobj是出现的目标个数；K是anchor的个数；Ik∈{0,1}指示了与目标IOU最大的anchor，只取IOU最大的anchor参与loss计算；X是一个四维向量(δx,δy,δw,δh)，是anchor的修正量。

IOU(intersection over union，交并比)，AP(average precision，平均准确率)，mAP(mean average precision，平均准确率均值)是评价目标检测算法的三个主要参数。IOU表示目标的检测框与目标的标签框交面积与并面积的比率。AP和mAP的计算公式如下：

Lscore回归每个anchor是否含有目标的可能性等于anchor与目标BBox的IOU。若一个anchor与目标BBox的IOU越高，表示该anchor含有目标的可能性越高。

Lclass是交叉熵损失函数。其中，表示该anchor属于第c类；pc∈[0,1]是通过Softmax后的类别分布。

3 实验

3.1 实验数据库

我一边说着，一边得意地递给女人一张名片，女人看着名片睁大眼睛说：“原来这画展是你办的，你太了不起了！”

3.2 评价标准

结合本题，需要确定四个点，因为问题与图形大小无关，只需确定图形的形状.在△ACD中，分析条件可知∠ACD=∠CAD=11°，∠ADC=138°，则△ACD的形状可以确定，即可确定A、C、D三点.唯有点B不能确定，因此，可明确本题就是构造点B.

1.3 统计分析将患者病理结果、随访结果与当初CT 室、PET/CT 和多科（CT 室、PET/CT、呼吸内科、胸外科医生）MDT讨论后的结果进行对照，采用SPSS 19.0统计软件进行统计分析。计数资料组间比较采用χ2检验，以P＜0.05为有统计学意义。计算HRCT、PET/CT、及二者联合诊断SPN良恶性准确率。准确性(%)=(真阳性人数+真阴性人数)/总人数×100。

实验采用VOC2007和VOC2012目标检测数据库[14]，含有二十类物体。VOC数据库分为训练集、验证集和测试集，只允许用训练集和验证集做训练，不允许使用外部数据。训练集总共有16 541张图片，并在VOC2007的测试集上进行测试。

(2)

(3)

其中,b为检测框;bgt为标签框;N为测试集的标签框总数;C为类别数20。

综上，沙利度胺联合GP方案治疗晚期乳腺癌的近期疗效较好，可调节患者血清Th1/Th2细胞因子水平，纠正Th1/Th2失衡，并且不会明显增加对肾功能的损伤，值得临床参考。

零中频接收机虽然结构简单,但也存在着一些问题[5],最明显的两个问题是I/Q失配导致误码率增加,以及直流偏移导致信噪比降低。直流偏移也是零中频结构没有被广泛采用的重要原因之一。

3.3 结果分析

在VOC2007测试集上的测试结果见表1。可见，文中算法的速度约是Faster RCNN的7.5倍，平均准确率和速度均超过了基于回归框架的YOLO。检测结果见图3。

到2025年前适龄人口呈现相对减少的趋势，适龄人口的减少直接降低了高等教育对象的规模，对高等教育的发展带来一定的冲击，同时这也是江苏省高等教育改革的重要契机。江苏省应适当控制高等教育规模扩大的发展速度，努力提高高等教育的质量，注重高等教育人才的全方面的培养，增设项目科研研究内容，培养大学生的就业技能。

表1 实验结果

算法训练集mAPFPSFaster-RCNN0712train+val73.24.6YOLO0712train+val63.430文中算法0712train+val64.535

3.4 模型参数分析

Faster RCNN与YOLO的网络结构均采用了全连接层，其中全连接层分别占了约80%与72%的参数。而文中算法采用全卷积结构，模型约为Faster RCNN的四分之一，YOLO的十分之一，仅为103 MB。表2对比了各个算法的模型大小。

表2 模型大小

算法基础网络模型大小/MBFaster-RCNNVGG16[15]485YOLO24Conv+2Fc1126文中算法Res50[16]103

图3 部分检测结果

4 结束语

为解决现有目标检测算法模型参数大、速度慢等缺点，提出一种基于全卷积网络的目标检测算法。该算法利用预定义框机制，用卷积层代替全连接层进行结果预测，大大降低了模型参数数目，提高了检测效率。下一步的工作可以设计更佳精简的基础网络，进一步提高模型的预测速度。

参考文献:

[1] 尹宏鹏,陈波,柴毅,等.基于视觉的目标检测与跟踪综述[J].自动化学报,2016,42(10):1466-1489.

[2] 孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810.

[3] 李彦冬,郝宗波,雷航.卷积神经网络研究综述[J].计算机应用,2016,36(9):2508-2515.

[4] 赵丽红,刘纪红,徐心和.人脸检测方法综述[J].计算机应用研究,2004,21(9):1-4.

[5] 贾慧星,章毓晋.车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述[J].自动化学报,2007,33(1):84-90.

[6] 李文波,王立研.一种基于Adaboost算法的车辆检测方法[J].长春理工大学学报:自然科学版,2009,32(2):292-295.

[7] FELZENSZWALB P, GIRSHICK R, MCALLESTER D,et al.Visual object detection with deformable part models[C]//Computer vision & pattern recognition.Washington,DC,USA:IEEE Computer Society,2010:2241-2248.

[8] 曾接贤,程潇.结合单双行人DPM模型的交通场景行人检测[J].电子学报,2016,44(11):2668-2675.

[9] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Computer vision and pattern recognition.Washington,DC,USA:IEEE Computer Society,2014:580-587.

[10] GIRSHICK R.Fast R-CNN[C]//International conference on computer vision.Washington,DC,USA:IEEE Computer Society,2015:1440-1448.

[11] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[C]//Proceedings of the 28th international conference on neural information processing systems.Cambridge,MA,USA:MIT Press,2015:91-99.

[12] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//IEEE conference on computer vision and pattern recognition.Washington,DC,USA:IEEE Computer Society,2016:779-788.

[13] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(4):640-651.

[14] EVERINGHAM M,VAN GOOL L,WILLIAMS C K I,et al.The PASCAL visual object classes challenge[J].International Journal of Computer Vision,2010,88(2):303-338.

[15] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-04-10)[2017-06-13].https://arxiv.org/abs/1409.1556.

[16] HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C]//Computer vision and pattern recognition.Washington,DC,USA:IEEE Computer Society,2016:770-778.

作者

施泽浩，赵启军

出处

《计算机技术与发展》 2018年第05期

上一篇：基于AHP的大数据可用性及挖掘方案模型研究

下一篇：基于博弈论的ALM协议改进算法

《计算机技术与发展》2018年第05期文献

大数据下数据预处理方法研究作者：孔钦，叶长青，孙赟

基于最小二乘法和BP神经网络的TOA定位算法作者：浦佳祺，陈德旺

基于权重自适应形态学的周期性噪声去除方法作者：戴丹，张兴刚

一种基于标签的程序控制流错误检测方法作者：姚伟，顾晶晶

基于文本属性的微博用户相似度研究作者：李梦洁，邵曦

融合信息熵和加权相似度的协同过滤算法研究作者：李玲，王移芝

基于弱特征重识别的多目标长效摘要作者：石亚玲，刘正熙，熊运余，李征

基于模型的IMA时间资源配置验证方法研究作者：王明明，胡军，张维珺，李宛倩

基于兴趣度度量的正负关联规则挖掘方法研究作者：马彦勤，武彤，邓烜堃

一种基于深度残差网络的车型识别方法作者：刘敦强，沈峘，夏瀚笙，王莹，贾燕晨

基于分项可变权函数的各项异性去噪模型作者：王锐锐，蔡光程

基于AHP的大数据可用性及挖掘方案模型研究作者：杨明，李铁冰，姜茸，高提雷，王佳

基于全卷积网络的目标检测算法作者：施泽浩，赵启军

基于博弈论的ALM协议改进算法作者：蔡媛媛，曹自平，张金娅

改进的新型蝙蝠算法作者：吕赵明，张颖江

基于节点兴趣非结构化P2P网络搜索机制研究作者：庄伟

自适应学习系统中“KCP学习者模型”研究作者：李春生，张永东，刘澎，张可佳

基于主成分特征的快速分形图像压缩算法作者：张爱华，唐婷婷，汪玮玮，张璟

基于量子粒子群优化的DV-Hop算法研究作者：张中芳，张玲华

无线感知网络中动作识别的滤波算法作者：吴春香，张建明

基于社交网络分析的诈骗团体挖掘方法研究作者：贾志娟，赵靓，周娜

一种高性能计算网络下的TCP查找哈希算法作者：张立武，冯宝，周建华，李洋，茅天奇

一种基于预判筛选的频繁项集挖掘算法作者：李德辰，吕一帆，赵学健

基于人工鱼群算法的改进质心定位算法作者：汪晨，张玲华

基于智慧实验室的安全事故分析与预测作者：楚丹琪，李睿智，高洪皓，张康

基于龙芯处理器的嵌入式可信解决方案作者：易平，庄毅

基于位置推荐中的隐私保护方法研究作者：张海涛，汪佩佩

面向OSPF脆弱点的分节点污染方法研究作者：周季璇，顾巧云，凤丹

基于计算机软硬件的视频监控系统设计与研究作者：黄岩

多服务器环境下动态身份认证密钥协商方案作者：曹阳

杂志信息网