更全的杂志信息网

基于深度卷积网络的多视角人脸检测研究

更新时间:2009-03-28

人脸识别是一种基于人的相貌特征等外在信息进行身份认证的生物特征识别技术,它集成了专家系统、机器学习、人工智能、模型理论、机器识别和视频图像处理等多种技术[1]。人脸检测[2]是指在图片或者视频中找到并标记出人脸的位置,是人脸识别过程中的一个重要环节。关于人脸检测的算法有很多,其中最具有代表性的是 AdaBoost算法[3],该算法对于正面以及偏转角度不大的人脸具有很好的检测效果。但是现实中的人脸容易受到姿态角度、光照、遮挡、表情等复杂因素的干扰[4],因此对于在复杂背景下多角度的人脸检测已成为目前的研究热点。卷积神经网络技术[5–9]在人脸检测、人脸关键点定位、人脸表情、人脸性别判别等领域得到广泛应用。对于多角度的人脸检测,目前主要的方法就是建立不同角度下的人脸分类检测器。文献[10]将视角划分为4个区间,然后训练得到4个分类检测器来检测人脸; 文献[11]中提出了旋转角度为[0°,20°][20°,40°]的CGM检测器检测人脸; 文献[12]提出了Alexnet网络结构; 文献[13]提出了 NIN_Cifar10模型,该模型采用了多层感知的结构来代替传统的卷积层,同时采用了全局均值池化来代替全连接层,对于正脸和非正脸都有较好的检测效果,但是采用全局均值池化计算量较大,并且引入了噪声和忽略了图像的边缘特征信息导致误检率较高。为解决此问题,在文献[13]的启发下,本文提出针对复杂背景下基于深度卷积网络的多视角人脸检测算法[14],在文献[13]和[15]的基础上改进了其网络模型,利用了动态自适应池化来代替全局均值池化[16]。相比AdaBoost等人脸检测算法,本文算法在速度和精度上都有较大的提升。

1 数据预处理

本文用到的正负训练样本数据源自AFLW数据集。AFLW人脸数据库是一个包括多角度、多姿态的大型人脸数据集。本文首先对从AFLW数据集获取到的正负训练样本进行尺寸归一化操作,统一设置图片大小 227 × 227。在训练得到正样本时,对原始的矩形框进行旋转和平移操作。如果操作之后的矩形框和原始矩形框的重叠度(IOU)大于某个阈值(设正样本阈值IOU为0.68),就认为经过采样得到一个新样本。同理,制作负样本时,设其阈值为0.15,然后对整体进行窗口滑动(设移动步长为16)。如果窗口与原始矩形框的相交面积小于设定的阈值,则判定为负样本。在步长为16的前提下,每一张图片滑动会产生大约200个窗口,最终被确定为负样本的大概有110张,如图1所示。

党的十九大报告中指出,统筹山水林田湖草系统治理,实行最严格的生态环境保护制度。加强对生态文明建设的总体设计和组织领导,设立国有自然资源资产管理和自然生态监管机构,完善生态环境管理制度,统一行使全民所有自然资源资产所有者职责。

域间二维路由协议的报文设计主要是涉及OPEN报文和UPDATE报文,剩余的KEEPALIVE报文和NOTIFICATION报文不做修改,保持与传统路由协议一致。

  

图1 正负样本例子

2 深度卷积网络模型的选取

人脸检测方法有2种: 一种是基于滑动窗口的检测方法,另一种是基于显著性方法。本文运用基于滑动窗口的检测方法来实现人脸检测,利用当前运用广泛的 caffe框架,将训练好的网络模型转换为全卷积网络,这样可以实现任意图片大小的输入。

传统的AlexNet网络采用的是2个GPU服务器并行处理,以1台GPU服务器为例做描述。该模型共有8层,其中前5层为卷积层(convolutional),后3层为全连层(full-connected),在每一个卷积层中包含了激励函数RELU以及局部响应归一化处理,然后在进行降采样pool处理。官方提供的数据模型测试结果显示,准确率达到了57.1%,top 1~5达到了80.2%。与传统的机器学习分类算法相比,该测试结果更好,但是也存在一些缺点。

在全连接层阶段,文献[13]使用了全局均值池化来来代替传统使用全连接层,在全连接层阶段由于参数数量众多,往往容易出现过拟合的现象,导致网络的泛化能力差,而作者对每一个特征图都进行全局均值池化操作,这样使得每张特征图都能得到一个输出,大大减少了参数数量以及网络模型大小,从而避免了之前模型存在的过拟合现象。但是该方法也导致了模型计算量过大。并且引入了噪声的干扰以及忽略了图片边缘等特征信息,因此导致了该模型的误识率较高。

(2) 输入图片的尺寸太大。ImageNet要求输入是224 × 224大小的图片,这也就意味着如果需要检测到最小40 × 40大小的人脸,则必须将图片放大至少5倍,这样花费的时间和内存消耗是巨大的。而对于Cifar10网络模型而言,相比前者它是轻量级的网络模型,该网络输入图片尺寸为32× 32,其中包括3个卷积层和2个全连接层,最终得到的caffemodel文件大小不足 600k,导致其分类能力不足。因此,针对以上网络分类模型存在的缺点,本文借鉴文献[13]的方法,结合 Cifar10网络模型的优点,提出了一种改进NIN_Cifar10网络模型(模型结构如图2[13]所示)。传统的网络模型是由线性卷积和非线性激活函数构成,其不能描述一个高度非线性图像的分类空间,因此考虑在每一层的网络之间添加一个具有良好非线性表示能力的“多层感知机(MlPconv)”。

病例排除标准:既往已确诊的慢性呼吸道疾病,如肺癌、肺转移瘤、间质性肺纤维化,支气管扩张症及重大心血管疾患,近1月明显的呼吸道感染。

非极大值抑制(Non-maximum suppression,NMS)在物体检测中应用非常广泛,其对一些已标记的候选框进行筛选,得到最佳的物体检测位置。如图4所示,在做人脸检测时我们可能会得到很多个人脸的候选框,但是其实这些框是完全可以进行“合并”,通过 NMS合并策略得到一个人脸的最终检测框,NMS进行合并时主要参考2个指标。

样本按“1.3”项试验条件进行气相色谱质谱分析,对应总离子流色谱图如图1所示。从图1可以看出,试验用气相色谱条件满足紫椴鲜花挥发性成分的分离要求。经气相色谱-质谱联用仪分析,用NIST05数据系统检索,分离出55个色谱峰,最终鉴定44种成分,占总面积的96.71%。挥发性成分分析及面积归一化法定量结果见表1。表1 数据说明,紫椴花主要挥发性有机成分有芳樟醇(34.37%)、β-苯乙醇(31.37%)、β-顺式-罗勒烯 (12.03%)、丁香醇A(2.00%)、反式-α,α-5-三甲基-5-乙烯基四氢化-2-呋喃甲醇(3.59%)等,占挥发性物质总量的83.36%。

  

图2 传统线性卷积层和MlPconv层

  

图3 Network in Network总体结构

 

式中: (i,j)为图片像素点的位置索引值; xi, j为卷积层特征图x的第i行第j列的数据值; k为提取特征图的索引值。

(1) 模型太大。caffermodel 大概有225M大小,这导致模型的运行需要很大的系统内存,同时模型运行时间较长。

式中: a为所有池化域元素中除最大值外的元素平均值; θ为校正误差项; Vmax为池化域中元素的最大值。

 

式中: nep为迭代的次数; ρ为特征系数,取决于池化域的边长 c和迭代次数 nep,特征系数与池化域中各项值决定了池化因子μ的取值。由表1可知,μ取值为(0,1)时,既可以在处理池化域时不丢失精度,也可以在处理其他池化域时弱化最大池化的影响,在迭代次数和不同池化域情况下能提取到精确的特征。

 

基于此,本文针对均值池化的不足之处进行了改进,即运用了动态自适应池化模型来代替全局均值池化,这种模型可以根据不同的特征图,可以动态自适应调整其池化的过程。设池化因子为 μ,偏置为b2(取值为0.6),则构建动态自适应池化算法的数学模型为:

 

式中,表示在特征图F中的大小为c × c的子采样池化域中取出的最大元素。这是动态自适应算法的基本式子,其优化的本质就是使用 μ来对最大池化算法进行优化,使其特征能够被准确的表达出。其中参数定义设置为:

 

表1 不同池化模型在个迭代次数下的误识率

  

误识率%池化模型 迭代1次 迭代2次 迭代3次平均池化 20.5 17.7 13.3最大值池化 17.8 11.8 9.6动态自适应池化 15.4 11.2 9.4

3 NMS-多窗口融合

由图 3[13]可知,多层 MlPconv的微型网络模型能够对每一个局部神经元进行更加复杂的运算。对mlpconv层的每张特征图的计算公式为

窗口交叉面积(Intersection-over Union,IOU): 当位置临近的候选框重叠面积大于某个设定的阈值时,IOU进行合并。

  

图4 NMS多窗口融合

score: 对于每一个候选框,分类器会给出一个统计分数来表示当前候选框的置信度,尽量保留置信度较高的候选框。

4 实验环境及结果分析

4.1 训练数据采集

实验中正负训练样本数据集来源于 AFLW 数据集,该数据集有 2.1万张图片,其中 59%为女性,41%为男性,大部分的图片都是彩色,只有少部分是灰色图片。其中标记了2.42万个人脸的矩形框,且每个人脸都被标注了21个特征点,包括各种姿态、表情、光照、3维旋转角度、是否遮挡,以及是否带眼镜等信息。

4.2 实验环境配置

本实验使用的计算机系统为intel i5 CPU、windows732位旗舰版、Ubuntu16.4虚拟机,其深度学习框架为 caffe,opencv 3.2.0,具备Python接口。

  

图5 在不同迭代次数下的收敛指数

4.3 实验结果分析

第1组实验比较了平均池化,最大池化,以及动态自适应池化在不同迭代次数下的收敛情况和不同迭代次数下的误识率。其中收敛指数表示的是不同迭代次数之间的均方误差的开方,其中: 误识率 = (负样本误认为正样本数/检测到正负样本总数) × 100%; 准确检测率 = (检测正样本数/正样本数量) × 100%。第2组比较了在不同网络模型下的人脸检测效率,网络模型分别为AlexNet和NIN-Cifar10。结果如表2所示。第3组实验利用本文方法进行多视角下的人脸检测,不管是单个还是多个人脸都能较好地检测结果,同时也测试了部分遮挡情况下的检测,检测效果如图6所示。

小学语文教师要提高识字写字教学的效果,除了要依托教材,还要积极探索有效的指导方法,引导学生有效地识字、写字。

从2000年起,本项目组多次在西北核技术研究所轻气炮上开展有关超高速碰撞实验研究,林俊德院士从实验设计、实验测量及结果分析方面经常给予指导和帮助。林院士为我国超高速碰撞研究做出了重要贡献,谨以此文缅怀林院士!

 

表2 部分人脸检测算法的性能对比

  

人脸检测算法 准确检测率/% 平均检测时间/s A l e x N e t模型 95.4 11.684 N I N-C i f a r 10模型 96.5 10.125本文算法 97.3 8.436

  

图6 侧脸、正脸、局部遮档等人脸检测

5 结论

本文使用基于caffe框架的深度学习进行人脸检测,较好地发挥了速度和精度上的优势。尤其是在网络模型上选择了改进的NIN-cifar10。在庞大的ALFW测试数据集上对于多视角下的人脸检测效果达到了 97.3%,同时对于人脸有部分遮挡等情况虽然具有一定的鲁棒性,但是当遮挡面积超过 1/2时,则会导致漏检率仍然比较高。

参考文献:

[1]苏建军. 人脸识别技术商业前景广阔[J]. 小康(财智),2015(7): 58–60.

[2]Wright J,Ganesh A,Zhou Z,et al. Demo: Robust face recognition via sparse representation [C]// IEEE International Conference on Automatic Face & Gesture Recognition. IEEE,2009: 1–2.

[3]Morra J H,Tu Z,Apostolova L G,et al. Comparison of adaboost and support vector machines for detecting alzheimer's disease through Automated hippocampal segmentation [J]. IEEE Transactions on Medical Imaging,2009,29(1): 30–43.

[4]Bourdev L,Malik J. Poselets: Body part detectors trained using 3D human pose annotations [C]// IEEE,International Conference on Computer Vision. IEEE,2009: 1365–1372.

[5]Le Cun Y,Bottou L,Bengio Y,et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE,1998,86(11): 2278–2324.

[6]Hansen L K,Liisberg C,Salamon P. Ensemble methods for handwritten digit recognition [C]// Neural Networks for Signal Processing. IEEE,2002: 333–342.

[7]Kirkland J. Squad-based expert modules for closing diphthong recognition [C]// New Zealand International Two-Stream Conference on Artificial Neural Networks and Expert Systems. IEEE,1995: 302–305.

[8]杨海燕,蒋新华,聂作先. 基于并行卷积神经网络的人脸关键点定位方法研究[J/OL]. 计算机应用研究,2015,32(8):2517–2519.

[9]Calder A J,Burton A M,Miller P,et al. A principal component analysis of facial expressions [J]. Vision research,2001,41(9): 1179–1208.

[10]Paul Viola M J. Rapid object detection using a boosted cascade of simple features[J]. Human Mutation,2008,8(4):394–394.

[11]Féraud R,Bernier O J,Viallet J E,et al. A Fast and Accurate Face Detector Based on Neural Networks [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2001,23(1): 42–53.

[12]Krizhevsky A,Sutskever I,Hinton G E. Imagenet classification with deep convolutional neural networks [C]//Advances in neural information processing systems. 2012: 1097–1105.

[13]Lin M,Chen Q,Yan S. Network in network [J]. arXiv preprint arXiv:1312.4400,2013.

[14]Farfade S S,Saberian M J,Li L J. Multi-view face detection using deep convolutional neural networks [C]//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. ACM,2015: 643–650.

[15]高欣欣,倪念勇,孙波. 数字图像迭代均值滤波降噪算法[J]. 湖南文理学院学报(自然科学版),2017,29(2): 54–57.

[16]刘万军,梁雪剑,曲海成. 不同池化模型的卷积神经网络学习性能研究[J]. 中国图象图形学报,2016,21(9): 1178–1190.

 
林祥,曾智超
《湖南文理学院学报(自然科学版)》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号