更全的杂志信息网

基于浅层残差网络的视线估计算法

更新时间:2009-03-28

0 引 言

视线估计是预测视线方向、 定位注视点位置的过程。该领域研究者经常用眼球跟踪(Eye Tracking)、 视线跟踪(Gaze Tracking)和视线估计(Gaze Estimation)等术语相互替换。近几十年, 视线估计都是比较活跃的研究课题, 已经开始应用于人机交互、 虚拟现实、 生理心理疾病诊断等方面[1]

由于视线估计方法主要基于对相关信号的检测, 因此对硬件条件和使用环境的要求很严格。随计算机视觉和相关算法理论的进步, 研究人员开始对基于表观的方法进行研究, 通过对图像的分析实现视线估计。其中, 结合卷积神经网络(CNN: Convolutional Neural Network)的研究成为了一个新兴领域[2]

传统固态发酵酿醋制醋醅采用固态分层发酵,现在基本都是以防水水泥制成的长条形醅池代替大缸,也从人工翻醅替换成翻醅机操作。涉及的设备有行车、翻醅机、醅池及吊车抓斗等。史荣炳[36]发明了一种通过机械结构实现自动翻醅的装置。

卷积神经网络是以卷积层为基本操作的深度神经网络, 由于卷积层、 池化层和全连接层之间有不同的组合方式, CNN发展出了多种结构, 基于CNN的视线估计算法可避免大量的预处理和显性特征提取过程, 但准确性还不能满足实际需求。为提升算法的准确性, 研究主要分为两个不同方向。一个是在数据层面进行改进, 如提高图像质量, 细分图像的种类和数量等, 通过增加数据的精确度提高视线估计的准确度。由Krafka等[3]提出的可用于移动终端进行视线估计的iTracker软件, 就是基于这一方向的改进。另一个方向则是在算法结构层面进行改进, 提升算法本身的性能。Zhang等[4]提出的基于LeNet-5结构的算法是该研究方向的代表算法之一。相比之下, 前者仍旧存在对硬件的严重依赖, 而后者显然更适用于实际环境。因此, 改进算法结构的方式近几年获得了更多关注。

为提高在自然状态下的视线估计准确性, 笔者提出基于浅层残差网络结构的视线估计。残差网络具有对数据进行重复利用的特性, 能对不同层次提取到的特征进行融合与计算。通过MPIIGaze数据库的实验结果表明, 该网络结构在相同条件下, 获得了更高的准确度。

1 基本知识

  

图1 视线估计技术Fig.1 Technology of gaze estimation

卷积神经网络是一种比较特殊的人工神经网络[5]。由于对二维数据具备强大的适应能力, 以CNN为核心的算法在包括人脸识别[6]、 文字识别[7]、 场景和物体识别[8]和语义分析[9]等领域得到了广泛的应用。目前应用最广泛的是LeNet-5结构[10]。随理论研究的不断深入, 各种新的CNN结构不断提出, 而深度残差网络[11](DRN: Deep Residual Network)就是其中之一。笔者将浅层残差网络应用于视线估计, 视线估计技术基本工作原理如图1所示。

1.1 LeNet-5结构

LeNet-5结构是第一个成型的CNN结构, 其结构如图2所示。作为CNN的基础结构, LeNet-5具备了CNN的全部基本要素: 卷积层、 池化层与全连接层。该结构是为了自动识别手写数字而提出的, 具备占用内存少、 计算速度快和准确率高的特点。

不具备条件情况下,可采用在水稻收获前套播小麦,然后收获水稻秸秆切碎覆盖还田。要求在水稻收获前3天内稻田套播小麦,套种时套施基肥。在秸秆全田匀铺的基础上,及早进行机开沟覆土压草盖籽,防止秸秆镂空透风跑墒影响小麦出苗。

  

图2 LeNet-5结构Fig.2 Structure of LeNet-5

在2015年, 马克思-普朗克信息研究院的Zhang等[4]发布了MPIIGaze数据库, 并使用基于LeNet-5结构的算法进行对比实验。该网络结构的计算准确度要好于随机森林(Random Forest)、 支持向量机(SVM: Support Vector Machine)等方法, 但仍然存在较大误差角。其实验结果充分说明了CNN在视线估计方面的潜力, 但其计算的准确度有待提高。

1) 有利于各国就协调权的行使达成良好的默契。既然搜救国协调权本身并不单纯是一个法律意义上的权利,那么实践中国家与国家之间在海上救助中行使及运用这一权利时就需要相互之间的默契和配合,而建立这种默契和配合的有效方式就是通过国家之间的救助演习,其中包括制定相对完备的救助合作计划、进行实战操练等。

由于梯度连乘的原因, 任意相邻第N层与第N-1层之间存在如下关系

1.2 深度残差网络

残差块就是在常规的线性网络连接中, 增加了一个“捷径”, 将前面一层的计算结果输入下一层的输出中, 形成一个“捷径链接(Shortcut Connection)”, 所形成的残差块结构如图5b所示, 即输出为

  

图3 深度残差网络结构Fig.3 Structure of DRN

由于CNN在训练过程中使用反向传播算法(BP: BackPropagation)进行训练, 训练过程中需计算输出偏差值, 即

LLoss=F(XL,WL,bL)

(1)

其中LLoss为任意输入层的计算损失, XL为其输入, WL为卷积矩阵, bL为该层的偏置。

但是从数据利用的角度, 残差块的结构可把数据层前期提取的“低阶”特征和后期提取的“高阶”特征进行合并计算, 数据的利用效率比传统线性连接的网络有所提高, 可提升计算效果。因此, 笔者选取残差块作为网络改进手段。

综合实践活动课程与学科课程有着很大的不同,综合实践活动课程超越了学科系统学习的界限,尤为重视生活中问题的解决,而非文本知识的习得;尤为重视实践体验和直接经验的积累,而非理论和简介知识的学习;尤为重视综合知识的把握和运用,而非知识的分化;尤为重视实践能力和创新能力的培养,而非单纯认知能力的提升;尤为重视学习和解决问题的过程,而非学习和问题解决的结果。这样的学习能力凸显了实践性学习的特征,与学科课程的实施相互补充,相得益彰。

 

(2)

笔者分析造成误差水平没有较大提升的主要原因是图像的潜在特征复杂, 传统LeNet-5结构的深度有限, 连接方式为线性, 对“高阶”的复杂特征的提取和计算能力不足。

提篮式钢管混凝土劲性骨架上承式拱桥施工关键技术……………………………………………………… 高峰(11-186)

为提升网络的性能, 在此基础上使用残差块完成网络结构的调整。通过比对网络在同等环境下的准确性衡量改进效果。

LLossN=FN-1(XLN-1,WLN-1,bLN-1)

(3)

该LeNet-5结构的网络如图4所示。该网络首先对眼部图像e进行处理, 经过两次“卷积-池化”操作, 提取出的特征图输入全连接层, 同时将通过模型[12]计算得到的头部动作数据h也输入网络中进行计算, 最终得出注视点坐标位置并且换算成视线的角度差。

切除宫颈组织完整,宫颈切缘肉眼观察无病灶,石蜡切片检查切缘无残存病灶。手术时间30~50min,平均时间为25.5±3.4min;出血量10~80ml,平均20.8±13.5m L;住院时间平均2.8±1.5天,术后发热2例。子宫颈锥形切除术后与术前阴道镜病理结果诊断完全相符者29例,不符合31例。宫颈锥切术后病理检查阴道镜下多点活检程度重15例,CIN III 10例(术前诊断为CIN II 3例,CIN I 7例),CIN II 5例,术前诊断为CIN I;程度较轻16例。

 

(4)

式(4)即是训练过程中的网络梯度, 可见, 在足够深的网络中, 这个数将非常小甚至消失, 导致网络无法训练。但是残差网络在结构中进行调整, 网络的训练过程中的梯度可有所保留, 变成

 

(5)

可见, 若用式(5)替代式(2), 代入式(4)后, 网络的梯度可以保留, 使训练可持续有效地进行。

对某一层的输入求偏导, 即求该层下降梯度

2 基于浅层残差网络的CNN结构

2.1 改进思路

为确保实时性要求, 网络结构的深度必须适度。因此, 笔者选择LeNet-5结构作为基础, 使用残差块和其他方法调整结构。

则针对L层的网络整体, 有

  

图4 MPIIGaze使用的网络结构Fig.4 Network structure mentioned in MPIIGaze

高中物理课程的学习内容比较抽象与复杂,所以大部分学生都害怕学习物理知识,同时很多学生学习物理知识的方法不正确,从而使得学生掌握物理知识较为困难。因此,物理教师必须找到学生的学习误区,并且提出具体的改正对策。

2.2 浅层残差网络

残差块是残差网络的基本构成单元。常规网络的连接方式如图5a所示, 对于输入x, 输出为H(x), W1表示第1层卷积计算过程, W2表示第2层卷积计算过程, 线性结构输出为

H(x)=W2*(W1*x)

(6)

深度残差网络结构如图3所示。该网络的设计初衷是为了解决CNN在逐步加深过程中出现的训练困难等问题。

H(x)=F(x)+x

(7)

虽然对残差块内卷积层的数量可任意选择, 但单层的残差块并不具备优化特性。线性连接的卷积层增加了网络深度与计算量, 效果却不理想。因此, 使用图6中3层卷积组合的方式。其中第1层卷积使用1×1卷积核进行数据降维, 经过3×3卷积核的计算后再利用1×1卷积进行恢复, 这种结构与双层残差块网络相比, 在保持计算精度同时又减少了计算量。

  

a 常规线性结构 b 残差块的结构 图5 残差块的设计 图6 调整后的残差块 Fig.5 Structure adjustment of residual block Fig.6 The adjustment residual block

为确保面部的空间朝向信息得到有效利用, 在使用双层残差块的同时增加了全连接层, 计算头部转动信息h, 确保其与图像中提取出的特征信息更好地融合。经过上述调整, 最终改进后的网络结构如图7所示。

  

图7 浅层残差网络结构Fig.7 Improvement of network structure

3 实验结果与分析

3.1 实验方法

实验使用的眼部图像来自MPIIGaze数据库, 由于MPIIGaze数据库具备目前最广泛的光线变化度和对使用者动作无限制的特点[4](见图8), 所以使用该数据库的眼部图像数据进行训练和测试更符合笔者对使用环境的要求。

由于在基于表观的方法中, Zhang等[4]采用基于LeNet-5结构的算法性能优于其他方法, 且更具代表性, 所以将其作为性能改进的对照。网络本身的输出为屏幕上注视点的坐标, 为便于对比, 笔者将注视点坐标转化为视线的角度误差。

《中国英语能力等级量表》将语言能力的评判标准分成听、说、读、写、译、语法、语用等能力水平。《中国英语能力等级量表》对于英语学习者语用能力的培养有很大的指导的作用,特别是对于工科院校的学生来说,语用能力的培养更是亟须重视。

 
  

图8 MPIIGaze原始图像Fig.8 Original images of MPIIGaze dataset

  

图9 不同迭代下平均测试误差值Fig.9 Average test error under different iterations

图9为两组网络的测试平均误差。由图9可见, 在相同迭代次数下浅层残差网络的计算准确度均优于LeNet-5网络。

表1对比了两种网络的最小平均误差和总体平均误差。由表1可见, 浅层残差网络不仅在最小误差值上存在优势, 结合图9还可发现, 浅层残差网络在训练进行30次迭代后测试集的误差值最小, 为6.140°, 使用LeNet-5结构经过42次迭代后获取最小的测试误差为6.677°, 可见浅层的残差网络可在更短训练时间内获取更好的性能表现, 且准确度提高了约8.5%。

 

表1 测试精度对比

 

Tab.1 Test accuracy comparison

  

网络类型最小误差/(°)迭代次数平均误差/(°)LeNet-56.677427.178浅层残差网络6.140306.565

4 结 语

笔者利用残差块(Residual Block)取代传统的CNN卷积层结构, 在增加了网络深度的同时提高了数据循环使用效率。经过MPIIGaze数据库实验比较, 浅层残差网络算法在平均误差和最小误差的表现都优于LeNet-5结构, 准确度提高了约8.5%。而如何进一步提升网络的计算准确度和整体算法性能, 满足实际应用需求, 则是下一步需要研究解决的问题。

参考文献

[1]HANSEN D W, JI Q. In the Eye of the Beholder: A Survey of Models for Eyes and Gaze [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010, 32(3): 478-500.

[2]WANG Y, SHEN T, YUAN G, et al. Appearance-Based Gaze Estimation Using Deep Features and Random Forest Regression [J]. Knowledge-Based Systems, 2016, 110(C): 293-301.

[3]KRAFKA K, KHOSLA A, KELLNHOFER P, et al. Eye Tracking for Everyone [C]∥Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2176-2184.

[4]ZHANG X, SUGANO Y, FRITZ M, et al. Appearance-Based Gaze Estimation in the Wild [C]∥Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 4511-4520.

[5]LÉCUN Y, BOTTOU L, BENGIO Y, et al. Gradient-Based Learning Applied to Document Recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[6]MATSUGU M, MORI K, SUZUKI T. Face Recognition Using SVM Combined with CNN for Face Detection [C]∥Neural Information Processing. Berlin/Heidelberg: Springer, 2004: 356-361.

[7]KOBCHAISAWAT T, CHALIDABHONGSE T H. Thai Text Localization in Natural Scene Images Using Convolutional Neural Network [C]∥Signal and Information Processing Association Summit and Conference. Siem Reap, Cambodia: IEEE, 2015: 1-7.

[8]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [C]∥Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580-587.

[9]VIEIRA J P A, MOURA R S. An Analysis of Convolutional Neural Networks for Sentence Classification [DB/OL]. (2017-12-21). [2018-01-04]. http:∥arxiv.org/abs/1408.5882.

[10]BOTTOU L, CORTES C, DENKER J S, et al. Comparison of Classifier Methods: A Case Study in Handwritten Digit Recognition [C]∥Comparison of Classifier Methods: A Case Study in Handwritten Digit Recognition. New York: Springer-Verlag, 2010: 969-979.

[11]HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition [C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, United States: IEEE, 2016: 770-778.

[12]SUGANO Y, MATSUSHITA Y, SATO Y. Learning-Bysynthesis for Appearance-Based 3D Gaze Estimation [C]∥Proc CVPR. Columbus: IEEE, 2014: 1821-1828.

 
刘富,刘星,康冰
《吉林大学学报(信息科学版)》2018年第03期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号