更全的杂志信息网

一种结合图像信息的视频行人检测网络研究

更新时间:2009-03-28

0 引 言

在模式识别领域,行人检测吸引了诸多学者的关注。W. Tomoki等[1]提出了共生梯度直方图,利用梯度对提取图像的特征。Ren H. Y.等[2]提出了泛化和效率均衡框架,提取图像的CoHaar,CoLBP以及CoHOG特征。随着深度学习的研究取得进展,新颖高效的检测技术不断涌现。G. Ross等[3]提出的区域卷积神经网络(Regions With Convolutional Neural Network Features, R-CNN)通过预先提取图像建议框并利用深度卷积网络提取特征,最终得到建议框的类别及位置,成功应用于目标检测并取得较高的检测精度。Ren S. Q.[4]等将建议框生成、特征提取、分类和位置精修统一到一个深度网络框架内,提出了Faster R-CNN,大大提高了检测速度。Liu W.等[5]提出的单次多框检测(Single Shot MultiBox Detector, SSD)网络在保证检测精度的同时进一步提高了检测速度。上述文献所提算法都是针对静态图像而言,对于视频图像的检测而言效果欠佳。为此,Kang K.等[6]提出了管束建议框机制的视频检测网络,但多阶段的训练和检测不能满足高精度和实时性要求。本文在文献[6]的基础上,利用静态图像检测网络,通过信息向量传播(Information Vector Propagation, IVP)的方式提取图像建议框的时序信息,再结合图像的上下文信息抑制假正样本,采用FCNT跟踪算法[7]和管束重评分等步骤进行端到端训练网络,生成的基于图像信息的视频检测网络框架提高了视频行人检测的精度。

1 网络框架

本文提出的视频检测网络框架算法首先使用传统Faster R-CNN框架提取特征,得到行人边界框和得分情况,然后进行管束重评分和多上下文抑制(Muti-context Suppression,MCS)、信息向量传播。管束重评分又包括高置信度跟踪、空间最大池化、时序重评分3个处理过程。在进行多上下文抑制和信息向量传播前需要预先提取静态检测结果的光流,然后再提取图像上下文信息和时序信息,最后用非极大值抑制(Non-maximalSuppresion,NMS)保留交并集之比(Intersection-Over-Union,IOU)重叠大于0.5的检测结果。此外在信息向量传播时,算法结合了视频行人的运动特征,利用线性坐标变换进行帧间框坐标传递。基于该网络的视频行人检测模型框架如图1所示。

  

图1 基于图像信息的视频检测网络框架

2 静态图像检测

静态图像检测网络采用Faster R-CNN,主要包括预训练特征提取网络的共享卷积层、区域建议网络(Region Proposal Network, RPN)以及Fast R-CNN网络[8]。本文在特征提取网络时,采用ZF网络[9]的前5层,共享卷积层作为Conv5层,其输出特征输入到区域提取网络,再通过池化层馈送给Fast R-CNN。

本文遵循Faster R-CNN的多任务损失,最小化目标函数。定义图像的损失函数[10]为:

 

(1)

式中,i为一个mini-batch中锚点的索引,pi为锚点i是目标的预测概率,为标准边界框标签,当锚点为正时,其值为1,锚点为负时,其值为0。ti为预测的边界框的4个参数化坐标向量,为与正锚点对应的标准边界框的坐标向量。Lcls为目标和背景的对数损失:

 

(2)

Lreg为回归损失函数,定义为:

春秋战国时期,有个人要出售一匹骏马,他在集市上待了三天,却连一个来问价的人都没有,于是他想了一个法子。

 

(3)

式中,R为鲁棒损失函数sL,定义如下:

 

(4)

3 多上下文抑制和信息向量传播

3.1 多上下文抑制

对于每一帧图片,获取几百个区域建议以及所属类别的检测得分。对于一个视频片段,按降序对所有建议框的检测分数排序。设定阈值α遵循以下规则

(2)空间最大池化。对于每一个边界框序列,利用静态图像检测器获得与标准框IOU重叠大于0.5的检测结果,然后只保留其中具有最大得分的检测,并代替用于跟踪的边界框。

 

(5)

由于视频片段中每帧都是强烈相关的,检测结果在位置和得分上也必然相关,可以传播边界框和得分信息到相邻帧进行联合检测来减少假负例。信息向量传播通过运动信息来传播检测结果。对于每一个区域建议,使用Gunnar Farneback算法[11]计算所有像素点的光流,得到边界框的平均光流向量,并根据平均光流向量将具有相同检测分数的框坐标传播到相邻帧,坐标变化遵循:

3.2 信息向量传播

式中,n为建议框数,检测得分超过阈值α的类别被认为是高置信度类,得分保持不变。其他的被认为低置信度类别并且得分会减去某个值进行抑制。

但同时一些中小学以及学者缩减了STEM教育的范围以及概念,一些中小学认为学校中开设的兴趣课程即为STEM教育,开设的一些小发明、小制作比赛即为STEM教育,而在正式课堂中,传统教育仍然为主流教育,多媒体设备虽有应用,但仍然是教师灌输知识的辅助品。科技产品在STEM教育过程中只能起到辅助作用,一些教育企业为了市场将发展重点放在科技产品的开发上,而不注重思考教学方式的改革。这完全脱离了STEM教育原本的内涵,其意义也无法彰显。“只有从课程设置的目的、课程本身及其教学策略三个方面,才能完整地把握和理解STEM教育内涵与要求,科学、合理地实施STEM教育。”[4]

b2=b1+([(V/255)×2])×(k/2)

(6)

由表1可知,当DET∶VID为2∶1时,能取得较大mAP,效果最佳。

3.3 重评分

信息向量传播只能结合短期时间约束,这对于视频检测来说是远远不够的。本文加入跟踪算法从而形成较长时间跨度的边界框序列,使检测结果保持长时间一致,最后对边界框序列重评分来完成检测。

(1)高置信度跟踪。对于每一视频片段,选择FCNT跟踪器,在时间维度上双向跟踪高置信度区域。首先选择置信度最高的边界框作为跟踪起点Sm,双向跟踪获得一个完整的边界框序列T1。沿着时间维度进行跟踪时,跟踪的边界框可能漂移到背景或可能不适应缩放和改变目标物体的变化,所以设定跟踪置信度阈值p<0.1时停止跟踪。然后,从剩余的检测中选出一个新的跟踪起点Sn来获得新的边界框序列T2。通常,高置信度检测倾向于在空间和时间上聚集[12],因此直接跟踪下一个高置信检测会导致在相同对象上具有大的相互重叠的边界序列。为了减少冗余并且能够尽可能多覆盖目标,通过类似于极大值抑制过程选择IOU重叠低于0.3的边界框作为新的跟踪起点,如此跟踪抑制过程迭代地执行直到所有剩余检测得分低于阈值0.1。

海域原油经济剩余可采储量为366亿吨,占油气当量经济剩余可采储量的41.6%,主要分布在波斯湾、巴西东部海域、几内亚湾、滨里海、墨西哥湾、北海等区域;海域天然气经济剩余可采储量为60.87万亿立方米,占油气当量经济剩余可采储量的58.4%,主要分布在波斯湾、澳洲西北海域、莫桑比克海域、南海、地中海、几内亚湾等区域。波斯湾海域的油气当量经济剩余可采储量在全球海域油气资源中占比达到36%,油气当量产量占比达到65.7%。

(3)分类及评分。高信度跟踪和空间最大池化产生了长稀疏边界框序列,重评分主要是将这些序列分为正样本和负样本并映射检测分数到不同的范围,以增加得分边距。本文使用边界框的统计信息通过分类器将边界框序列分类为正负样本并将正样本得分映射到[0.5,1],负样本得分映射到[0,0.5]。

由表2、图2可知,当IOU阈值为0.5时,mAP最大,一旦超过0.5,mAP急剧下降。主要是因为阈值过大时,多样姿势或者部分遮挡行人的检测得分偏低而被过滤掉,产生漏检。

4 实验结果分析

视频检测任务和静态图像检测任务非常相似,采用平均精度(mean Average Precision,mAP)作为评估参数,在ImageNet数据集和自制数据集上综合评价并优化模型。本文实验通过静态检测网络的微调、空间最大池化IOU的设定、信息向量传播窗口的设定以及不同模型的对比来评估本文模型。

2.1观察组和对照组患者进行医患纠纷发生率比较,观察组仅发生1起医患纠纷,占2%;对照组发生7起医患纠纷占14%,后者发生率明显高于前者,P<0.05。

4.1 静态检测网络的微调

由于使用的静态检测网络是在ImageNet上预先训练好的,为了更好适应视频行人检测任务,需要对预训练模型进行微调。微调时,所使用的ImageNet行人数据集DET和自制视频数据集VID的比例及结果如表1所示。

 

表1 数据集比例不同时的平均精度 %

  

DET︰VID0︰11︰12︰11︰2mAP51.551.953.752.0

式中,b2为下一帧坐标,b1为当前帧坐标,V为之前得到的光流向量,k为偏移量。在进行前向传播时,定义k=[-w,-1];在进行反向传播时,定义k=[1,w],w为传播窗口大小的1/2并取整。

4.2 空间最大池化IOU的设定

在进行空间最大池化时,为了验证不同IOU的影响,分别设定不同的阈值进行测试,结果如表2、图2所示。

 

表2 IOU阈值不同时的平均精度 %

  

IOU阈值0.10.30.50.70.9 mAP42.944.344.641.537.7

  

图2 阈值为0.5时,视频行人检测图

式中,一般初始反应温度较低,反应速率可忽略不计,积分下限 T0的积分值趋近于 0[25],其中u = E RT,温度积分式 P ( u)的表达式为:

她告诉《中国医院院长》,因为福州跟北京、上海等一线城市不一样,人口相对较少,交通便利,精细化管理会引导一部分患者不要太早来医院。

4.3 信息向量传播窗口的设定

在产生光流进行运行导向传播时,必须设定好传播窗口大小才能对相邻帧进行坐标变换。窗口大小不同时的实验结果如表3所示。

 

表3 传播窗口大小不同时的平均精度 %

  

传播窗口大小357911mAP58.461.56362.760.1

由表3可知,当传播窗口大小为7时,即在当前帧位置向前传播3帧,向后传播3帧时,得到的mAP最高。

(1)通过合理双切向入口和适当旋流速度设计,产生更大的旋转速度,离心加速度更大,旋流更为稳定,有利于气泡和油滴相互作用,加速气泡和油滴向旋流中间区域聚结,提高气浮效果,缩短停留时间,结构设计更为紧凑。

4.4 不同模型的对比

为了验证多上下文抑制、信息向量传播以及重评分对检测的影响,分别对Faster R-CNN,Faster R-CNN+MCS,Faster R-CNN+MCS+IVP,Faster R-CNN+MCS+IVP+Re-scoring进行实验,结果如表4所示。

 

表4 不同模型的平均精度 %

  

微调数据集模型类别Faster R-CNNFaster R-CNN+MCSFaster R-CNN+MCS+IVPFaster R-CNN+MCS+IVP+Re-scoringVID59.862.664.165.8VID+DET60.363.265.066.9

表4中,Faster R-CNN+MCS和Faster R-CNN+MCS+IVP的mAP均比Faster R-CNN好,说明多上下文抑制、信息向量传播处理有效果。此外Faster R-CNN+ MCS+ IVP+Re-scoring的mAP达到66.9%,实验结果最好,说明重评分对检测的积极影响以及文中所提视频行人检测网络模型的有效性。

5 结束语

视频图像的行人检测一直都是目标检测研究领域中的热点和难点,本文采用深度学习框架Faster R-CNN,提出了结合图像信息的视频行人检测网络。融合了图像的时序和上下文信息,利用跟踪算法使检测结果在时间上保持一致,与同类检测方法比较,检测精度较高。但是,深度学习的理论研究还不够充分,在数据集非常庞大的情况,如何编写优质的算法代码以提高模型运行效率,以及在数据微调阶段如何设定参数、调整参数等问题将是今后研究的主要方向。

参考文献

[1] WATANABE T, ITO S, YOKOI K. Co-occurrence histograms of oriented gradients for pedestrian detection[J]. Advances in Image and Video Technology, 2009:37-47.

[2] REN H, LI Z N.Object detection using generalization and efficiency balanced Co-Occurrence features[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015:46-54.

[3] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2014:580-587.

[4] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems, 2015:91-99.

[5] LIU W, ANGUELOV D, ERHAN D, et al. Ssd: single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016:21-37.

[6] KANG K, OUYANG W, LI H, et al. Object detection from video tubelets with convolutional neural networks[C]// Computer Vision and Pattern Recognition. IEEE, 2016:817-825.

[7] WANG L, OUYANG W, WANG X, et al. Visual tracking with fully convolutional networks[C]// IEEE International Conference on Computer Vision. IEEE, 2016:3119-3127.

[8] GIRSHICK R. Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision, 2015:1440-1448.

[9] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision. Springer, Cham, 2014:818-833.

[10] 杨勇.基于卷积神经网络的RGB-D图像室内场景识别研究[D].杭州:浙江大学,2017.

[11] FARNEBCK G. Two-frame motion estimation based on polynomial expansion[C]// Scandinavian Conference on Image Analysis. Springer-Verlag, 2003:363-370.

[12] 曾成斌,刘继乾.基于图切割和密度聚类的视频行人检测算法[J].模式识别与人工智能,2017,30(7):588-587.

 
陆游飞,应娜,朱锋彬
《杭州电子科技大学学报(自然科学版)》2018年第03期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号