更全的杂志信息网

复杂环境中基于视觉词袋模型的车辆再识别算法

更新时间:2009-03-28

0 引言

随着现代视频监控在公共安全领域发挥的作用越来越重要,其架设规模和应用需求也呈几何级地不断拓展。如何在复杂环境的非结构化视频图像中快速排查出公共安全部门所需锁定的目标车辆已成为迫在眉睫的需求。在传统车辆识别技术遇到瓶颈的同时,一种抛开光照、视角、姿态和角度变化不利影响识别出同一目标的目标再识别(re-IDentification,re-ID)技术[1-5]逐渐成为研究的热点。目前,针对目标再识别进行的研究主要集中在行人再识别领域[1-4],而鲜少应用于其他目标。2015年起,少数学者开始尝试进军车辆再识别领域,但往往仅能应用于同尺度同角度图像,对环境变化鲁棒性弱或算法仅基于小型数据集。

计算机视觉词包模型由Csurka[6]提出,其方法是先将图像转换成众多有效特征作为词汇(words)的统计向量表示,再通过分类算法实现对图像的分类和检索。近几年基于有效中级特征的视觉词袋(Bag of Visual Words,BoVW)被证实在图像分类和搜索方向效果突出,尤其适用于多属性数据集的分类和识别。基于该模型的特色和在其他领域的应用成效,将其应用于车辆再识别领域,在本文中对其应用框架、实施步骤、重点方法和参数选择进行了重点研究,并通过实验证明了该算法的优势。

1 再识别框架和方法选择

基于BoVW模型的车辆再识别算法主要由以下几个步骤组成:选择图像基础特征;进行特征聚类、筛选,构建词汇集;将图像表述为词袋中的词汇表示集,作为图片的最终特征;计算特征间的距离函数,进行再排序后分类。而各步骤中主要影响识别效果的重点在于:基础特征构建、BoVW特征距离度量和再排序参数设定。算法框架如图1所示。

基础特征构建方面,文献[6]选用尺度不变特征变换(Scale Invariant Feature Transform,SIFT)匹配算法、局部二值模式(Local Binary Pattern,LBP)等低级特征,识别率不高;文献[3]中由于采用过多融合特征导致同一图片被多次编码;文献[2]选用了经典可变形组件模型(Deformable Part Model,DPM)中级特征,但其目标选择框(bboxes)的手工标注方案往往无法明晰目标与背景间的边界。本文采用了改进的一对一局部特征(Part-based One-vs-One Feature,POOF)[3]中级特征,但规避了原有特征获取方法中存在的标注过多及运算复杂等问题,通过标记出少量标定点以指定不同对象相同部位,从而解决了复杂环境中车辆相同部位存在位置、大小差异等问题。同时,本文在原POOF算法基础上改变特征选取方式后,通过添加标定点相对位置信息,解决了BoVW模型中常见的空间位置缺失问题[4],同时也捕捉到了目标形变信息。

  

图1 基于BoVW模型的车辆再识别算法示意图Fig.1 Framework of BoVW model based vehicle re-identification algorithm

BoVW特征构建完成后,度量常用的距离主要有:马氏距离、欧氏距离、余弦距离以及海明(Hamming)距离。马氏距离往往是大部分已有再识别方案的选择,但各方法使用的度量函数不尽相同,其中常见的方法有大间隔最近邻度量(Large Margin Nearest Neighbor,LMNN)、信息假设理论度量学习(Information Theoretic Metric Learning,ITML)、贝叶斯再访问(Bayesian face Revisited)、基于简单而且直接策略度量(Keep It Simple and Straight Metric,KISSME)[7]、局部自适应决策函数(Locally-Adaptive Decision Function,LADF)、交叉视角二次分析(Cross-view Quadratic Discriminant Analysis,XQDA)方法、成对约束学习(Pairwise Constraint Metric Learning,PML)等。本文选用了基于贝斯特理论的KISSME算法,并将度量方法融入了BoVW构建关键词汇集和距离度量两个环节,分别使用了欧氏和马氏两种距离,最终其有效的分类效果被证明十分有效。

public MyEventArgs(string oldState,string newState)

再排序参数选择也会引起最后的识别率变化,尤其针对多分类的问题。早期往往采用的是每排序l次进行交叉认证(l-fold cross validation)的方式[1],大部分再排序采用 K近邻(K-Nearest Neighbor,KNN)算法[2,8-9],文献[5,9]中提出了多种再排序的权值设置方法,并对其效果进行了比较;文献[2]沿用了文献[9]中添加权值后的再排序算法,逐步增加排序靠后的高相似度图像的权值,本文也采用了类似的方法,不同的是对权值作出了不同的设置。

2 详细算法实施步骤

设C为车辆图像的集合,其中包含J辆不同车辆的共计I幅图像。设xi为排序为i的图片,即

其中同车辆图片子集设为Cj(1≤j≤J),知C=C1∪C2∪…∪CJ,具体实施如下:

①目标中级特征提取。首先对单图片进行基于车辆固定部件的标注,获取r个标定点集合R。针对不同的标定点参考文献[3]提取部件特征记为{fa,b}。其中低层特征选择采用128位HSV颜色直方图hHSV和梯度方向直方图特征hHOG(其中胞原大小设为10×10,块大小设置为4×4,块滑动增量设为3[10])。为了保留该部位所在的位置特征,可得:

 

由于标定点a,b间可获取一对 fa,b和其非对称特征fb,a,图片xi可被表述为r个标定点间r×(r-1)×2个特征的集合 Fi,即:

 

但我们发现,在实际应用中不同视角车辆部件位置会有少量不同,故设计了基于不同视角θ的标定点方案,具体示意见图2。根据该标定点方案,车辆可标定点位置分为正、侧、背三种各9、4、6个,共计19个。每视角图片标定点为9到13个。将 Fi改写为 Fi,θ,其中加入了角度参数 δi,θ来区别差异化标定点方案导致的特征取值变化:

混凝土充灌过程中,施工人员应注意保持模袋布的平整,拔管时带出的混凝土应立刻用自来水冲掉,保证模袋布的表面洁净。

 

得到Eb(i1,i2)如在类内距离范围内则判断其为同一车辆目标,反之则为非同一目标。

 

可能还是从猪牯那里得到的启发吧,李打油既要关心承包砖厂的烧窑师傅,又要关心那座窑。因为平时师傅住工棚,他便在村委会腾出一间房专门用以接待探亲,而且一旦有家属来探亲,每次村里赠送正宗土鸡一只聊表慰问之情;对那座趴在山坡上的龙式砖窑呢,安全防范最要紧,李打油叫人把窑两侧十米内的大树都砍了,电杆也移开,防止大雨大风对窑的意外伤害。可谓心思缜密呀,跟我父亲有得一比。的确,砖窑是村小的命,也是他的命。

值得注意的是,对于部分车辆遮挡的问题遵循以下处理原则:一是遮挡部分位于所有标点划定区域外围的,对于各pa,b,i,θ的取值无任何影响。二是对于遮挡部位位于少量标点划定区域内的情况,根据文献[3]算法可知,每个部件特征pa,b,i,θ 已 通 过 主 成 分 分 析 (Principal Component Analysis,PCA)算法实施过降维操作,小部分特征维度的缺失对于包含多部件的整体车辆特征取值变化导致的识别率影响可忽略不计。三是对于重点部位遮挡或遮挡较多的样本,在训练集中予以剔除。但对于此类目标图片,也可通过统一减少该角度遮挡部分标定点的方式进行训练,获取到变化标点中级部件特征Fi,θ',即通过本文基于非固定数量部件的灵活部件选取方案,实现部分遮挡目标车辆的特征获取及后续识别。

2.3.3 重复性试验 精密称取药材样品(编号:S19)适量,共6份,按“2.2.2”项下方法制备供试品溶液,再按“2.1”项下试验条件进样测定,以丹皮酚峰的保留时间和峰面积为参照,记录各共有峰的相对保留时间和相对峰面积。结果,29个共有峰相对保留时间的RSD为0~0.62%(n=6),相对峰面积的RSD为1.47%~4.97%(n=6),表明本方法重复性良好。

  

图2 基于不同视角θ的标定点方案示意图Fig.2 Schematic diagram of labeling scheme based on different viewpoint θ

②选取任意两张图片i1和i2,计算每两张不同车辆同部位特征间的欧氏距离函数:

 

不同于文献[4],令 βt=(Simm(Pt,G)+t+1)-1,以平滑相似度增量。根据图3中重新计算的Simm'(Q,G)值,排列出最终相似度序列Rank'(Q,G)。

③将每张图片xi生成对应词汇集的词频直方图(frequency histogram)表示:

将图片转换为每个基于a,b标注部件的(fa,b+fb,a)中层特征的集合,其中 pa,b,i,θ 是第 i张图片标定点为 a,b 的中级部件特征。

 

④用KISSME方法计算目标图像与各训练图像集的距离函数。为计算图片 i1 和 i2 间的差距 Δ =(pa,b,i1,θ1 - pa,b,i2,θ2),设ΓΩ是表示i1和i2为同车辆的类内变化值,ΓΘ是表示i1和i2为非同一车辆的类间变化值,由该方法得类内和类间概率似然函数分别为:

 

其中,NΩ和NΘ分别代表类内样本个数和类间样本个数,本文将i1和i2间的KISSME距离表述为:

 

并将其简写成:

⑤在算法实施中,往往首先定义Q为目标图片,通过计算Q与图像集C中每一个图像xi的距离Eb(Q,xi),获取一个按距离从近到远对xi基于目标Q距离倒叙序的图片队列,记为Rank(Q,G)=[y1,y2,…,yi],其中yi∈C,G为C中任一图片。由于在复杂环境中的各因素的影响,④中获得的相似度排序往往会发生极相似目标被排序在很后的情况,故此需要引入再排序步骤。本文将Rank(Q,G)作为目标图片集Q的初始排序集,并定义Simm(Q,G)为Q、G两图片间的初始相似度分值,首先默认初始相似度分值为:

在城市湿地公园的景观设计工作中,干预最低原则主要是指充分利用客观的手段及方法实现最理想的设计效果[3]。在这一生态景观的设计过程中,设计工作的开展能够有效地将人们的各项活动控制在科学合理的范围内,不对自然生态环境的平衡造成影响,继而对生态系统的能量循环和物资利用起到重要的促进作用。

 

其中,Ra(Q,G)为图片G在Rank(Q,G)中的排序值。本文对初始 Rank(Q,G) 中前 T个排序图片[y1,y2,…,yT]中的每个yt作为目标图片,获取不同的距离倒序队列Rank(Pt,G),并对每个Pt设定一个加权函数βt对每个Pt的相似度分值Simm(Pt,G)进行加权,计算出再排序后的相似度分值结果Simm'(Q,G)表述为:

⑥最终采用最近邻算法获取识别结果。

惟实干方可书写青年担当。青年人身上所富含的拼搏精神、挑战意识、创新因子等特质,必将对国之重器施与生生不息的动力,也必将深刻地影响新时代的进程与走向。

 

用基于平方误差的K-means算法聚类特征,获取K个聚类中心点,生成词汇集

利用空间矢量(SVPWM)控制技术控制逆变器产生一个可以跟踪变压器一次侧电流相位的电流,其幅值和一次侧电流的幅值的关系为k˙I2 X=-˙I1,其中k为变压器的变比。将逆变器产生的电流注入到变压器的二次侧就可以将变压器的磁通补偿为零。工作电路拓扑图如图4所示。

此外,组诗还对统治者进行了歌颂,并如实记录了战后的册封行赏。组诗之十七《大饮至》的诗序叙述了阿桂将军向乾隆皇帝晋献俘虏索诺木、乾隆亲临军营与将士同饮同食之事。诗云:

  

图3 再排序方法示意图Fig.3 Schematic diagram of re-rank step

3 实验结果及分析

3.1 数据集搭建

测试车辆数据集由4个不同路口监控云台采集(安装位置见图3),分别以30°为一个间隔角度,每2 h拍摄同一角度视频,获取从正面至背面共计7角度mp4格式视频图像。最后以10 s为一个间隔,从视频中提取出共计20160张3840×2176复杂场景多车辆图片集T。由于数据采集时充分考虑到大部分数据集碰到的正样本数为零的问题,故设计监控云台安装位置于环路各出口路段,如图4所示,无论从任何路口进入环路,同一车辆图像被监控1~4捕获的次数均为2(重复进入路段车辆除外)。将T中提取出像素大于128的可识别车辆共计45742辆记为D,随机选择80% 生成训练集Dtrain,20% 生成训练集Dtest

AL104型电子秤 梅特勒-多利多仪器(上海)有限公司;恒温培育箱 上海一恒科学仪器有限公司;标准试验筛 上虞市银河测试仪厂。

  

图4 4个监控云台安装位置图示Fig.4 Installation positions of 4 monitors for data collection

3.2 实验结果

表1比较了使用本文方法的基础特征和其他业界常用方法获取的第一位(Rank1)识别正确率。由于许多原有方法实验结果往往针对同一尺度目标,故可自适应不同目标尺度变化的本文方法,与其他文献常用的基于基础特征、部件特征及融合特征的其他方法相比,其Rank1值比第二名冒泡银行(Bubble Bank,BB)算法[13]仍高出 3.85 个百分点,说明本文算法在标定点方案选择、基础特征提取方面是正确有效的。

 

表1 几种特征提取算法的Rank1识别正确率比较Tab.1 Comparison of Rank1 accuracy of several feature extraction algorithms

  

特征分类 特征提取算法 Rank1(%)基础特征HOG 25.90 SIFT 19.17 LBP 17.11 HSV histogram 6.93融合特征HSV+SIFT 27.35 HSV+GIST[10] 32.52 HSV+HOG+LBP+SIFT[11]35.19 DPM[2]部件特征45.14 36.07 SPM[12-13] 38.95 BB[13] 41.29本文算法

表2采用了同样的特征提取和聚类方法,针对距离度量环节分析数据库D中采用KISSME和再排序组合方法的效果,并与多个经典度量方法进行了比较。结果表明,本文算法更能适应目标大小不一、姿态不同的复杂环境目标的识别需求,添加再排序方案的改进KISSME算法比贝叶斯再访问算法,在Rank1和Rank20的结果上有3.14和4.16个百分点的提升。

图5为在对D中数据进行目标大小归一化处理后的同尺度D'数据集中,分别比较了混合各姿态样本的本文自适应识别结果和单独取出同一姿态样本获取的Rank1和Rank20的值。为了便于区分,本文按角度间隔将其分类成7类。其中算法在Rank1低于各角度平均值59.80%,而在Rank20中高于各角度平均值93.58%,符合预期,验证了算法适应位姿变化的鲁棒性。同时发现,有别于以往多数方法在不同位姿识别率变化较大的情况[11,13],算法在各个分角度表现得较为均衡,且最高识别率集中在0°,30°,60°三个角度。究其原因,方法在侧面90°图像增加标定点的策略丰富了样本的特征取值。

 

表2 几种算法的识别正确率比较Tab.2 Comparison of accuracy of several algorithms

  

算法 识别正确率/%Rank1 Rank10 Rank20 LDML 24.08 59.48 71.56 ITML 29.27 62.38 76.97 PML 37.54 64.83 77.59 XQDA 41.63 71.93 85.52贝叶斯再访问 42.10 73.08 86.41本文 KISSME 45.14 74.72 88.32本文KISSME+re-rank 45.14 76.90 90.57

  

图5 基于同尺度数据集D'上的Rank1和Rank20识别率比较Fig.5 Comparison of Rank1 and Rank20 accuracybased on same-scaled target dataset D'

最后,本文配置CPU为Intel CPU E3-1231 3.4 GHz,GPU为32G NVIDIA GeForce GTX TITAN X的服务器,在Matlab 2016a环境下进行算法测试,其比对单张128~576像素图片(图片根据目标截取,大小不一,要求为128像素以上)平均耗时为0.81 s,而冒泡银行(BB)算法特征提取与贝叶斯再访问组合算法耗时为0.84 s,算法在获得更高识别率的情况下,总体耗时更优。在真实应用中,以每路高清摄像头每秒生成2张1920×1080大场景图片,每张平均可提取15个有效车辆目标进行数据量估算,算法可实现对40路摄像头拍摄图像的实时分析,在包含前期目标识别、提取等算法耗时的情况下,整体应用响应时间不超过3 s,实现了复杂场景下十分有效的车辆再识别应用。

4 结语

本文介绍了一种基于BoVW模型的车辆再识别算法,在原有BoVW模型上采用了对于目标图像大小、位置、角度的变化都有较强鲁棒性的基于部件的中级特征,以及能对差别细微的不同车辆进行较好识别的基于简单再排序的改进KISSME方法。该方法标记量、算法时耗适中,识别率较好,在后面的实验中将增加数据集的扩展、实现自动标记,以及在增加数据的基础上进一步探索深度学习网络与距离度量的结合应用。

参考文献(References)

[1] PENG X,WANG L, WANG X, et al.Bag of visual words and fusion methods for action recognition [J].Computer Vision & Image Understanding,2014,150(C):109-125.

[2] ZHENG L, SHEN L,TIAN L,et al.Scalable person re-identification:a benchmark[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision.Piscataway, NJ:IEEE, 2015:1116-1124.

[3] BERG T, BELHUMEUR P N.POOF:part-based one-vs.-one features for fine-grained categorization, face verification, and attribute estimation [C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE,2013:955-962.

[4] KASAMWATTANAROTE S, UCHIDA Y, SATOH S, et al.Query bootstrapping:a visual mining based query expansion [J].IEICE Transactions on Information and Systems,2016,99(2):454-466.

[5] WU Y, AVIDAN S, BRANDT J, et al.Object retrieval and localization with spatially-constrained similarity measure and k-NN reranking[C]//Proceedings of the 2012 Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE, 2012:3013 -3020.

[6] CSURKA G, DANCE C R, FAN L, et al.Visual categorization with bags of keypoints[EB/OL].[2017-06-20].https://www.researchgate.net/profile/Jutta_Willamowski/publication/228602850_Visual_categorization_with_bags_of_keypoints/links/09e415099025c0df9a000000/Visual-categorization-with-bags-ofkeypoints.pdf.

[7] HIRZER M.Large scale metric learning from equivalence constraints[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE, 2012:2288-2295.

[8] LIAO S, HU Y, ZHU X, et al.Person re-identification by local maximal occurrence representation and metric learning[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE,2015:2197-2206.

[9] PEDRONETTE D C,TORRES R D.Image re-ranking and rank aggregation based on similarity of ranked lists[J].Pattern Recognition,2013,46(8):2350-2360.

[10] ZHENG L, WANG S, TIAN L, et al.Query-adaptive late fusion for image search and person re-identification [C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE,2015:1741-1750.

[11] FANG W, CHEN J, LIANG C, et al.Vehicle re-identification collaborating visual and temporal-spatial network[C]//Proceedings of the 2013 International Conference on Internet Multimedia Computing and Service.New York:ACM,2013:121-125.

[12] ALQASRAWI Y, NEAGU D,COWLING P I.Fusing integrated visual vocabularies-based bag of visual words and weighted colour moments on spatial pyramid layout for natural scene image classification [J].Signal Image& Video Processing,2013,7(4):759 -775.

[13] KRAUSE J, STARK M, DENG J, et al.3D object representations for fine-grained categorization [C]//Proceedings of the 2013 IEEE International Conference on Computer Vision.Piscataway, NJ:IEEE,2013:554-561.

 
王茜,陈一民,丁友东
《计算机应用》 2018年第05期
《计算机应用》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号