更全的杂志信息网

基于LBP核密度估计的HEVC运动物体分割算法

更新时间:2009-03-28

0 引 言

在银行、地铁站、学校等监控场景中,往往通过对监控视频序列中相对运动缓慢的物体进行分割来实现目标的识别和跟踪。但是这些场景中,运动物体识别率的高低很大程度上取决于物体的位置、光照和天气条件以及背景复杂程度等因素。同时,有限的数据存储空间、不完善的传输技术和设备等因素也导致获得的视频分辨率较低。目前,视频分割领域的研究多基于图像背景复杂、运动模式多样等情况,而对于运动相对缓慢的物体分割的研究较少。局部二进制模式(Local Binary Patterns,LBP)算子及其变体在纹理图像检索和分类中扮演重要角色[1],如文献[2]提出了一种从偏振图像中提取LBP特征的方法,将LBP特征与颜色特征结合形成新的特征空间。该方法改善了光照对图像的影响,但实验只对目标物体数量较少、形状较大的物体进行分割识别,未验证多目标等情况的效果,并且没有充分利用视频图像局部特征信息。文献[3]提出了融合超像素分割技术的时空上下文先验模型,充分利用超像素技术,按照图像的局部特征进行分割,能够同时解决遮挡半遮挡、光影变化等诸多问题,但对于低分辨率视频的分割有所欠缺。尽管像素域方法被运用的较多,但像素域计算量大,分割速度慢。近年来,视频分割的重心转向了压缩域领域[4]。文献[5]提出了一种基于逻辑回归的高性能视频编码(High Efficiency Video Coding,HEVC)压缩域中的移动分割方法,可以处理相机抖动等情况,但是实验仅验证了交通大道快速路及快速运动的篮球运动员等情况,缺少针对较缓慢运动物体的实验验证。文献[6]提出了基于运动显著图和光流矢量分析的物体分割算法,有效地运用于较多场景,并且获得较可观的分割精度。文献[7]将LBP扩展为尺度不变的局部三元模式,并运用局部模式核密度估计技术对复杂场景进行背景建模,得到了快速有效的建模结果。

本文通过从压缩域码流中提取块划分信息和运动矢量信息得到LBP值,并结合文献[7]的局部模式核密度估计技术,提出了HEVC压缩域的视频分割方法,提高了在低分辨率视频序列中对相对运动缓慢物体的分割精度。

1 特征提取

1.1 块划分信息

在HEVC压缩视频中,由于相邻像素的相关性,一帧图像可以被划分成互相独立的编码树单元(Coding Tree Unit,CTU),CTU特征信息如图1所示。图1(a)中,1个CTU可以递归划分成若干个CU(Coding Unit),CU尺寸最大为64×64,最小为8×8。其中虚线处划分区域称为变换块(Transform Blocks,TB),实线划分区域称为编码块(Coding Blocks,CB)。一个CB(32×32)可以继续划分成若干个预测块(Prediction Blocks, PB),如图1(b)所示。在编码过程中,预测块(PB)传递运动矢量(Motion Vector,MV)等相关信息。图1(c)中,CTU划分对应的四叉树结构,root节点表示1个最大尺寸的CTU,深度d=0。1个节点每进行1次划分,得到4个子节点,深度d增加1。当最大深度为3时,CU达到最小尺寸。因此,相比于H.264/AVC固定编码单元模式,HEVC对视频图像的划分更加灵活。对于视频画面比较平缓的场景,如天空,沙滩等,采用较低的划分深度可以降低计算复杂度。对于视频画面中快速运动的物体或变换明显的场景,如高速公路或复杂物体纹路等,采用较高的划分深度能提高物体边界的细致程度。

精准扶贫的前身是扶贫开发。党的扶贫开发可以分为7个阶段,即:扶贫萌芽(1938—1948)、输血救济(1949—1977)、制度改革(1978—1985)、扶贫开发(1986—1993)、八七攻坚(1994—2000)、村级扶贫(2001—2012)、精准扶贫(2013—2020)。在各个阶段,扶贫与党的农村工作相互融合,密不可分。

从表7中可以看到,除了自我效能感与人际关系绩效相关性不显著之外,其余各维度都是显著正相关的。根据验证结果可以发现,人格特质与工作绩效存在显著相关。成就需要、控制源、自我效能感与工作绩效都是正向相关,但成就需要对任务绩效、人际关系影响最大; 控制源与工作奉献的关系更为密切; 自我效能感对任务绩效、人际关系、工作奉献影响较小。

  

图1 CTU特征信息

从比特流中获得的运动矢量含有大量的噪声,会导致分割精度降低。所以在进行LBP特征提取之前,需要采取预处理的方式来构建稳定的运动矢量域。本文对运动矢量做以下简化处理[8]

 

(1)

经特征提取后得到的局部信息需要利用概率估计对4×4块进行背景建模。由于LBP是二进制代码按照一定顺序存储为十进制数值,而不是普通数字。因此,传统的以数值估计为基础的估计方法,例如,参数化的高斯混合模型(GMM)[9]、非参数的核密度估计(KDE)[10]等,都不能直接用于局部背景建模。本文定义距离函数d(p,q)表示2个局部模式pq的比特差,则局部估计核函数为其中g为典型的高斯函数。

课堂中,教师提供实验器材,鼓励学生自主设计实验,小组讨论制定实验方案。同时,教师巡视指导,选取实验方案展示,并组织其他小组进行讨论、补充、修正,确定方案。最后,教师可以选择用表格的形式(表1)直观呈现实验步骤,使学生认识到确定、控制变量与设计实验之间的关系,促进学生对控制变量的理解和运用,帮助其领会实验设计思路,提高科学思维能力。

对简化后的运动矢量进行去噪处理:

 

(2)

式中,Tmv为阈值,(x,y)为宏块中心坐标,M(x,y)为去噪后块运动矢量的幅值,hx,y,vx,y分别为运动矢量在水平和垂直方向的分量。

土壤酸碱度是土壤形成过程和熟化培肥过程的一个指标,不仅仅影响土壤中养分存在的形态和有效性,而且对土壤的理化性质、微生物活动以及植物生长发育也有很大的影响。据有关研究资料指出,土壤pH值是估计植物营养元素相对有效性的指标,土壤对植物生长所必需的大多营养元素,而且pH值在6~7范围内有效度最高[15]。

K为局部模式的模型数,η为学习速率,Tm为控制匹配的参数。在给定t-1时刻的概率密度函数和当前t时刻的局部背景模式pt情况下,当前的局部模式pt依次去匹配K分布的概率密度函数,若表示匹配成功,更新概率密度函数如下:

1.2 LBP特征提取

从码流中获取的信息不能直接用于压缩域的背景建模,因而在背景建模前,需对这些信息进行必要的特征提取。LBP多用于特征提取领域,拥有灰度平移不变性、计算复杂度低等优点,尤其对于图像的纹理特征具有很高的辨识度。LBP值是通过一个中心像素和周围3×3的正方形范围像素间“相对”的关系比较得到,并用这个值来反映该区域的特征信息。本文将LBP运用于压缩域,对可靠的运动矢量区域作特征提取,以描述相邻块之间的空间相关性。本文采用的LBP特征信息提取方式如下:

(1)相邻块的MV幅值与当前块MV幅值的差值大于阈值TAM,记为1;

(2)相邻块的MV幅值小于当前块的MV幅值,但是相邻块的MV幅值与深度d的乘积大于当前局部MV幅度均值与深度d均值的乘积,记为1;

(3)相邻块的MV幅值与深度d乘积大于阈值Tmvd,记为1;

(4)不能满足以上3种情况的块标,记为0。

经过多次实验发现,方式1中阈值TAM取值为3,可以有效去除固定摄像头的抖动等引起的运动矢量噪声;方式2可以有效去除复杂背景引起的信息误判,准确提取运动物体的信息;方式3中的阈值Tmvd取值由当前局部信息MV幅值的平均值与平均深度的乘积决定,主要用于运动物体边缘信息的提取。

利用上面自定义的3种提取方式对实例进行编码,如图2所示。假定从当前块B0出发,首先搜索4条边B1—B4,再搜索4个角B5—B8,继而按顺序去遍历相邻块,计算局部MV幅度平均值及深度平均值,最后根据自定义规则使局部二值化。图2展示了编码的完整步骤。B1,B3和B4的MV幅度值大于当前块B0,记为1;B6和B8与当前块B0深度一致,但是MV幅度值比当前块B0小,故记为0;B2和B7的MV幅度值大于当前块B0,并且深度值大于当前块B0,记为1;B5虽然MV幅度值较小但是满足方式2的条件,故记为1。

  

图2 基于宏块分块的LBP值提取

2 背景建模与运动物体分割

式中,tref为参考帧号,t为当前帧,m=(hx,y,vx,y)为当前帧内的宏块匹配参考帧内相应块所得到的运动矢量。

式中,ωk,t-1为归一化的K权重,M为背景的数量。

文献[8]的实验表明,深度d越大的区域运动矢量的可信度越高,即该区域块为前景目标的可能性越大。为此,本文结合块划分深度值d与运动矢量以获得可信度较高的运动矢量域。考虑到MV的水平分量和垂直分量彼此有一定的相关性,增加了背景建模的难度,本文用MV幅度来反映目标物体运动能量大小的特征。

一个周末,王树林从学校接回了小龙。辛娜并没有在下班后回来,王树林买菜做饭,直到热腾腾地端上桌,辛娜还是不见影子。饭后,小龙回房学习去了,初三阶段,压力徒增,小龙变得有些沉默寡言。王树林在抽了一支烟,最后他还是决定给辛娜打个电话,理由很充分,周末陪孩子为重,怎么可以毫无生息地玩失踪呢?

 

(3)

式中,λ为加权系数,xk,t为指标变量,如果匹配则为1,否则为0。若xk,t=0,以较低的初始化权重替代原来的权重。此外,当前的局部模式pt的高斯概率密度分布Pb(pt)定义如下:

ωk,t=(1-λ)ωk,t-1+λxk,t

(4)

若未匹配成功,则概率密度函数保持不变。另外,K的概率密度函数是按其权重大小进行降序排序的,权重公式如下:

 

(5)

其次,中国特色社会主义文化自信具有精神性信仰维度,以及经济形态的世俗化维度,遵循并拓展了科学社会主义的理论逻辑。

(2)将施工场地和作业限制在工程建设允许的范围内,合理布置、规范围挡,做到标牌清楚、齐全,各种标识醒目,施工场地整洁文明。

考虑到如果当前块是帧间块,由于运动估计的特点是在帧间预测编码中匹配帧间相似块,利用MV将追踪当前块pt回溯到相应的参考块,因此计算帧间块概率时,利用参考块的概率以增加结果的准确性。若参考块的概率为Pr,则当前的局部模式pt的概率Pf优化为:

 

(6)

图3和图4为序列的分割效果图,(a)为所选帧的原始图像,帧号标于图的左上角。从图3中可以看出,对于高清视频序列Basketball(高)的视频,3种方法都能达到基本的提取目标运动物体效果。GME分割方法对于边缘检测有着细致的表现,但是从所选择的几帧画面来看,GME存在把复杂背景布局划分为前景的缺陷,例如篮球框;STF方法同样对边缘检测不够理想,并且还会出现散乱分割的块;而本文的方法不存在其他2种方法的缺陷,无分散点,边界噪声低,分割精确度高。

3 实验与结果对比

本文实验运行于Intel®,CoreTM,i5-4201@2.40 GHz,8 GB内存的Microsoft Windows7系统,运用Visual Studio 2012编译器,HEVC编码器的版本号为HM10.0。首先对3个标准测试序列进行编码,作为本实验测试使用的HEVC压缩视频流,然后运用本文算法、全局运动估计(Globe Motion Estimation, GME)和均值滤波器(Spatio-Temporal Filtering, STF)算法处理视频流,最后将各方法的分割结果进行对比分析。3个标准序列为高清视频序列Basketball(高)(分辨率832×480)、低分辨率(分辨率352×288)的视频序列Hall Monitor和低分辨率(分辨率352×288)的视频序列Basketball(低)。Basketball(高)视频序列是多名篮球选手在室内篮球场进行投篮训练的场景,物体运动快速,并包括篮球框等复杂背景;Hall Monitor视频序列是酒店走廊单个顾客出现在画面中并离开的场景,运动相对较为缓慢,背景较复杂,并且视频清晰度受光线影响较大;Basketball(低)视频序列为2名篮球运动员进行运球进攻的场景,目标物体运动相对更为缓慢,背景比较单一。本实验对压缩的视频标定如下:高清视频序列Basketball(高)标定50帧,低分辨率序列Hall Monitor标定100帧,低分辨率Basketball(低)标定30帧。

本文设定阈值Tf,当前块pt的概率大于Tf判断为前景,反之,判断该块为背景块。

图4为两组低分辨率视频序列Hall Monitor与Basketball(低)的分割结果。对于Hall Monitor视频序列,GME存在较大的缺陷,部分背景区域被错误划分为前景,并且对边缘的分割也不再同高分辨率一样细致。STF虽然能正确分割出运动目标,划分也更为细致,然而其边缘分割不够理想,并且少部分前景区域被错误划分为背景。对于Basketball(低)视频序列,GME的划分结果存在很多错误分割的区域,STF划分出现很多散乱分割的块。本文方法引入自定义局部模式比较方法,有效降低了由于光线等原因引起的背景噪声,提高了目标物体边缘检测能力,避免了由于运动矢量信息过少引起的分割精度不高的问题,同时在背景建模完成后期引入参考块的概率密度增加了当前块概率密度的可信度,使本文方法相比于GME和STF运动物体分割更加准确,前景和背景错误分割区域更少。因此,本文方法对不同场景处理表现出较高的稳定性。

  

图3 高分辨率视频序列分割结果

  

图4 低分辨率视频序列分割结果

为了得到更具体的比较效果,本文引入3个指标来衡量算法的客观性能,分别为分割精度(Precision)、召回率(Recall)和综合评价指标(F-measure)。

分割精度指分割效果图中正确分割的前景宏块数与分割效果图中所有前景宏块数的比值:

 

(7)

召回率指分割效果图中正确分割的前景宏块数占整个真实前景宏块数的百分比:

 

(8)

式中,Tp为分割效果图中正确分割的前景对象宏块数,Fp为分割效果图中错误分割的背景对象宏块数;TN为分割效果图中正确分割的背景对象宏块数,FN为分割效果图中错误分割的前景对象宏块数。

Dietterich在文献[4]中从统计、计算和表示三个层面阐述了集成学习的相对于单一学习器的优越性。本节重点分析集成学习模型的预测误差计算方法,并分析有效控制误差的途径。

综合评价指标是分割精度和召回率的加权调和平均,是对分割精度和召回率综合考量的一个指标:

作为一名新时代班主任,面对“如何保持班级群的正确聊天姿势”这一课题,结合我自己的亲身体会,谈几点个人看法。

 

(9)

分割精度越高表示错误分割越少,分割的运动目标对象越准确,而召回率越高表示没有被分割出来的前景区域越少,丢失运动目标信息越多。

本实验分别选取测试视频序列的前30帧的结果进行分析,3种方法在测试序列上的性能指标如表1所示。

 

表1 各算法分割的性能指标比较 %

  

视频序列分割精度本文算法GMESTF召回率本文算法GMESTF综合评价指标本文算法GMESTFBasketball(高)81.4777.6475.3090.7089.4883.3485.8383.1476.82 Hall Monitor(低)77.3758.1175.6489.0861.3581.0484.5059.6878.24 Basketball(低)76.6162.7567.7581.3171.4873.4878.8966.8372.89 平均值78.4866.1772.9087.0374.1079.2883.0769.8875.98

从表1中可以看出,GME分割对于高分辨率视频序列有着较高的分割精度、召回率和综合评价指标,但不适合用于低分辨率视频;STF分割对高像素视频和低像素视频的3个指标变化不大,并且平均的综合评价指标达到75%以上,分割效果较好;对于不同像素和不同视频内容,本文方法分割的3个指标都是最高的。对于2个低分辨率视频,其分割的平均综合评价指标达到了81.70%,进一步表明本文方法不但对高分辨率视频分割的效果有显著的成就,也解决了相对运动缓慢的目标物体在低分辨率视频中分割精度不高这一问题。

4 结束语

针对相对运动缓慢的目标物体在低分辨率视频中分割精度不高的问题,本文提出了一种基于运动矢量的LBP核密度运动物体分割方法。充分利用码流中宏块信息,提出了应用于压缩域的LBP算子,同时在处理局部比特差时引入非传统核函数,在保证高分辨率视频分割效果的前提下,不仅提高了相对运动缓慢的目标物体在低分辨率视频中的分割精度,而且也提高了背景复杂和光线强度较低的视频序列的分割精度,在工程上有一定的应用价值和扩展意义。但本文算法仅对标准序列做了验证,还未在实际视频图像分割中验证,下一步将着手相关验证工作。

参考文献

[1] LIU P, GUO J M, CHAMNONGTHAI K, et al. Fusion of color histogram and LBP-based features for texture image retrieval and classification[J]. Information Sciences, 2017:95-111.

[2] WANG F, AINOUZ S, LIAN C, et al. Multimodality semantic segmentation based on polarization and color images[J]. Neurocomputing, 2017,253:193-200.

[3] 韩常.基于超像素分割的时空上下文模型视频追踪算法研究[D].兰州:甘肃政法学院,2017.

[4] HE X, LI X, QING L, et al. Study on segmentation-based HEVC compression performance[C]//International Symposium on Computational Intelligence and Design. IEEE, 2017:417-420.

[5] CAI C, CHEN L, ZHANG X, et al. Moving segmentation in HEVC compressed domain based on logistic regression[C]//IEEE International Symposium on Broadband Multimedia Systems and Broadcasting. IEEE,2017:1-5.

[6] 崔智高,李艾华,王涛,等.基于运动显著图和光流矢量分析的目标分割算法[J].仪器仪表学报,2017(7):1791-1797.

[7] LIAO S, ZHAO G, KELLOKUMPU V, et al. Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes[C]//Computer Vision and Pattern Recognition. IEEE, 2010:1301-1306.

[8] 牛志国,梁久祯,吴秦.基于块划分的HEVC运动目标分割方法[J].计算机工程与应用,2016,52(14):202-208.

[9] STAUFFER C, GRIMSON W E L. Adaptive background mixture models for real-time Tracking[C]// IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society, 1999:246-252.

[10] OJALA T, PIETIKINEN M, MENP T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7):971-987.

 
周巧娣,刘松茹,蒋洁
《杭州电子科技大学学报(自然科学版)》2018年第03期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号