快捷分类

基于运动姿态描述子特征和词袋模型的行为识别

更新时间：2009-03-28

0 引言

人体行为识别是计算机视觉的一项挑战，它在视频监控、人机交互、虚拟现实、体感游戏等领域有广泛应用，受到研究人员的关注[1-3]。人体行为识别中一大难点是数据提取过程中由于受到视角、光照及背景等因素的影响会使得识别的精度大幅度下降。微软Kinect传感器的发布，使得传感器可以从深度图像中精确的估计出人体骨架关节点的信息。因此引起了研究人员的关注。

Wang J[4]等人提出了基于三维人体骨架关节点子集的行为识别方法，MihaiZanfir[5]等人提出了基于运动姿态描述子的三维人体行为识别方法。SharafA[6]等人提出了基于角度描述子协方差特征的三维人体行为识别。虽然基于三维人体骨架序列的研究取得了一定进展，但是在识别精度上依然有很大的提升空间。

本文基于三维骨架序列信息采用词袋模型[7]和运动姿态描述子[5]并运用改进硬向量编码的方式，最后在数据集MSR Action3D上用Lib linear分类器分类，获得了很好的分类精度。实验结果优于其他方法。

1 词袋模型研究

词袋（bag of word）模型最早是文档的一种建模方法，把一个文档表示为向量数据，从而使计算机处理文档数据更加便捷，而后运用到图像和视频处理中。

另外，国家实行用水总量、用水效率、水功能区限制纳污“三条红线”控制，核定江西2015年、2020年和2030年用水总量控制指标分别为250 亿 m3、260 亿 m3和 264.63 亿 m3。近年江西省用水总量已接近或超过国控指标。超出国控指标将面临区域限批，直接影响重大项目审批立项。

BOW模型一般分为五个基本步骤。①提取人体特征信息，就是要从图片或者视频去提取有用的信息，这属于底层特征提取.本文用的是提取三维骨架信息。②特征描述，这一步就是为了获得更多信息，属于对步骤1的提纯，本文运用MP描述符来描述特征信息。③生成视觉单词，这一步的主要目的就是获得最能代表动作的信息，通过对从描述符运用K-mean方法去聚类得到视觉单词。④特征编码，输入每帧的特征描述符以及生成的视觉单词，获得编码矩阵。这步会对每个描述符运用视觉单词重新被编码从而得到编码向量，它的长度和视觉单词大小一致。不同的编码方式会得到不同的编码矩阵，本文采用改进的硬向量编码方式。⑤汇聚特征，这个步骤的输入是一个编码矩阵输出，是每个动作的一个集合矢量，常用的方法有两种，分别为average pooling和MAX pooling。本文采用后一种汇聚方法。最后就是训练分类器获得优良的分类精度，本文采用Lib linear线性分类器。

2 运动姿态描述子研究

运动姿态描述子（motion posture descriptor），是一个基于帧的并在其周围的短时间窗口内，帧的动态提取三维人体姿态信息及相关关节速度和加速度的信息的描述符。由于像惯性这样的物理约束，或者在肌肉驱动上的延迟，研究发现人体运动和该运动姿态基于时间上的以用一阶、二阶导数表示的二次函数很接近，由此提出MP描述符。

中国大型浮顶储罐均设置了完备的固定式消防系统，但由于泡沫消防炮用水量巨大，只能适用于地表水源充足的地区，且要配套大流量的吸水泵、泡沫比例混合器以及大口径高流量的泡沫消防炮，设备之间用超大直径的双层专业消防水带连接，目前大功率移动式消防设备配置相对较少应用。

[1]胡琼,秦磊,黄庆明.基于视觉的人体动作识别综述[J].计算机学报,2013.36(12):2512-2524

为了抑制估计的输入姿势中的噪声，并补偿不同主体之间的骨骼变化，我们按照以下所述对姿势进行归一化。导数矢量也进行了重新调整，以使它们具有单位范数，这种标准化还消除了不同输入序列间绝对速度和加速度的无关变化，同时保留了不同关节之间的相对分布。时间t处的帧的最终描述符Xt是通过连接时间上的姿态信息及其导数得到的：Xt=[Pt,αδPt,βδ2Pt]。参数α和β加权两个导数的相对重要性，并且在训练集上进行优化。

3 改进硬向量编码研究

从BOW模型中可以看出其第4步就是采用编码方式，由于提取的每一帧描述子中包含了大量的冗余与噪声，为提高特征表示的鲁棒性，需要对描述子进行特征编码，从而获得更具判别能力的特征表示。不同的编码方式会有不同的分类精度，硬向量编码方式在对向量进行编码时，要计算向量和码本中所有码值的欧式距离，以此来寻找符合条件的视觉单词并赋权值。

传统的硬向量编码[8]描述如下：让X=[x1,x2,…,xn]∈RD×N表示N个从视频序列中提取出来的D维特征向量，B=[b1,b2,…,bm]∈RD×M表示有M个视觉单词的字典，V=[v1,v2,…,vn]表示编码后对应的N个特征。公式如下：

从传统的硬向量编码可以看出，在特征编码过程中对最近的那个视觉单词加权值1，其他均标0。因此它只是对局部特征进行很粗糙的重构，这很容易丢失很多重要的信息。

所以在硬向量编码的基础上进行改进，改进的公式如下：

党的十九大报告提出要“把好干部标准落到实处。坚持正确选人用人导向，匡正选人用人风气，突出政治标准，提拔重用牢固树立‘四个意识’和‘四个自信’、坚决维护党中央权威、全面贯彻执行党的理论和路线方针政策、忠诚干净担当的干部”。党的十九大修改并通过的《中国共产党章程》明确党的干部要做到“忠诚干净担当”，成为新时代干部选拔任用工作的总方向和根本要求。突出政治标准选拔干部，就是要把中央选人用人新要求落实到干部工作实践中，着力建设高素质专业化干部队伍。

最后研究训练-测试比例不同对精度的影响，得出如图4所示结果。

招数3：尽量选择信任度高的专卖店或平台，切不可贪低价占便宜。而且一定要让商家开购物小票和发票，一旦发现商品有问题，可拿着这些凭证去找商家维权。

4 实验结果与分析

本文设计的识别系统在BOW的基础上从深度图像中提取出人体骨架信息，用MP描述符描述并用K-means方法聚类出视觉单词，然后用改进的硬向量编码方式编码特征，汇聚出整个动作序列的密码向量最后用lib linear分类器训练分类。整个流程如图：

图1 整体流程图

本实验在MSR-Action3D数据集上进行实验，MSR-Action3D数据集由RGB-D相机捕获的时间分段动作序列组成，数据集中有20个动作，有10位实验者，并且每位实验者重复这20个动作2-3次。总共有567个序列其中有些序列严重损坏，所以实验最终选取其中的557个进行实验，本文采取与文献[5]相同的对α，β的设置。设计好系统后发现影响实验的因素有三个分别是视觉字典的大小、距离视觉单词最近的K取值还有训练-测试的分配比例上。为了实验的稳定性，每次实验重复进行5次取均值。

首先分析距离视觉单词最近的K取值对分类精度的影响，与此同时选取视觉字典的大小为4096，训练-测试的比例为1:1即选取（1,3,5,7,9）5人为训练集其余为测试集。得出如图2所示结果。

图2 K对精度的影响

从图2可见，K的取值对分类精度是有影响的，在K=5之前随着K的增大分类精度也逐渐增加，而后出现下降趋势。考虑降低运算量，本文取K=4。

引种栽培后，需继续研究药材能否在引种地正常生长，以及药材品质的变化情况，以确定引种地是否适宜药材大面积生产以及药材适宜采收期，制定黄芩无公害栽培标准操作规程，进一步建立黄芩无公害生产体系，为中药材生产提供优良黄芩种质资源及药材产品。

勒菲弗尔在《翻译、改写以及对文学名声的控制》一书中首次引入了“改写”这一概念，认为翻译就是一种对原文的改写，而改写就是操作。他认为“所有的改写，不管其目的如何，都反映了某种意识形态和诗学，从而操作文学在特定的社会里以特定的方式其作用”。而在电影字幕翻译中，出于迎合目的语观众的口味以及娱乐化的价值取向，可以对原文内容进行适当的改写。翻译是戴着脚镣跳舞，改写必须把握好适度原则，不可以脱离原文，随意改写。

图3 字典对精度的影响

[2]Presti LL,Cascia ML.3Dskeleton-based humanactionclassification:A survey[J].Pattern Recognition,2016.53(3):130-147

与传统的硬向量编码相比，改进的编码方式给最近的K个视觉单词加权，这样，有效地解决了视觉单词的模糊性问题，提高了识别的精度。

3.3 加强术后生命体征监测，及时给予氧疗术后要密切观察患者的自主呼吸的恢复情况，包括呼吸频率、节律、幅度、肺部啰音、血氧饱和度，定时测定动脉血气。由于麻醉和手术刺激反应的关系，使患者肺顺应性降低，通气功能下降，患者不同程度存在缺氧，因此术后患者应及时给予吸氧，常规必须给予吸氧24 h，流量视具体根据病情而定。上腹部手术，老年性肺功能不全者术后氧疗时间适当延长，停止时采用间断过渡法直至完全停止。

图4 训练-测试比例对精度的影响

从以上实验看出训练-测试集的比例不同对分类精度也是有影响的，但是当过多的数据用于训练是会出现过拟合现象，这样不利于客观分析。所以本实验采用训练-测试比例为1：1。

以上是对影响本文设计的因素的研究，为了说明本设计的实用性还需与相关的实验进行对比，为确保设计的有效性和公平性，本实验参照文献[5，9]，选取1、3、5、7、9这五位单号表演者的行为骨架序列数据为训练集，其余表演者的骨架序列数据为测试集。

表1 各种方法在MSR Action3D数据集上的实验结果

精度方法63%74.7%88.2%89.5%91.7%92.52%HiddenMarkov Model[10]ActionGraphonBag of 3D Points[11]Actionlet Ensemble[4]Lie Group[9]Moving Pose[5]本文

从表1中可以看出本文方法在识别精度上要优于其他方法，相比于早期隐马尔科夫模型[10]在精度上提升了将近30%；而且也要比三维点包上的动作图方法[11在精度上提升了约18%；最后相比同样运用运动姿态描述子的文献[8]，该文献运用MP描述子和KNN方法也取得了很好的精度，但是本文运用MP描述子与词袋模型相结合的方法使得精度比之提升了0.82%。上述结果表明，本文所提方法能够提高识别精度。

其次，高校学生个体的差异性。高校学生人数多，对知识的掌握程度也不同，因此，分析学生教学对象的差异性，了解学生是实施差异教学的关键。学生的层次不同，教师在选择思想政治教育的方法也要因人而异。

5 结束语

为了提升基于三维骨架序列的人体行为识别的精度，本文选用词袋模型在提取骨架信息后用运动描述子来描述，同时选出一种改进的硬向量编码方式来编码特征，在简化特征向量的同时进一步提炼特征信息。最后在数据集MSR Action3D上实验并在识别精度上取得了很好的成果。但是在识别精度上依然有很大的提升空间，这值得我们去研究，比如在描述子不同或者编码方式不同时，可能会取得更高的识别精度，获得鲁棒性更好的识别方法，这也是我们以后的研究方向。

研究完K对精度的影响后，接着研究视觉词典的大小对分类精度的影响。同样的选取K=4，（1,3,5,7,9）5人为训练集其余为测试集。实验结果如图3所示。

参考文献(References):

从视频中提取的每一帧中的每个3D关节位置用pi=(px,py,pz)来表示，i{1,...,N},这里的N表示人体关节总数。每一帧我们计算出一个MP并将3D关节点归一化串联即P=[p1,p2,…,pn]，还有其一阶二阶导数δP(t0)和δ2P(t0),导数被当前处理中的5帧时间窗口来估算，δP(t0)≈P(t1)-P(t-1)和δ2P(t0)≈P(t2)P(t-2)-2P(t0)。为了更好的数值近似我们先在时间维度采用5乘1的高斯滤波器（σ=1）平滑每个坐标归一化向量。注意，高斯平滑会产生两帧的滞后，这在实践中不会显着影响整体延迟。

分别移取100 μg碲标准溶液系列于25 mL比色管中，加入不同量的显色剂氢溴酸(1+1)-溴化钾(饱和)溶液，以水为参比，按实验方法1.2进行试验，结果见表2。试验结果表明，氢溴酸(1+1)-溴化钾(饱和)溶液的用量在10～12 mL范围内，吸光度值基本保持一致，所以本法选择氢溴酸(1+1)-溴化钾(饱和)溶液的用量为10 mL。

从图3可以看出字典大小对精度也是有影响的，当字典在2048之前精度呈上升趋势，而后有回落。故本文采取的字典大小为2048。

[3]ZhangJ,LiWOgunbonaPO,etal.RGB-D-based actionrecognition datasets:A survey[J].Pattern Recognition,2016.60(12):86-105

[4]Wang J,Liu Z,Wu Y,et al.Miningactionlet ensemble for action recognition withdepth cameras[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2012:1290-1297

[5]Zanfir M,Leordean M,Sminchisescu C.The moving pose:An efficient3D kinematicsdescriptorforlow-latency action recognition and detection[C]. Proceedings of IEEE Conference on Computer Vision,2013:2752-2759

[6]SharafA,TorkiM,Hussein ME,etal.Real-Time Multi-scale Action Detection from 3D Skeleton Data[C].IEEE Winter Conference on Applications of Computer Vision,2015:998-1005

[7]G.Csurka,C.Bray,C.Dance,and L.Fan,"Visual Categorizationwith BagsofKeypoints,"Proc.ECCV Int'lWorkshop StatisticalLearningin ComputerVision,2004.

[8]Sivic J,Zisserman A.Video Google:A Text Retrieval Approach to Object Matching in Videos[C].IEEE InternationalConference on ComputerVision,2003:1470-1477

[9] VemulapalliR, Arrate F, ChellappaR.Humanaction recognition by representing3dskeletons as points in a liegroup[C]. Proceedings of IEEE Conference on ComputerVision and Pattern Recognition,2014:588-595

男性贫血率、生长迟缓率及低体质量率均高于女性，这与国内报道结果基本一致。回族婴幼儿贫血率、生长迟缓率均高于汉族，除遗传因素外，可能与回族特殊的饮食习惯、喂养习惯有关。目前回、汉族的营养不良差异研究较少，有待于进一步探讨。6～11月龄婴幼儿贫血发生率最高，18～24月龄最低，主要为婴幼儿6月龄时，随母体带来的铁几乎消耗完，必需从体外摄入。18～24月婴幼儿的生长迟缓发生率和低体质量发生率均为最高，这与国内研究一致，6月龄后儿童生长发育不良发生率会逐渐上升，生长迟缓和低体质量发生率在1～2岁达到最高[5-6]。

[10]F.Lv and R.Nevatia.Recognition andsegmentation of 3-d human action usinghmm and multi-classadaboost.InECCV,2006.

[11]W.Li,Z.Zhang,and Z.Liu.Action recognition based on abag of 3d points.InWCBA-CVPR,2010.

作者

姚旭

出处

《计算机时代》 2018年第05期

上一篇：基于大数据的个性化学习研究文献分析＊

下一篇：物联网与大数据相结合的电梯调度系统优化方案

《计算机时代》2018年第05期文献

基于RX23T的四旋翼飞行器控制系统设计＊作者：曹继华，梁伟，刘杰，姚慧雄，向晓燕

基于标签分布学习森林的电价概率预测作者：王翔

基于SIFT的飞行器图像自动拼接处理系统的研究与实现作者：王欣

基于大数据的个性化学习研究文献分析＊作者：周显春，谭瑞梅

基于运动姿态描述子特征和词袋模型的行为识别作者：姚旭

物联网与大数据相结合的电梯调度系统优化方案作者：李达铭，樊锐，史海鸥，高姗，田红丽

基于DataSnap技术的大学城商圈安卓APP的设计与实现＊作者：吴顺利，张旭，孙伟，史国滨

响应式Web设计在移动终端的实践探索作者：郭飞军

基于Hadoop的地表温度反演系统的设计与实现＊作者：袁帅，郑逢斌

Java软件保护方案的设计和实现作者：龚少麟

基于VB的单隐含层BP神经网络编程及验证作者：陈鹏

基于Android平台的留学生应用系统的设计与实现＊作者：吴国娟，何明昌，王鹏，吴汉魏，廖海玲

医院集成支付平台的研究＊作者：陈中秋

基于云平台新风监测系统设计作者：高圣伟，李旭，李龙女，刘晓明

基于WSN的农产品冷链物流监测平台设计与实现＊作者：王义勇

PowerPoint软件在机械制图教学中的巧用＊作者：吴浩，于友林

基于视频图像的煤垛自燃检测算法研究作者：吴南，朱向东，高雅昆，李海滨

基于词性和关键词的短文本相似度计算方法作者：赵明月

加大人工智能技术在中小学教育中应用的思考作者：李想

STEM教育与中学信息技术课堂融合的教学设计＊作者：贾亚南，王林，王安全

杂志信息网