快捷分类

基于局部马尔科夫随机场的模型校准嘴唇分割方法

更新时间：2016-07-05

唇语识别(lip reading)是近年来模式识别和人工智能领域的热门研究问题，是声学和图像图形学的交叉学科。该技术涉及嘴唇区域定位、跟踪、特征提取、音素建模和目标识别等关键技术。由于图像序列中嘴唇区域相对位置不固定，现有的技术方法尚不能同时在嘴唇区域的精确分割和实时性方面同时获得满意结果。在唇语识别系统中，最为基础和关键的步骤是实现嘴唇区域分割，即利用精确的图像分割技术界定变化的嘴唇轮廓，进而挖掘人在说话时的唇动(lip movement)特征，实现利用视觉信息实现话语内容的识别。

文献中现有的嘴唇区域分割算法可以大致分为3类：基于像素的方法、基于模型的方法和基于统计的方法。基于像素的方法利用嘴唇区域的灰度图像来获得特征向量，或将图像转换为其他颜色空间并采用PCA(principal component analysis)、LDA (linear discriminant analysis)等实现特征提取[1-4]。基于模型的方法借用一定的几何模型来确定嘴唇的内外轮廓，并借用少量参数来表征该轮廓[5-7]。基于统计的方法发掘特征空间中的数据分布特征和相邻像素之间的空间相互作用关系来进行图像分割，为嘴唇分割提供了一种新颖方法[8]，如利用空间限制的马尔可夫随机场图像分割技术[9-10]。

早期嘴唇区域分割通常通过相机来直接捕获嘴部区域或手动标定唇部区域来实现[11]。然而，这并不是理想的分割方法，本文研究的最终目标是要在变化的条件下(例如变化的光照，不同的肤色或非特定人的说话者等)自动地定位和追踪嘴唇。到目前为止，已经有许多研究者从事研究相关工作。文献[12]通过使用红色排除法在一系列图像上识别嘴唇来找到嘴角，得到了较准确的结果。文献[13-14]利用基于模糊聚类的算法在有胡须的情况下分割嘴唇区域。文献[15]采用自上而下主动形状模型来发现并跟踪内外唇轮廓。然而以上的分割方法在实际的分割过程中会出现一块块的、彼此不相互连通的小区域被分割出来，在颜色对比度较低的情况下，嘴唇边缘轮廓并不十分明显，此时分割的准确率和鲁棒性有待提高。

实验项目的开设要从易到难且环环相扣，通过教学使学生重点掌握仪器的使用和实验技术，因此，在设计MOOC内容时，必须突出课程特色，把握教学重点。一个实验项目一般只学习一种仪器的使用、一种操作技能或一种实验方法；需要用到几种仪器的实验一般放在后面开设，如果学生还没有完全掌握的话可以自己反复观看前面的视频。还可以根据不同实验项目的特点，设计讲解实验原理与动手操作的时间和顺序，可先讲解实验原理再动手操作，也可以先进行实验操作再导出实验原理，并设定实验操作和原理讲解的时间分配。同时根据不同的仪器设定拍摄方位和角度，突出拍摄效果。

本文提出一种新的基于局部模型校准的马尔科夫随机场的嘴唇分割方法，考虑了局部空间的约束，使得分割在各自局部模型中独立进行。采用Kullback-Leiller距离来评估相邻局部模型的一致性，提出了有助于校准其参数的模型校正标准。通过实验与现有的MCM算法比较，证明该方法拥有良好的分割准确性。

1 马尔科夫随机场框架概述

马尔科夫随机场理论提供了一种方便且稳健的方法来建模诸如图像像素或相关特征的环境实体。该模型的应用主要是基于马尔科夫随机场和吉布斯分布之间的等价性定理，该定理在1971年被提出并于1974年进一步发展而来。如今马尔科夫随机场已被广泛用于解决各个层面的视觉问题。

可问题是：林子大了什么鸟都有。我们这一生可能遇到各种奇葩，如果都要和他们置气，那就没完了。庄子说：不遣是非，与世俗处。不要争论说明是非，人生在世，难免有看不惯的人和事，放宽心，笑笑就得了。

目前已有许多研究人员提出了几种估计标准来实现马尔科夫随机场模型的最佳估计。其中，最大后验估计(maximum a posterior, MAP)是最常用的最佳分割标准，并且表现出较高性能。结合标记场的先验分布和观察随机场的条件分布的知识可知，最大后验估计的本质是找到最大后验概率的解f∗，可表示为：

她的身子那样火热，我按捺不住，又和她做了那事。疯了一天，我累了，躺下来就不想动，别呦呦却兴致不减，把脱下来的亵裤套在我头上，让我闻闻是什么味儿。我嗅几口，说是香的，她咯咯地笑，命我把亵裤挂起来。我坐起来，见身后有根刚冒出头的竹笋，就把亵裤挂在上面。

式中，Z为归一化常数；U(f)是先验能量函数(energy function)，是基团势能Vc(f)之和，可表示为：

式中，C是在S范围内的所有基团的集合。

对于给定的分割标签，观察值应是独立且随机的。类似地，本文如式(2)一样定义条件概率P( x| f)：

根据马尔科夫随机场理论，像素之间的相互作用通常被限制在邻域系统中，并且远离轮廓线的像素是不相关的，这可能导致错误的分割。从这个观点来看，本文使用局部化的方法实现分割，有助于避免图像噪声或其他干扰因素的干扰。比如阴影下的鼻孔。因此，本文建议使用马尔科夫随机场模型来实现特定局部区域内的分割，并且沿着初始轮廓定义该局部区域的质心。

式中，U(x|f)是反映观察值与标签值之间相干关系的条件能量函数。在大多数情况下，假设观测数据的条件概率分布服从高斯分布是合理的，因此U(x|f)可以表示为：

8 收费和稿件处理本刊根据有关规定收取一定的版面费(含发表费、绘图费、编校费等)；如需印制彩版，按照1 000元/页收取制版费，请作者在来稿件时一并说明。收款后即寄回正式发票，以供报销。稿件刊登后，即赠予第一作者当期期刊2本，并酌付稿酬。

获得椭圆轮廓后，沿着曲线定义局部区域。在局部模型中，引入窗口函数β(x1, x2)定义马尔科夫随机场的局部区域范围。由半径参数r约束的窗口函数的表达式为：

相关分析显示，民族关系网对少数民族大学生创业能力呈正相关关系，相关系数为0.77，表明民族同胞的支持越多，创业能力越强。访谈发现，有亲友建议其创业的少数民族大学生的创业意愿、接受创业失败的承受力要比没有亲友支持或建议的少数民族大学生强。

一个企业的运营与管理合理与否，终究还是人起作用。企业中人力资源部门作为管理员工的专职部门，更要在企业的经济管理中发挥出激励员工的作用。这要求企业要进行人力资源培训，培养人资部门员工的责任道德意识和管理能力，使他们积极主动的进行人力资源工作。企业在进行人力资源管理时，一定要按照员工的优势以及自身意愿将其安排在最适当的位置，使人员分布合理，使人资部门结构严谨，这样才便于让不同岗位的员工发挥各自的作用。

分割结果为可使能量函数最小化的标记结果f∗：

2 局部马尔科夫随机场模型

pagenumber_ebook=114,pagenumber_book=431

图1 马尔科夫随机场模型流程图

移民扶持资金的专项专用，是保证资金利用效率的基础条件。一方面，相关部门领导要综合考量移民工作实际，为移民管理机构有效地解决人员编制和工作经费不足的问题，保证移民机构工作的顺利开展，有效规避移民扶持资金使用中可能出现的挤占和挪用问题。同时，基于移民机构与县级财政部门沟通效率的重要作用，应建立起科学高效的信息交流机制，保证移民机构能够将资金报账资料及时有效地上报到县级财政部门。另外，为保证移民扶持资金的专款专用，还要在资金管理中实施转账管理制度，保证资金管理的安全性与专属性。

为提高云计算系统资源利用率，本文提出了一种基于改进的粒子群优化的云计算资源调度分配模型.首先，对云计算系统中的资源调度问题进行形式化描述，构建以任务的总完成时间为优化对象的目标函数.其次，求解时采用粒子群优化算法，为保证收敛速度且避免粒子群在搜索过程中陷入局部最优，定义了惯性权重函数.另外，引入一个调整算子以优化位置更新.下一步的工作，将在真实环境中考虑其他因素，如平均完成时间、经济效益、负载均衡等，做进一步的研究以便拓宽其应用场景．

使用马尔科夫随机场模型的嘴唇轮廓分割的整个过程如图1所示。第一步是将包含嘴的图像即感兴趣的区域变换到指定的色彩空间；然后初始化椭圆轮廓和局部半径；再指定分割总类数以及最大迭代次数。为了使局部分割结果平滑地结合在一起，后面的两步是为了进行模型检验和模型校准，此时迭代将继续，直到收敛。最后，在局部结果稳定之后，本文结合局部马尔科夫随机场模型以形成全局分割结果。

2.1 色彩空间转换

为了验证不同光照条件下的鲁棒性，本文提出将嘴唇区域图像从RGB色彩空间转换为LUX(对数色调扩展)色彩空间。如文献[16]证明的，LUX空间中的对数化色彩分量U能够为唇部区域提供足够的对比度，区分唇部和周围皮肤之间的像素。变换方程如下：

pagenumber_ebook=115,pagenumber_book=432

式中，M为图像的最大灰度值，即M=256。

2.2 初始化轮廓的确定

完成色彩空间转换之后，该模型需要一个围绕嘴唇轮廓初始化的封闭曲线。根据观察和研究，嘴唇是包含在一个椭圆框架内的。因此，基于嘴唇的特殊结构，本文采用椭圆轮廓模型来逼近嘴唇轮廓。

综上，本研究提示Gd-EOB-DTPA增强MRI灌注参数与多期肝胆期强化参数对于肝纤维化的诊断及分级具有一定价值。

椭圆轮廓的参数的中心坐标(xc, yc)、长轴和短轴对轮廓初始化至关重要。这些参数的确定直接影响分割过程的效率。本文使用对数化颜色分量U用于定位唇部区域在上、下、左、右4个方向的端点。

假设图像像素有m行n列。每行的平均值和标准差分别为meani和stdi，每列的平均值和标准差分别为meanj和stdj，计算如下：

式中，U(i,j)表示图像在坐标(i,j)处的观测值。设(xc,yc)为椭圆的中心，A为椭圆的长轴值，B为短轴值，可通过如下等式计算：

式中，yU和yD分别表示标准差stdi在顶部和底部变化最显著的位置；Lx和Rx分别表示标准差stdi在左边和右边变化最显著的位置。

5.构建起儿童心理咨询室。逐步完善起留守儿童心理咨询和辅导档案，聘请专业讲师为学生们展开心理辅导，邀请张掖市心理卫生协会的理事长王大顺教授担任学生们的心理辅导员。

椭圆可以表示为：

2.3 基于局部区域马尔科夫随机场的分割

系统能量函数定义如下：

式中，x1，x2是模型中的像素。局部马尔科夫随机场模型如图2所示，局部区域即位于虚线以内。

图2 局部马尔科夫随机场模型

MRF方法是基于此局部区域进行的分割。假设局部区域坐标集合为SL，CL是SL范围内的所有基团的集合，则局部区域的先验能量函数与基团势能可分别表示为：

pagenumber_ebook=116,pagenumber_book=433

式中，是局部区域内的先验能量函数；是局部区域的基团势能表示条件能量函数；μ和σ2是局部区域内每个标记观察变量的均值和方差；表示可以使能量函数最小化的最终分割结果，这里

3 模型检验和校准

为了使局部MRF模型与其邻域的分割结果相协调，本文提出了一种可实现模型检验和模型校准的算法。首先需要为局部MRF定义邻域系统，将此邻域系统表示为NS(M)，M是局部MRF模型，通过下式计算出相对应k的平均值及方差：

现阶段，团结乡乡村旅游发展依然停留在低层次的“做农家事，吃农家饭，住农家房”的农家乐发展模式。经营者大多将垂钓休闲、采摘水果和农业观光作为主打产品。在某种程度上，旅游项目相对来说是十分单一的，没有充分挖掘农业文化和民俗文化的内涵，缺乏新的旅游特色[2]。

式中，；t表示类数；c和c'是局部模型与其邻区的中心；d( c, c′)表示c和c'之间的欧氏距离；对应相应的均值和方差。

对于一幅拥有常规点阵的图像，它的坐标集由S=[1,2,…,s]表示，邻域系统表示为N，根据Hammersley-Clifford定理，如果作用在S上的随机场X服从吉布斯分布，则它一定也是一个马尔科夫随机场。该理论将马尔科夫随机场与吉布斯分布(Gibbs distribution)结合在一起。先验概率 ()P f被定义为：

图2为套筒类铸件浇注系统的应用案例，图2(a)为采用组合式设计的U型不锈钢法兰弯管浇注方式[1]，图2(b)为耐热钢排气歧管熔模铸造的浇注系统[2]，图2(c)为不锈钢涡管的浇注系统图[3]，设置了环形内浇道来提高铸件上端的补缩效果。

其次，KL距离Dk用来衡量第k类分割的两个局部MRF模型之间的差异，有：

式中，μl和σl2分别表示每个标记观察变量的均值和方差。

经校准后的平均值标记为，根据下式计算：

式中，κ∈ [ 0,1]。定义两个阈值Tk与Tr(Tk＜Tr)用于模型校准，如下所示：

如果Dk≤Tk，局部模型的参数不需要调整，因此κ=0。

如果Dk＞Tk，局部模型需要调整，使参数κ=1。

OpenCV是一种基于开源协议BSD((Berkeley software distribution)许可发行的跨平台计算机视觉库。它提供了很多分类、聚类的算法，在人脸检测的问题中主要是利用它的机器学习模块(ml)中关于Boosting算法中的一个应用，即Haar分类器进行人脸特征的检测。

4 实验结果

4.1 定性分析

为了验证该方法的有效性，本文使用了的公开可用的CUAVE数据库[17]，该数据库由克莱姆森大学提供使用。人脸区域的位置可由OpenCV技术检测。

如果Tk＜Dk＜Tr，κ= (Dk-Tk)/(Tr-Tk)。

人脸区域的检测和定位的具体步骤如下：

1) 选取OpenCV中“haarcsacade-frontface-alt.xml”，将检测目标的分类信息用该文件保存，之后使用cvLoad函数将该文件加载，再对图片格式的类型进行转换；

2) 选取OpenCV中专门用来检测图像中是否包含目标的cvHaarDetectObjects函数，调用该函数，可将人脸区域位置由矩形标定出；

3) 选取cvHect变量，将步骤2)中标定的人脸区域返回并保存至cvHect变量中，完成人脸检测。

当前,随着剖宫产手术的普及,使得凶险性前置胎盘的发病率持续上升,有研究表明,11%~24%的前置胎盘患者属于凶险型。对母婴的健康和安全均形成了巨大的威胁[3]。

包含嘴唇的区域可由人脸比例计算出来，实验中，本文认定嘴唇区域位于的人脸区域内，其中Wface代表人脸的宽度，Hface代表人脸的高度，这两个参数可由OpenCV技术直接检测得到。从图3中可看出，只要在人脸能够准确定位的前提下，该方法在定位嘴唇方面切实可行。

图3 嘴唇区域

在此基础上，选取了同一个人说话时的4种不同口型，运用本文提出的方法进行嘴唇分割，得到的结果如图4所示。

从图4中可以观察到，局部MRF模型分割结果明显优于传统的MRF模型，特别是最后一种情况，传统MRF模型几乎不能对唇部形成有效的分割，而本文提出的模型则表现出了优良性能。

pagenumber_ebook=117,pagenumber_book=434

图4 分割结果

4.2 定量分析

为了定量研究本文算法的分割性能，本文采用广泛使用的重叠(overlap,OL)率和分割误差(segmentation error, SE)率[18]来评测分割效果，OL和SE分别为：

式中，OL为测算本文算法所得嘴唇区域A1与真实的嘴唇区域A2之间的重叠率；SE为测算误分割百分比；OLE表示唇外分割错误；ILE表示唇内分割错误。真实的嘴唇区域则由人工手工分割所得，可认为是理想的嘴唇区域。

常规MRF分割方法应用于嘴唇分割的效果不佳，如图4d所示。将本文分割方法与近年提出且性能较佳的混合轮廓模型分割方法(mixed contour model，MCM)进行比较[19]，得到如表1所示的结果，其中MCM算法得到的OL平均值为87.8%，SE平均值为10.9%，本文算法得到的OL平均值为91.0%，SE平均值为7.9%。可见本文提出的算法在OL和SE性能指标上均优于MCM算法。

表1 性能比较

MCM算法/% 本文算法/%OL SE OL SE 87.3 10.0 90.7 8.2 88.9 11.3 91.2 7.9 90.1 9.4 91.7 7.7 87.9 10.2 91.1 7.9 86.5 11.7 90.5 8.9 85.9 13.5 89.3 9.2 87.2 10.6 91.4 7.4 88.8 9.1 91.6 7.3 85.6 12.7 90.4 7.6 89.7 10.3 92.0 7.1

本文实验均在MATLAB上进行，系统环境为英特尔酷睿i5-4200H 2.8Ghz，4GB RAM。

5 结束语

本文提出了一种基于局部MRF模型LUX颜色空间中的嘴唇分割方法。通过在一个椭圆轮廓的基础之上，结合初始化窗口函数来指定MRF模型的局部范围，实现嘴唇区域的分割。最后，提出了MRF模型的参数模型检查和校准方法。实验表明该方法可对唇部进行有效的分割。

参考文献

[1]LEE K D, LEE K, LEE S Y. Extraction of frame-difference features based on PCA and ICA for lip-reading[C]//IEEE International Joint Conference on Neural Networks. [S.l.]：[s.n.], 2005.

[2]NATH R, RAHMAN F S, NATH S, et al. Lip contour extraction scheme using morphological reconstruction based segmentation[C]//International Conference on Electrical Engineering and Information and Communication Technology. [S.l.]： IEEE, 2014： 1-4.

[3]YAN Li, YE Hang, WANG Yi-kai, et al. A lip localization method based on HSV transformation in smart phone environment[C]//International Conference on Signal Processing. [S.l.]： IEEE, 2014： 1285-1290.

[4]GRITZMAN A D, RUBIN D M, PANTANOWITZ A.Comparison of colour transforms used in lip segmentation algorithms[J]. Signal, Image and Video Processing, 2015,9(4)： 1-11.

[5]KASS M, WITKIN A, TERZOPOULOS D. Snakes： Active contour models[J]. International Journal of Computer Vision,1988, 1(4)： 321-331.

[6]NASUHA A, SARDJONO T A, PURNOMO M H. Lip Segmentation and tracking based on Chan-Vese model[C]//International Conference on Information Technology and Electrical Engineering： "Intelligent and Green Technologies for Sustainable Development". [S.l.]：ICITEE, 2013： 155-158.

[7]SUN Chen-yang, LU Hong, ZHANG Wen-qiang, et al. Lip segmentation based on facial complexion template[C]//Advances in Multimedia Information Processing. [S.l.]：Springer International Publishing, 2014.

[8]FU Jian-wen, WANG Shi-lin, LIN Xiang. Robust lip region segmentation based on competitive FCM clustering[C]//International Conference on Digital Image Computing：Techniques and Applications. [S.l.]： IEEE, 2016.

[9]YANG F, JIANG T. Pixon-based image segmentation with Markov random fields[J]. IEEE Transactions on Image Processing, 2003, 12(12)： 1552-1559.

[10]CHEUNG Y M, LI M, CAO X. Lip segmentation and tracking under MAP-MRF framework with unknown segment number[J]. Neurocomputing, 2013, 104： 155-169.

[11]荣传振, 岳振军, 贾永兴, 等. 模糊语言模型在唇读系统中的应用[J]. 数据采集与处理, 2012, 27(s2)： 277-283.RONG Chuan-zhen, YUE Zhen-jun, JIA Yong-xing, et al.Research advances in key technology of lip-reading[J].Joumal of Data Acquisition & Processing, 2012, 27(s2)：277-283.

[12]LEWIS T, POWERS D. Lip feature extraction using red exclusion[C]//Selected Papers from Pan-Sydney Workshop on Visualization. [S.l.]： [s.n.], 2002.

[13]WANG S L, LAU W H, LEUNG S H, et al. Lip segmentation with the presence of beards[C]//International Conference on Acoustics, Speech, & Signal Processing.[S.l.]： IEEE, 2004.

[14]LEUNG S, WANG S, LAU W. Lip image segmentation using fuzzy clustering incorporating an elliptic shape function[J]. IEEE Transactions on Image Processing, 2004,13(1)： 51-62.

[15]MATTHEWS I, COOTES T F, BANGHAM J A.Extraction of visual features for lipreading[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002, 24(2)： 198-213.

[16]LIÉVIN M, LUTHON F. Nonlinear color space and spatiotemporal MRF for hierarchical segmentation of face features in video[J]. IEEE Transactions on Image Processing, 2004, 13(1)： 63-71.

[17]PATTERSON E K, GURBUZ S, TUFEKCI Z, et al.CUAVE： a new audio-visual database for multimodal human-computer interface research[C]//IEEE International Conference on Acoustics, Speech & Signal Processing.[S.l.]： IEEE, 2002.

[18]LIEW W C, LEUNG S H, LAU W H. Segmentation of color lip images by spatial fuzzy clustering[J]. IEEE Transactions on Fuzzy Systems, 2003, 11(4)： 542-549.

[19]STILLITTANO S, GIRONDEL V, CAPLIER A. Lip contour segmentation and tracking compliant with lip-reading application constraints[J]. Machine Vision &Applications, 2013, 24(24)： 1-18.

作者

鲁远耀，周腾鹤，闫捷

出处

《电子科技大学学报》 2018年第03期

上一篇：趋优算子和Levy Flight混合的粒子群优化算法

下一篇：二分网络中多步物质扩散推荐算法的逼近分析

《电子科技大学学报》2018年第03期文献

基于增强学习的下肢助力外骨骼虚阻抗控制作者：黄瑞，程洪，郭宏亮

下肢外骨骼机器人意图识别算法研究作者：陈启明，黄瑞

Kinect与二维激光雷达结合的机器人障碍检测作者：肖宇峰，黄鹤，郑杰，刘冉

基于CNN多层特征和ELM的交通标志识别作者：孙伟，杜宏吉，张小瑞，赵玉舟，杨翠芳

车载移动执法中违规车辆智能检测研究作者：陈刚，陈斌，钱基德

基于感兴趣区域模型的车道线快速检测算法作者：钱基德，陈斌，钱基业，陈刚

一种基于平行坐标系的车道线检测算法作者：王旭宸，卢欣辰，张恒胜，肖亚敏，解梅

车辆多模式多目标自适应巡航控制作者：章军辉，李庆，陈大鹏

车辆复合电源功率分配稳定控制策略研究作者：王琪，罗印升，倪福银

时变信道下车载HDAF协作通信误码性能分析作者：邱斌，肖海林，聂在平，金晓晴

一种车载自组织网络高效数据分发机制研究作者：余玲飞，龚海刚，刘念伯，周圣二

具有提高Q值退耦结构的MEMS谐振器研究作者：鲍景富，张超，吴兆辉

忆阻超混沌Lü系统的隐藏动力学特性研究作者：乔晓华，徐毅，孙玉霞，武花干

新颖高温超导紧凑型双CT结构带通滤波器作者：周立国，李怀明，褚慧敏，杨常林，谭雪薇，粟立勇，羊恺

基于粒子滤波和地图匹配的融合室内定位作者：周瑞，鲁翔，卢帅，李志强，桑楠

趋优算子和Levy Flight混合的粒子群优化算法作者：张新明，王霞，涂强，康强

基于局部马尔科夫随机场的模型校准嘴唇分割方法作者：鲁远耀，周腾鹤，闫捷

二分网络中多步物质扩散推荐算法的逼近分析作者：周海平，沈士根，黄龙军

基于离散粒子群优化的鲁棒Web服务组合作者：叶恒舟，陆湘鹏

基于缓存候选结果集的轨迹隐私保护方法作者：张少波，刘琴，李雄，王国军

城市公交网络运行演化分析与瓶颈甄别作者：王璞，谭倩，徐仲之，鲁恒宇，林涛

中国航空网络时序特征分析作者：牟建红，黄格，吕欣

复杂网络视角下国际贸易研究综述作者：吴宗柠，樊瑛

杂志信息网