更全的杂志信息网

一种基于混合区域分割的特征词袋模型识别算法

更新时间:2009-03-28

无论是流行的商业广告还是不以盈利为目的的效应广告,为了达到在篇幅、时间有限过程中清楚明晰地向接受者传递信息的目的,必然要求所要传递的信息占据主要地位。这就使得在对广告图像处理时需要首先判断哪些内容是图像包含的主要内容,同时避免不相关的文字以及噪声干扰,精确地找出显著区域进行处理。广告图像的另一个特点就是区分性较低,同一类型不同产品的相似度都很高,常用的区分特征很难实现有效区分。因此,对广告图像的分类与识别技术要求有较高的旋转不变性、尺度不变性等仿射不变性特点,同时对于同类区域的划分也有更高的要求。对于基于网络的图片搜索和识别的实际应用情况,待识别广告图像不仅存在众多的拉伸、平移、旋转等形变情况,也常出现非完整图像情况,传统的基于空间金字塔匹配的视觉词典模型算法[1-5]不仅匹配条件较为苛刻,也缺乏抗形变能力。本文基于广告图像搜索识别的应用背景对传统匹配算法加以改进,以实现算法对形变及随机截取的实际图像的准确识别。

1 空间金字塔匹配模型

1.1 特征词袋模型

  

图1 BoF模式示例Fig.1 Example of BoF model

文本词袋模型(Bag of Words, BoW)最开始创建于自然语言和信息处理领域[6],目的是对当前信息文本进行识别与分类操作,基本思想就是将输入文本看作一个无数单词组成的词袋,提取词袋中具有代表性的关键字词并且统计出现的频率,将出现频率高的字词作为特征成为文本分类的依据[7-9]。基于图像模型的特征词袋以特征词袋的形式将图像表示为不同局部特征的集合,既保留了全局特征,也提高了识别的鲁棒性和分类或识别的准确率。图1示出了特征词袋(Bag of Features, BoF)模型[1-2]的示例。提取图像特征后将相似的特征进行合并,并且只保留有限数量的代表特征向量形成代表特征集,最后将原图像映射到代表特征集中作为最终判断图像是否相似的依据。其优点是能够将原图像转变为一系列无序视觉单词的集合,将复杂多变的高维语义特征映射为低维线性特征关系,既保留了全局特征,也提高了识别的鲁棒性和分类或识别的准确率。当然,该方法的局限性也较为明显,丢失了所有描述算子对应的空间位置信息[2],即经过特征编码过程后得到的特征向量只保留当前位置的内容信息而没有位置信息,导致在分类判别的过程中对于内容构成相似的图像分类结果准确度降低,也无法对图像内容信息进行有效的匹配。

1.2 空间金字塔匹配模型

针对BoF模型的局限性, Grauman[3]首先提出了图像金字塔匹配模型,但后来发现该模型存在对高维特征不适应、有局限性的缺点,随后又提出了VGPM算子,并在图像匹配分类过程中取得了良好的效果[4]。Lazebnik[5]借鉴上述思想,引入局部特征在图像整体的空间位置关系,提出了基于空间金字塔匹配(Spatial Pyramid Matching, SPM)的BoF模型,以期克服BoF丢失空间信息的局限。

对目前流行的SURF、HOG、SIFT等多种特征的对比[10]发现,SIFT特征在旋转、尺度不变性等方面均有较好的性能,因此,SPM算法选取了性能较好的SIFT[11]特征建立特征词袋模型。

1.3 空间金字塔模型匹配步骤

空间金字塔匹配方法的基本原理是在特征提取的过程中将图像进行空间位置划分,不同位置图像分配不同权重[3,12];然后将图像局部特征进行量化处理,通过计算加权的方式保留了局部特征的空间位置信息,在二维空间中建立金字塔模型,统计图像子区域的特征直方图。主要包含5个部分:特征提取、空间金字塔分割、建立空间视觉词典、图像表示和训练SVM分类器。基于BoF的SPM模型流程如图2所示[13]

  

图2 基于BoF的SPM模型流程图Fig.2 Flow chat of spatial pyramid model based on BoF

2 基于混合区域分割的特征词袋匹配模型

2.1 概述

从前文分析可以看出,SPM方法能够较好地从几何特征空间的角度出发将不同的特征描述算子归类于不同的网格空间,从而对空间位置进行划分并能够取得较好的效果。有一个大的前提条件就是图像中所有特征描述算子在空间中都必须服从均匀同分布,这样才可以基于几何变化对空间进行统计或者投影。而实际图像内容之间的相互关系往往使得不同的视觉单词服从于不同的空间位置分布,均匀同分布的要求过于苛刻,极易出现误分割。图3示出了当将空间分布不均匀的原始图像分割为4个均匀的网格时出现误分割的情况。

  

图3 空间位置非均匀分布时的误分割情况Fig.3 Image is divided into 4 mesh segmentation

p(cω|μω,Σω)=

2.2 高斯混合模型

假设某单词对应的空间位置向量Xd维,且服从多维高斯分布[14-15],则概率密度函数为

 

(1)

其中:μ为数学期望;Σ为协方差矩阵。这就是单高斯模型(Gaussian Single Model, GSM),表示在特征单词某个潜在的网格中对应的多项式分布。

在实际过程中,每个视觉单词可能与周围k个潜在的网格存在映射关系,需要将该单词与所有网格的分布关系表示出来,由此引入混合高斯模型GMM[16-18]表示每个视觉单词对应空间位置与所有网格间的关系。

 

(2)

其中:πk为各个单高斯模型的权重值;Θ={μ1,μ2,…,μk;σ1,σ2,…,σk}为参数空间,满足如下条件:

与Caltech-101相比,广告图像内容更丰富,形状也更为明显,因此基于空间区域划分的高斯混合模型能够取得较好的效果。因为该算法是从空间特征角度出发,能够从不同角度分别统计相应的子直方图信息。GMM-BoF模型将视觉单词作为区域划分的对象,并将视觉单词以分析统计的方式将概率最大的网格作为其分配的网格,能够自适应地调整所在的区域,因此不需要进行后期调整。实验结果证明,GMM-BoF模型与SPM-BoF相比有着较为明显的优势,最终的分类精度能够达到95%以上,可以满足实际应用中的需求。

 

(3)

[5] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2006: 2169-2178.

 
 

(4)

2.3 参数估计

采用极大似然估计算法EM算法[19]求解模型参数Γ 。极大似然估计算法可以在数据残缺的情况下,通过多次迭代过程求解出参数的最大似然估计,相比于直接求解,其计算复杂度较低,在各个领域都得到了广泛应用。假设参数已知,对于给定的特征向量,根据其空间作为假设其对应的潜在网格;得到特征向量与其对应的网格后,再次优化该模型的各个参数值,重复以上步骤直至收敛,即该模型的极大似然估计。

给定一个特征向量cω和其所在网格g与空间内网格k对应的概率,表达式为

p(z=k|cω,μω,Σω)∝Gauss

(5)

估计步骤中如果限定该特征向量对应潜在网格的数量为k,则该概率可以表示为分别对应某个网格概率的和,公式如下:

p(g=km|cω,μω,Σω)=

 

(6)

不同于Caltech-101数据库,实际应用中广告图像有尺寸多样、规模大、内容色彩丰富等特点。如图7所示,样本库中的图像均是从当前较为热门的100个广告中提取出来的,其中最长的广告90 s,最短的广告15 s。生成广告图像方法为不断提取视频中每一帧的图像并与上一帧图像进行差分比较,此时设定一个经验阈值,如果差值在阈值内则视为相同场景图像,放入同一个类中,如果超过阈值则视为不同场景图像,放入不同的类中。经过以上步骤,每个广告视频均可分割为20个不同的场景类型,每个类型的图像集约包含30张,总计约 60 000 张。在训练样本的过程中,从每个视频中随机挑选约100帧的视频作为测试样本,测试共重复10次。

两组发酵液中剩余葡萄糖含量的变化趋势一致,相比之下,添加咖啡碱的发酵液中葡萄糖的含量下降的更为明显,说明有咖啡碱的存在可能对刺激菌体的生长繁殖存在积极作用,从而加速冠突散囊菌对发酵液中葡萄糖的消耗;二组发酵液总蛋白质含量都随着发酵时间的增加而逐渐升高,而又分别在发酵第8、9 d相继开始下降,一方面冠突散囊菌在发酵培养过程中胞外酶的分泌和积累,另一方面,也可能是由于菌体自溶导致胞内蛋白等大分子物质快速降解。

本文提出了结合概率统计理论的基于高斯混合模型(Gaussian Mixture Model, GMM)空间的特征词袋模型方法。能够根据图像局部特征进行有效的自适应区域划分,从而对每个视觉单词进行假设,估计其空间位置信息,并根据假设得到的空间位置信息生成自适应的、可变的空间网格。同时,希望该模型还能够根据不同的视觉单词的空间位置对划分的网格设置不同的权重。

 

(7)

以上步骤经多次迭代后就可以生成最优化参数,由生成的概率模型,可求得每个视觉单词落入周围潜在网格的概率大小。将所有概率值按照从大到小依次排列,选取其中最大的概率值对应的网格作为该视觉单词所对应的网格。通过以上方法可以求出各类视觉单词所对应的不同区域划分情况。

3 实验结果与分析

3.1 基于Caltech-101的实验与分析

Caltech-101数据库是当前较为流行的图像分类、识别实验数据库之一。它包括了102类不同对象的图像,每类图像数量有40~800个,共计 9 145 张。每张图像大小约为300×200像素。这102类物体虽然在每一类中形态相似且不同类之间形态不一,有利于提高最终分类的精确度,但是由于图像有限并且以目标为中间使其占据了大多数空间,使得能够提取到的局部特征极其有限,不利于后期的处理。为测试模型对形变的抗干扰能力,对Caltech-101数据库中的部分图像进行旋转和尺度变化,将原图像和变化后的图像进行分类匹配操作,定义匹配相似度函数,检验本文算法能否有效地提升抗形变性能。Caltech-101数据库图像示例见图4。

  

图4 Caltech-101数据库图像示例Fig.4 Image samples of Caltech-101 database

假设两幅需要匹配的图像分别为XY,两幅图像的相似度定义为

 

(8)

其中:k为划分的区域网格数;H=[h1,h2,…,hk]通过k个子直方图连接生成;hi为第i个区域对应的直方图;sim(·,·)表示两个子直方图之间的相似性度量方法。本文采用直方图相交法,假定两个直方图为h1,h2,则两个直方图的相似性公式如下:

 

(9)

其中l为直方图中bin的个数。通过式(8)得到不同图像之间的相似度,同时作为后续SVM分类器判断的依据。

在对龟兔赛跑过程进行实现时,借助就是计算机JAVA,而多线程的实现就运用的是Runnable接口,单个类对Runnable接口进行实现的过程中,基于该类针对Runnable接口实现的run()方式,并不能将类视作线程类。对线程进行启动时,无法借助类的实例对start()方式进行直接的调用,应利用Thread类对方法进行构建。在Thread(Runnable target)完成对象构建的任务后,对Thread对象下start()方法进行调用,由此能够对多线程代码进行运行。

从数据库中随机抽取100张图像。对于旋转不变性的测试,将抽取的图像依次进行旋转变化,旋转度数为0°~360°,一共生成9张旋转图像。对于尺度不变性的检测,将上述图像等比例减小尺度范围{1,0.1}。计算原图像和变化后图像的相似度,多次实验求平均值,实验结果如图5、6和表1、表2所示。

  

图5 不同旋转角度变化下的匹配结果Fig.5 Matching results of two algorithms under different rotation angles

  

图6 不同尺度变化下的匹配结果Fig.6 Matching results of two algorithms under different scales

根据实验结果可以看出,与SPM无法适应形变的缺点相比,GMM-BoF模型的抗形变能力有明显改善。

年轻有为的方东升教授一次次背叛自己的妻子黛琳不知悔改,身为生化博士的黛琳面对丈夫的出轨怒不可遏,研制出了使男性丧失性功能的药注射到了方东升体内,没想到这种药的副作用让方东升的生命也开始逐渐衰弱下去,黛琳研制不出解药,方东升发现野生动物身上的雄性激素可以缓解症状,从此以后他就靠野生动物的雄性激素来维持自己身体机能,也以这巨大的代价挽回了妻子黛琳。

 

1 不同旋转角度下两种算法的匹配结果Table 1 Matching results of two algorithms under different rotation angles

  

算法旋转角度/(°)04080120160200240280320360SPM⁃BoF1.00.70.550.320.210.250.410.580.691.0GMM⁃BoF1.00.910.850.730.610.620.70.820.881.0

 

2 不同尺度变换下两种算法的匹配结果Table 2 Matching results of two algorithms under different scales

  

算法尺度0.10.20.30.40.50.60.70.80.91.0SPM⁃BoF0000.040.090.110.200.410.521.0GMM⁃BoF000.090.210.40.610.620.720.881.0

表3示出了GMM-BoF 模型对Caltech-101数据库图像的分类结果,其中k为空间网格数量。如果网格数太少,空间位置信息不能充分表达,很难得到完整的映射关系;网格数目太多,则有可能使相似的特征描述子分属于不同的区域,降低识别精度。由表3结果可以看出,当k=4时分类结果较好。

3 Caltech-101数据库图像分类结果

Table 3 Classification results of Caltech-101 database image samples

  

分类方法分类精度/%SPM⁃BoF63.5GMM⁃BoF(k=2)68.5GMM⁃BoF(k=4)70.2GMM⁃BoF(k=8)69.3

对Caltech-101标准数据库进行分类实验的结果证明,基于高斯混合模型的GMM-BoF模型虽然参数较少,但最终的结果整体优于SPM-BoF,效果较好。

3.2 基于实际广告图像的实验与分析

  

图7 广告图像样本库中部分图像Fig.7 Part of the images in sample library

式中km表示潜在网格。根据式(6)可以求出每个特征向量对应于周边每个潜在网格概率,经过排序就可以将概率最高的网格看作这次迭代过程中该向量对应的网格。参数可通过计算最大似然函数方法得到:

为了提高计算效率,所有广告图像均转换为灰度图像。与Caltech-101库中图像尺寸(约300×200)不同,本实验中生成的广告图像尺度较大,约1 920×1 080。参数k的选择与3.1节相同,分别设为2、4、8。表4示出了GMM-BoF模型对广告图像的分类结果。

大情感与小情感的表述似乎未尽合理,只是为了把这个问题解释清楚权且这样区分。这里所说的“大情感”是指对国家、民族、故乡、母校的情感,“小情感”是指对亲人、教师、同伴和自己的情感。

 

4 广告图像样本库中部分图像分类结果

 

Table 4 Classification results of part of the images in sample library

  

分类方法分类精度/%SPM⁃BoF93.2GMM⁃BoF(k=2)95.4GMM⁃BoF(k=4)96.9GMM⁃BoF(k=8)96.4

(1)根据类似工程实践经验,碾压施工前,应首先制定面板堆石坝碾压施工的相关参数,然后采用逐步收敛法,调整其中一个参数产生连续性的变化,而保持其他参数固定不变,最终通过碾压施工试验得出面板堆石坝碾压施工该参数的最佳取值。最后以此类推,对所有的与碾压施工相关的参数逐一进行参数的最佳取值确定。并通过复核试验,确保所采用的碾压技术的相关参数均符合本工程的面板堆石坝设计要求。此外,本工程在对面板堆石坝的石料选择方面,采用了上游料场作为面板堆石坝的主堆石料,上游砂砾石料场作为面板堆石坝的次堆石区砂砾石料,其他堆石料则采用了生产系统中的成品料。

4 结 论

在空间金字塔模型特征词袋分类方法的基础上,结合高斯混合模型在图像分割的应用,提出了能够以自适应的方式进行区域划分的基于高斯混合模型的空间词袋模型(GMM-BoF)。克服了SPM-BoF算法对于空间信息的不敏感性,实现了区域的自适应分类。在Caltech-101图像库和广告图像实际样本库的测试实验结果表明该模型能够取得较好的效果。

如果说环境保护是开放倒逼的改革进程,1992年联合国里约环境与发展会议通过的指向可持续发展的《中国21世纪议程》,更是直接启动了中国可持续发展的战略进程。1994年,中国在世界上第一个系统推出《中国21世纪议程》,针对21世纪中国的人口、环境与发展、挑战与机遇,系统地制订了中国可持续发展的总体战略和对策方案。1995年,继将环境保护作为基本国策之后,中国又将可持续发展作为国家战略,使可持续发展成为与科教兴国战略并列的国家战略。

参考文献

[1] JGOU H, DOUZE M, SCHMID C. Improving bag-of-features for large scale image search[J]. International Journal of Computer Vision, 2009. 87(3): 316-336.

[2] FERGUS R, PERONA P, ZISSERMAN A. Object class recognition by unsupervised scale-invariant learning[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2013: 264-271.

②锚杆配件:采用高强度锚杆螺母为M24×3,配合高强度调心球垫和尼龙垫圈,采用拱型高强度托盘,承载能力不低于30 t。

[7] LU Z W, WANG L W, WEN J R. Image classification by visual bag-of-words refinement and reduction[J]. Neurocomputing, 2015, 173: 373-384.

[4] WANG J, YUAN J S. Spatial locality-aware sparse coding and dictionary learning[C]//JMLR: Workshop and Conference Proceedings.USA: IEEE, 2012: 491-505.

对于空间视觉单词ω,假设其空间位置信息为为该单词的数学期望,为协方差矩阵,整个高斯混合模型可以表示为

初婚年龄提高,使育龄妇女妊娠年龄相应增高,可能引起自然流产的危险上升;而孕次的增加则往往伴随卵巢功能的衰退,致使发生自然流产的风险增大。城市妇女发生自然流产的危险高干农村妇女[1 3]。

[6] 梁晔, 于剑, 刘宏哲. 基于BoF模型的图像表示方法研究[J]. 计算机科学, 2014, 41(2): 36-44.

[3] GRAUMAN K, DARRELL T. The pyramid match kernel: Discriminative classification with sets of image features[C]//IEEE International Conference on Computer Vison.USA: IEEE, 2005: 1458-1465

[8] DAHMEN W, MICCHELLI C A. Biorthogonal wavelet expansions[J]. Constructive Approximation, 1997, 13(3): 293-328.

PLC-Based Control System for Randomly Choosing Pumps to Operate from a Multi-Pump Group……………LU Xiaofeng, XIA Ping, TANG Shaohua(3·37)

[9] 苏煜, 山世光. 基于全局和局部特征集成的人脸识别[J]. 软件学报, 2010, 21(8): 1849-1862.

[10] 郑永斌, 黄新生, 丰松江. SIFT和旋转不变LBP相结合的图像匹配算法[J]. 计算机辅助设计与图形学学报, 2010, 22(2): 286-292.

[11] JUAN L, GWUN O. A comparison of SIFT, PCA-SIFT and SURF[J]. Journal of Business Education, 2009, 3(4): 143-152.

移动购物越来越影响中国消费者的消费习惯,“内容电商”将成为中国电子商务市场的主要推动力。随着国家对电子商务政策的升温,未来3年,我国3000多万家中小企业将有半数企业尝试发展电子商务,电子商务的人才需求更加趋紧。移动互联网不再是单纯的“互联网+移动通信技术+移动设备+移动应用”,而是“移动互联网=互联网*移动通信技术*移动设备*移动应用*人*物”。

[12] PENG Y, YAN Y, ZHU W, et al. Vehicle classification using sparse coding and spatial pyramid[C]//IEEE 17th International Conference on Intelligent Transportation Systems (ITSC). Qingdao, China: IEEE, 2014: 259-263.

[13] REN Y, BUGEAU A, BENOIS J, et al. Bag-of-bags of words irregular graph pyramids vs spatial pyramid matching for image retrieval[C]//2014 4th International Conference on Image Processing Theory, Tools and Applications (IPTA). USA: IEEE, 2014: 1-6.

[14] WANG H G, LI S L, LI H X, et al. Gaussian mixture model approximation of total spatial power spectral density for multiple incoherently distributed sources[J]. IET Signal Processing, 2013, 7(4): 306-311.

通过整群抽样的方式,从XX省某普通高校选取430名在校大学生为被试,回收有效问卷414份,有效率为96%。其中,男生62人,女生352人,年龄范围在17~22岁之间,平均年龄为19.46岁(SD=0.76);理工类232人,文史类182人。

[15] ARI C, AKSOY S. Detection of compound structures using a Gaussian mixture model with spectral and spatial constraints[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(10): 6627-6638.

函数问题是高中数学一个非常重要的内容,其中函数值域又是一个难点,它可变式为最值问题,也可变式为不等式证明问题,其本身具有一定的综合性。函数值域求解方法灵活多样,可涉及函数与方程的转化、函数与函数的转化、函数与不等式的转化、变量与变量的换元代换、数形结合等多个知识点及思想方法。下面选择具有代表性的一个问题,从多个角度认识和解决,以体现函数值域问题求解的核心思想和方法。

[16] XIONG T S, ZHANG L, YI Z. Double Gaussian mixture model for image segmentation with spatial relationships[J]. Journal of Visual Communication and Image Representation, 2016, 34: 135-145.

[17] ARI C, AKSOY S. Detection of compound structures using a Gaussian mixture model with spectral and spatial constraints[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(10): 6627-6638.

[18] 胡小丹, 李文, 刘海博. 基于高斯统计模型的快速图像区域分割方法[J]. 福建师范大学学报 (自然科学版), 2011, 27(2): 133-137.

小勺将一桶肉汤提到空场上。赵集“呀”一声,回店,又拎出一桶肉骨汤,一筐大碗,说:“爷们儿娘们儿,自个舀。”

[19] LIU X X, WANG Y H, ADANE E, et al. Evaluating the performance of different expectation maximization algorithms in handling complex pharmacometric models[J]. Journal of Pharmacokinetics and Pharmacodynamics, 2015, 42: S60-S60.

 
常青,邵臣,胡越
《华东理工大学学报(自然科学版)》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号