快捷分类

基于多标签判别字典学习的图像自动标注

更新时间：2009-03-28

0 引言

数字采集技术、计算机硬件、存储技术和互联网技术的快速发展，使得成千上万的图像资源能够被大众所获取。为了方便有效地获取和检索如此大规模的数字图像资源，图像检索技术成为了近年来的重要研究课题。当前图像检索技术主要分为两类:基于文本的图像检索(Text-Based Image Retrieval，TBIR)技术和基于内容的图像检索(Content-Based Image Retrieval，CBIR)技术。TBIR需要利用人工对图像进行标注，建立文本索引，然后通过传统的文本搜索引擎来实现图像的检索。但是，面对当前快速增长的图像数据库，手工标注需要消耗大量的人力物力，不适用于大的图像数据库。而CBIR是根据图像本身所包含的视觉内容建立检索依据，图像的“视觉内容”是指图像的低层视觉信息，如颜色、纹理和形状等。CBIR通过提取每幅图像的低层视觉特征，并将提取到的特征以高维向量的形式存入数据库，针对不同的应用情况，TBIR可以采用不同的特征或特征组合来描述图像的视觉内容［1］。以CBIR为代表的图像检索技术在近年来取得了很大的进展，但是其检索效果和其检索方式仍然不能满足人们的要求，其主要原因是计算机获取图像的低层视觉信息与用户理解的高层语义信息之间存在巨大的语义鸿沟。因此，为了获得更好的检索结果，同时解决人工标注带来的问题，图像自动标注技术应运而生。

随着多媒体技术和计算机视觉领域的蓬勃发展，图像自动标注吸引了越来越多的研究者的关注。图像自动标注的目标是自动地为某一幅图像添加恰当的一个或多个能表示该图像的视觉内容的关键词(标签)。在进行图像检索时，自动图像标注是一个关键的步骤，它在缩小图像的低层视觉特征与高层语义标签之间的语义鸿沟之间扮演了一个重要的角色［2－3］。在图像标注的工作中，有时候由于一幅图像的内容比较复杂，使得其往往具有多个标签，据此许多判别方法被提出并将图像标注视为一个多标签分类问题，如文献［4］将其分解成一个独立的二分类问题，每个可能的标签是一个分类器，然而，在这种方法中不同类标签之间的相关性会被忽略［5］。文献［6－9］方法对稀疏编码的研究促进了图像标注中标签传播技术的发展。

本文提出了一种新的基于多标签判别词典学习的图像自动标注方法:1)在经过特征提取后，将判别字典学习技术应用在多标签学习中，同时加入标签一致性正则化项，使得字典学习过程中能够融入标签信息;2)将训练图像样本空间中学习到的一个完整的具有判别性的字典用于新图像的预测。在Corel 5K数据集上进行测试和比较分析，实验结果表明，与当前流行的几个图像标注方法进行比较，本方法具有较好的标注性能。

1 相关工作

图像自动标注的目的是为图像分配若干能描述其内容的标签，这通常被看作是一个典型的多标签学习问题。现在的方法大致可以分为三类:以分类为基础图像自动标注［10］、以概率模型为基础的图像自动标注方法［11］和以重构方法为基础的图像自动标注方法［12］。

分类方法是将自动图像标注看作是多分类的问题。每个语义关键词作为一个独立的图像类别标记，通过训练学习语义标签分类器来预测待标注图像是否属于某个特定的语义关键词类别。每个语义分类器的决策经过融合得到测试图像的最终标注结果。Cusano等［5］通过求解多分类问题来实现标注问题;吴伟等［13］通过利用距离测度学习方法来改进最近邻分类模型，将语义距离融入到模型的构建中，有效改善了标注效果。基于分类方法的主要局限是需要训练图像的监督标签信息来训练分类模型。

θ∈(0,1)，β∈(0,1)，γ∈(0,1)，0<(θ+β)/γ<1，θ+β<1，pr

基于概率建模的方法是从概率统计角度出发，通过在视觉特征的基础上建模图像特征和图像标签之间的共生概率关系，并试图推断图像或注释关键字之间的相关性或联合概率概率分布，并以此进行图像标注。Xia等［11］提出一种基于双层聚类标签优化算法(Tag Refinement based on Bi-Layer Clustering，TR-BLC)算法。首先融合视觉相似性和语义相似性相似的图像，将其分为更小的组;然后对每一组图像使用共现频率和标签间的相关性建立标签与图像子集的概率关系;最后利用改进的Fisher准则判断与图像内容无关的标签完成图像标签的修正，该算法增强了低频词汇的相关度，从而提高了图像标注的性能。

W2是一个语义表:如果样本图像xi和样本图像的xj标签集中有一个或多个相同的标签，则它们有部分语义相关，则设最后联合两个目标函数:

为了增强原始图像标签和视觉特征之间的相关性，本文提出一种基于多标签判别字典学习的图像自动标注(Automatic Image Annotation based on Multi-Label Discriminative Dictionary Learning，MLDDL)，通过在字典学习的初始输入空间中加入标签的相关信息，增强字典的判别性，从而改善标注性能，提高标注准确度。

2 字典学习

设 {(x1，Y1)，(x2，Y2)，…，(xN，YN)} 为训练数据，xi∈Rp是训练集中的图像，Yi是图像相应的标签，xi∈X，X∈Rp×N，X为训练集，p是每个图像的特征维数，N是训练集中的图片数量，Yi= ［y1，y2，…，yL］T是 xi的所有可能标签，L是标签数量，如果第l个标签在图像xi的标签集合中，则yl=1，否则yl=0。

2．1 传统字典学习

字典学习可以称之为简单的稀疏编码，传统的基于逼近的稀疏表示字典训练模型:

相比于经静脉使用阿片类镇痛，椎管内用药副作用发生率低，但其副作用仍然不可忽视。椎管内使用阿片类药物副作用：嗜睡、恶心、呕吐、瘙痒(椎管内吗啡镇痛最常见)、呼吸抑制(肥胖或患睡眠呼吸暂停综合征患者危险升高)、低血压、内脏灌注不足、运动功能阻滞、尿潴留等。

式中:正则化参数是重构误差项，X=K为字典大小)，D为训练得到的字典;A为输入数据X的稀疏编码系数矩阵，A=［a1，a2，…，aN］∈RK×N。字典D 通过在满足约束条件下最小化重构误差得到，K-SVD(K-mean Singular Value Decomposition)［16］在迭代的过程中使用逐列更新策略，通过固定一个变量优化另一个变量来不断学习信号稀疏表示的重构词典。该算法在解决图像处理问题时表现出较好的性能。

2．2 标签一致性判别字典

标签一致性判别词典LC-KSVD(Label Consistent KSVD)［17］是通过在K-SVD的基础上加入图像的标签信息来获得一个判别稀疏编码矩阵A和字典D，它使得拥有相同标签集的样本特征有非常相似的稀疏表示。被赋予标签正则化项的标签一致性判别字典学习的目标函数为:

式中:第一项是重构误差，第二项是标签正则化项，第三项是A的稀疏度。λ，β＞0控制着重构误差、标签一致性正则化和稀疏度三项之间的相对贡献，Q= ［q1，q2，…，qN］∈RK×N是输入样本 X 的判别稀疏编码，qi= ［0，0，…，1，1，…，0，0］T∈ RK是输入样本xi对应的判别稀疏编码。首先假设第i个词典元素di(i=1，2，…，N) 与第i个样本xi(i=1，2，…，N) 拥有相同的标签集。如果xi与词典元素dk共享相同的标签集，则设qik=1;否则qik=0。W∈RK×K表示一个线性变换矩阵，确定一个线性变换矩阵g(a;W)=Wa，转换原始稀疏编码A使得在稀疏特征空间RK中具有更好的识别度。标签一致性正则化项‖QWA‖2F表示判别稀疏编码误差，使得转换稀疏编码WA更好地接近判别稀疏编码Q，增强学习字典的判别性。

2．3 多标签判别字典学习

受文献［12］的启发，在LC-KSVD的基础上，由于多标签具有良好的协同表达能力，为了使字典D更好地表示原始特征集X，引入线性转换矩阵P∈ Rp×p，得到多标签判别字典学习(Multi-Label Discriminative Dictionary Learning，MDDL)。对于一个原始的输入特征xi，有ci=PTxi(ci∈ Rp)，即，C=PTX(C ∈ Rp×N)，则式(2)可表示为:

转换矩阵P能够将原始样本特征信息转换成更具有识别度的特征空间，其中具有相同标签集的样本被聚类在一起，而具有部分相同标签集的能够协作地表示彼此，线性转换矩阵目标函数包括两个部分:

甲洛洛暗自苦笑了几声，把目光从西西的窗口移向广袤的天空，薄薄云层后一牙月亮勾勒出一道完美的弧形，他自说自话：老张啊老张，你以为你还十七八岁啊？你以为人家睡的是你老婆啊？甲洛洛又寻思，如果真能调换，他还是想和嘎绒调换调换，他真的很想和西西睡一觉，那滋味，一定比吃足了一顿腊肉还过瘾！

W1是一个语义表:如果样本图像xi和样本图像xj有完全相同的标签集，也就是Yi=Yj，认为是完全语义相关的，则设

另一方面，具有部分相同标签样本之间能够更好协作地表示对方，其目标函数为:

基于重构方法利用语义概念或视觉图像的稀疏重建模型来完成图像标注任务。Wang等［12］采用稀疏编码框架得到重构系数，利用多标签信息去降低输入特征空间的维度，它包含了两个稀疏编码时期:多标签稀疏重构和图像特征稀疏重构，通过将标签转移到测试图像中得到最终的标注词。此外，臧淼等［14］将语义之间的相关性融入到稀疏/组稀疏编码模型中，通过标签转移寻找测试图像的 K最近邻(K-Nearest Neighbor，KNN)图像来实现图像自动标注;Gao等［8］充分利用了图像类标签和标记之间的依赖关系，提出了基于多层次组稀疏的并行单标签图像分类和标注方法，并取得了较好的标注效果;Tang等［15］提出了一种基于图的半监督KNN-sparse(K-Nearest Neighbor-sparse)学习方法。这些稀疏编码方法的提出促进了字典学习在图像标注方面的应用。

pagenumber_ebook=80,pagenumber_book=1297

通过联合目标函数求解转换矩阵P:

一方面，完全相同的标签集有相似的转换特征空间，目标函数如下:

这里M被定义为:

这里D1是一个对角矩阵 pagenumber_ebook=80,pagenumber_book=1297 i。结合式(3)化简求解后得到式(9):

求得转换矩阵P:

2．4 自动图像标注流程

如图1所示，本文的标注算法分为训练算法和测试算法两部分。训练算法用于建模训练集中的训练数据X和相应标签信息Y，最后得到字典D、标签信息有关的转换矩阵P和稀疏编码系数矩阵Α。测试算法用于处理训练集之外的新图像dnew，并为其指定特定的相应标签。

图1 本文图像标注基本框架Fig．1 Basic framework of the proposed image annotation

训练算法:

二是保证工程安全应用，运值人员须按水位变化情况，查表测算开高，及时调整闸门高度，以满足流量调度要求。运值人员劳动强度大，也难以及时调节。

1)不同标签数目对图像标注的影响。

1)以随机向量初始化字典D，以随机矩阵初始化P和W;

2)更新稀疏编码系数矩阵 Α，即固定 D，P和W，利用FSSA(Feature-Sign Search Algorithm)［18］求解 Α;

形符的类属性可以将具有相同义项的形声字归纳到一起，总结出一个基本含义的范围，而这些形声字的含义就在该范围内，降低了识记的难度。如：“灬”(古同火)表示的火，所以当学生们遇到“热、烈、煎、焦”这些形声字时，可以同火的意义联系起来，利于提高识字效率。

3)更新字典D，即固定Α，P和W，利用式(2)求解字典D;

保时捷是最后登场的一员。单从纽博格林北环的圈速排名来看，它必将在本场测试中创造纪录。但常规道路不同于赛道，我们对911 GT2 RS车主能否在日常生活中触及这辆保时捷的极限心存疑虑。但本次测试打消了我们的顾虑—保时捷车主完全可以将这辆跑车推向极限，但前提是改变自己的驾驶风格并能适应后置后驱的车辆布局。如何在强大的制动力和牵引力的帮助下保持自若与从容，同样是驾驶者必须掌握的能力。

4)更新转换矩阵P，即固定Α，D和W，利用式(10)求解转换矩阵P;

5)更新线性变换矩阵W，即固定Α，P和D，利用式(3)中的判别稀疏编码误差项求解得 W =QAT(AAT)－1;

只有梁闰生佯佯不睬，装作没注意她这两年胸部越来越高。演过不止一回的一小场戏，一出现在眼前立刻被她赶走了。

6)目标函数相邻两次迭代误差小于阈值ε时，或迭代次数达到最大值T时，则算法停止，否则转向2)继续执行;

输出:稀疏编码系数矩阵Α，更新后的字典D，线性转换矩阵P和线性变换矩阵W。

测试算法:

1)输入:训练集的标签集合 Y= ［y1，y2，…，yN］，学习到的字典D，编码系数矩阵A，转换矩阵P和新图像dnew。

5)输出:测试图像dnew的若干预测关键词。

式中χ1，χ2＞0是常量，用于平衡重构误差项与稀疏编码系数项。

斯宾诺莎认为由于每个人都是趋善避恶的，而善恶的标准就在于是否能够让个体保持自我完满，如何通过理性的控制获得自由就显得尤为重要。当人们以美食、财富、地位、长寿等外在的物质条件衡量幸福时，人们处于由“嗜好”支配的状态，实际并没有获得真正的幸福。虽然物质财富每天都在增长，但人的快乐却不能同步提高，一旦追求这种相对的善而无法获得，就会给人带来长期的痛苦，这就是斯宾诺莎所谓的“恶”。“如果我彻底下决心，放弃迷乱人心的财富、荣誉、肉体快乐这三样东西，则我所放弃的必定是真正的恶，而我所获得的必定是真正的善。”［3］

3)新图像dnew的标签向量yt可由式(12)得到:

4)从标签项向量yt选择前若干个值最大标注新图像dnew。

2)新图像dnew的标签编码系数向量aq可由式(11)得到:

3 实验结果分析

3．1 数据集和实验设置

为了测试本文方法的精度和性能，实验在标准图像库Corel5K上进行测试，该数据集是现今图像标注方法的通用数据集。该数据集包含4999幅图像，图片大小为192×128，其中4500幅作为训练集，499幅作为测试集。所有图像分为50个语义类别，每个语义类别中包含100幅图像，每幅图像已经被标注1～5个关键词，其中将至少标注了8幅图像的关键词入选词汇表，合计260个关键词。

为了评价图像标注方法的性能，本文的标注性能通过精度(查准率，P)、召回率(查全率，R)和F1值来衡量。对于一个给定的标注词wi，查准率P=A/B，查全率R=A/C，F1=2*P*R/(P+R)。这里A表示测试集中通过算法正确标注wi的图像个数，B表示测试集中通过算法自动标注了wi的图像个数，C表示原始标注中包含wi的图像个数。最后，通过计算查准率与查全率的平均值来评价算法的标注性能，此外，也要考虑查全率大于0的关键词个数，用N+来表示。

在同样的测试集上，为保证研究的一致性和方法比较的公平性，本文的方法MLDDL采用与文献［19］相同的特征表示方法，特征空间中集成了一系列的局部特征和全局特征。局部特征包括SIFT(Scale-Invariant Feature Transform)和Hue颜色描述符，特征是在多尺度网格上或拉普拉斯兴趣点上提取的。每一个局部特征通过k-means聚类算法进行量化得到对应的BOW(Bag of Words)表示。全局特征包括Gist特征和在 RGB(Red-Green-Blue)、HSV(Hue-Saturation-Value)、Lab颜色空间上的颜色直方图。除了Gist特征外，所有的特征通过L1规范进项进行归一化处理，最后联合成一个矩阵作为字典学习的输入信号进行实验。其中，字典大小与训练样本数量相同，参数 λ =0．01，β =0．001，χ1=0．01，χ2=0．1。最后将本文方法与不同的图像自动标注方法进行比较，其中包括MSC(Multi-lable Sparse Coding)［12］、DCGSC(Distance Constraint Group Sparse Coding)［14］、TagProp［19］、SC(Sparse Coding)［20］、 VGSSL (Voronoi Graph Semi-Supervised Learning)［21］、JEC(Joint Equal Contribution)［22］、FastTag［23］、SFR(Sparse Factor Representation)［24］等。

媒体进行信息传播的主要方式是视觉传播，在大数据时代，新媒体借助互联网不断更新和融合自己的传播方式。在信息传播过程中，图片、文字和视频融为一体，根据观众对视觉的依赖性，逐渐增大视觉传播的比例，更加生动形象的图画，吸引观众的阅读兴趣。一些媒体借助新技术推出3D动画等特效，画面效果更加逼真，视觉冲击力更大。利用三维立体技术还原事物的本来面貌，虚拟现实技术带领观众对未来空间的探索，科幻作品的出现等都在最大限度地利用视觉传播，寻找媒体的着力点。

3．2 实验结果

输入:训练样本集 X=［x1，x2，…，xN］和相应的标签集合 Y= ［y1，y2，…，yN］，收敛阈值 ε，迭代最大数 T;

二是文体杂。杂文属边缘文体，杂文家很难“纯粹”，很难单以操弄杂文为专业。所以，他们在理论、文论、小说、诗词、书法或史学、哲学等方面，往往多有业绩——鼓捣杂文，多成了“副业”。

为了能够了解不同标签数目对图像自动标注的影响，本文给出了不同标签数目下的查准率，召回率和F1值的变化曲线，并将结果与TagProp和FastTag进行比较，如图2所示。从图2中可以看出，首先本文的标注方法MLDDL在评价图像自动标注性能的三个指标上随着标签数目的增加，其查准率、召回率和F1值不断上升;其次，与TagProp和FastTag比较，在标签数目为1时，本文的标注性能低于FastTag而优于TagProp，随着标签数目的增加，本文的标注性在三个指标上都优于TagProp和FastTag。

图2中的曲线变化表明，当标签数目为5时效果最好，这是因为标签数目较少时，图像的视觉特征与图像标签信息之间的相关性较弱，这样一来加入标签线性转换矩阵的效果将受到影响。而数据集中每幅图像的最大标注词为5个，当标签个数大于5时，图像的无关标签数目将会增加，降低了图像自动标注的性能和准确度，而且目前大部分标注方法均采用5个作为最终的标注个数，为了便于比较和分析，本文同样选择5标签来进行最终的图像标注。

pagenumber_ebook=81,pagenumber_book=1298

图2 不同标签数目下与TagProp和FastTag的查准率、召回率和F1值的比较Fig．2 Comparison of precision，recall and F1with TagProp and FastTag at different tag numbers

2)不同图像标注算法的比较与分析。

当待测信号仅含有整数次谐波时,选用主瓣宽度适宜的窗函数并使用加窗FFT算法能够得到主瓣互相分离的频谱,谐波个数与主瓣数量一一对应。在这一情况下,插值算法能够得到精度很高的谐波参数。若信号中存在频率相近的谐波和间谐波分量,它们的主瓣会重叠,甚至会合为一个主瓣。

表1给出了本文的标注方法MLDDL与其他方法标注的结果比较，其他相关方法的实验数据来自其方法对应的参考文献(参考文献详情见实验设置部分)，其中方法SC中N+的值在原文献中没有给出。通过比较结果可以看出，与传统的稀疏编码方法MSC、距离约束稀疏/组稀疏编码方法(DCSC/DCGSC)相比，本文通过在字典学习的初始输入空间中加入原始样本的标签信息，并融合多种类型的视觉特征作为字典学习的输入信息，以此来增强字典的判别性，最后使得标注准确度得到了提升。平均查准率比MSC提高了10个百分点，比DCGSC提高了3个百分点，比VGSSL提高了10个百分点。在平均召回率方面，本文的算法比MSC提高了16个百分点，比DCGSC提高了14个百分点，比VGSSL提高了20个百分点。除此之外，F1和N+也较其他算法有相应的提高。

表1 标注结果对比Tab．1 Comparison of annotation results

方法平均查准率平均召回率 F1 N+JEC 0．27 0．32 0．29 139 MSC 0．25 0．32 0．28 136 SFR 0．31 0．35 0．33 164 FastTag 0．32 0．42 0．37 160 SC 0．25 0．24 0．24 —DCGSC 0．32 0．34 0．33 151 VGSSL 0．25 0．28 0．26 128 TagProp 0．33 0．42 0．37 160 MLDDL 0．35 0．48 0．40 168

图3给出了通过使用MLDDL方法进行标注后，部分图像的标注结果示例。从图中可见，与人工标注相比，本文的标注方法完善了对图像内容的描述，部分所添加的标注词虽然没有出现在人工标注中，但是该标注词也能够正确表达图像的部分内容(如第1幅图像中的sky和第2幅图像中的grass等)，由此可见，该标注词也是属于正确的标注词。对于某些图像内容比较复杂的图像(如第4幅图)，也存在错误的标注词(如第4幅自动标注的beach)，但是总体而言标注效果较好。

pagenumber_ebook=82,pagenumber_book=1299

图3 标注结果对比Fig．3 Comparison of annotation results

4 结语

本文在LC-KSVD的基础上，提出了基于多标签判别字典学习的图像自动标注方法。通过在字典学习的初始特征输入空间中加入标签信息，并融合多种类型的图像视觉特征，以此来增强图像的底层视觉与高层语义之间的相关性，从而使得所学习到的字典具有更强的判别能力，降低语义鸿沟的影响。在Corel5K数据集上的实验结果表明，本文方法与其他经典的标注方法相比，具有较好的标注性能，但由于语义鸿沟的存在，对于背景比较复杂的图像而言，标注效果仍有待提高，所以下一步的工作是改善特征提取方法，使用不同类型的特征组合方式，使得所提取的底层视觉特征能够更好地表示图像的视觉内容，提高标注准确度。

参考文献(References)

［1］刘梦迪，陈燕俐，陈蕾．图像自动标注技术研究进展［J］．计算机应用，2016，36(8):2274－2281．(LIU M D，CHEN Y L，CHEN L．Advances in automatic image annotation［J］．Journal of Computer Applications， 2016， 36(8):2274 －2281．)

［2］ DATTA R， JOSHI D，LI J， et al．Image retrieval:ideas， influences， and trends of the new age［J］．ACM Computing Surveys，2008，40(2):1－60．

［3］ WU J，SHEN H，LI Y D，et al．Learning a hybrid similarity measure for image retrieval［J］．Pattern Recognition， 2013， 46(11):2927－2939．

［4］ CHANGE，GOHK， SYCHAY G， et al．CBSA:content-based soft annotation for multimodal image retrieval using Bayes point machines［J］．IEEE Transactions on Circuits ＆ Systems for Video Technology，2003，13(1):26－38．

［5］ CUSANO C，CIOCCA G，SCHETTINI R．Image annotation using SVM［C］//Proceedings of SPIE 5304， Internet Imaging．Bellingham，WA:SPIE，2003:330－338．

［6］ WANG M，LI F，WANG M．Collaborative visual modeling for automatic image annotation via sparse model coding［J］．Nerocomputing，2012，95(14):22 －28．

［7］ ZHANG W，TIAND，HU H， et al．Automatic image annotation via local sparse coding［C］//Proceedings of the 2013 IEEE International Conference on Acoustics，Speech and Signal Processing．Piscataway，NJ:IEEE，2013:1661－1665．

［8］ GAO S， CHIA L T， TSANG W H， et al．Concurrent single-label image classification and annotation via efficient multi-layer group sparse coding［J］．IEEE Transactions on Multimedia， 2014， 16(3):762－771．

［9］ LIU L， MA S， RUI L， et al．Locality constrained dictionary learning for non-linear dimensionality reduction and classification［J］．IET Computer Vision，2017，11(1):60－67．

［10］ CARNEIRO G， CHAN A B， MORENO P J， et al．Supervised learning of semantic classes for image annotation and retrieval［J］．IEEE Transactions on Pattern Analysis ＆ Machine Intelligence，2007，29(3):394－410．

［11］ XIA Z， FENG X， PENG J， et al．Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation［J］．Journal of Signal Processing Systems，2015， 81(1):29 －44．

［12］ WANG C，YAN S，ZHANG L，et al．Multi-label sparse coding for automatic image annotation［C］//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition．Piscataway，NJ:IEEE，2009:1643－1650．

［13］吴伟，高光来，聂建云．一种融合语义距离的最近邻图像标注方法［J］．计算机科学，2015，42(1):297 －302．(WU W， GAO G L，NIE J Y．Combination of nearest neighbor with semantic distance for image annotation［J］．Computer Science，2015，42(1):297 －302．)

［14］臧淼，徐惠民，张永梅．基于距离约束稀疏/组稀疏编码的自动图像标注［J］．四川大学学报(工程科学版)，2016，48(5):78－83．(ZANG M，XU H M，ZHANG Y M．Distance constraint sparse/group sparse coding for automatic image labeling［J］．Journal of Sichuan University(Engineering Science Edition)，2016，48(5):78 －83．)

［15］ TANG J， HONG R， YAN S， et al．Image annotation by kNN-sparse graph-based label propagation over noisily tagged Web images［J］．ACM Transactions on Intelligent Systems ＆ Technology，2011，2(2):1－15．

［16］ AHARON M，ELAD M，BRUCKSTEIN A．K-SVD:an algorithm for designing overcomplete dictionaries for sparse representation［J］．IEEE Transactions on Signal Processing， 2006， 54(11):4311－4322．

［17］ JIANG Z，LIN Z，DAVISL S．Label consistent K-SVD:learning a discriminative dictionary for recognition［J］．IEEE Transactions on Pattern Analysis and Machine Intelligence，2013，35(11):2651－2664．

［18］ LEE H，BATTLE A，RAINA R，et al．Efficient sparse coding algorithms［C］//Proceedings of the 19th International Conference on Neural Information Processing Systems．Cambridge，MA:MIT Press，2006:801 －808．

［19］ GUILLAUMIN M，MENSINK T，VERBEEK J，et al．TagProp:Discriminative metric learning in nearest neighbor models for image auto-annotation［C］//Proceedings of the 2009 IEEE International Conference on Computer Vision．Piscataway，NJ:IEEE，2009:309－316．

［20］范馨予，崔晓康．基于稀疏编码的图像自动标注［J］．电子技术与软件工程，2017(4):83 －84．(FAN X Y，CUI X K．Automatic image annotation based on sparse coding［J］． Electronic Technology and Software Engineering，2017(4):83 －84．)

［21］吴寿昆，郭玉堂．基于Voronoi K阶邻近图的半监督学习自动图像标注［J］．计算机应用与软件，2016，33(12):183－187．(WU S K，GUO Y T．Semi supervised learning automatic image annotation based on Voronoi K order adjacency graph ［J］．Computer Applications and Software，2016，33(12):183 －187．)

［22］ MAKADIA A，PAVLOVIC V，KUNAR S．Baselines for image annotation［J］．International Journal of Computer Vision，2010，90(1):88－105．

［23］ CHEN M，ZHANG A，WEINBERGER K Q．Fast image tagging［C］//Proceedings of the 30th International Conference on International Conference on Machine Learning．［S．l．］:JMLR．org，2013:1274－1282．

［24］ SUN F，TANG J，LI H，et al．Multi-label image categorization with sparse factor representation［J］．IEEE Transactions on Image Processing，2014，23(3):1028－1037．

作者

杨晓玲，李志清，刘雨桐

出处

《计算机应用》 2018年第05期

上一篇：改进的显式形状回归人脸特征点定位算法

下一篇：复杂环境中基于视觉词袋模型的车辆再识别算法

《计算机应用》2018年第05期文献

基于可穿戴传感器的人体活动识别研究综述作者：郑增威，杜俊杰，霍梅梅，吴剑钟

基于Dyna框架的非参数化近似策略迭代增强学习作者：季挺，张华

基于局部远亲差分增强的扰动粒子群优化算法作者：王永贵，胡彩云，李鑫

融合Shapley值和粒子群优化算法的混合特征选择算法作者：邓秀勤，李文洲，武继刚，刘太亨

基于熵权Vague 集的多目标决策方法作者：赵庆庆，黄天民

求解动态优化问题的多种群竞争差分进化算法作者：袁亦川，杨洲，罗廷兴，秦进

考虑用户特征的主题情感联合模型作者：许银洁，孙春华，刘业政

基于聚类分析的微博广告发布者识别作者：赵星宇，赵志宏，王业沛，陈松宇

结合注意力机制的长文本分类方法作者：卢玲，杨武，王远伦，雷子鉴，李莹

基于改进的多层BLSTM 的中文分词和标点预测作者：李雅昆，潘晴，．W

面向汉维机器翻译的调序表重构模型作者：潘一荣，李晓，杨雅婷，米成刚，董瑞

改进的显式形状回归人脸特征点定位算法作者：贾项南，于凤芹，陈莹

基于多标签判别字典学习的图像自动标注作者：杨晓玲，李志清，刘雨桐

复杂环境中基于视觉词袋模型的车辆再识别算法作者：王茜，陈一民，丁友东

基于迁移学习的水产动物图像识别方法作者：王柯力，袁红春

基于多角度多区域特征融合的苹果分类方法作者：刘媛媛，王晖，郭躬德，江楠峰

正负关联规则两级置信度阈值设置方法作者：陈柳，冯山

基于节点中心性和社区相似性的快速标签传播算法作者：顾军华，霍士杰，王守彬，田喆

基于文献信息网络语义特征的相似性搜索作者：邱庆羽，李婧，全兵，童超，张利君，张海仙

基于距离类别的多源兴趣点融合算法作者：徐爽，张谦，李琰，刘嘉勇

基于HBase和Hive 的航班延误平台的存储方法作者：吴仁彪，刘超，屈景怡

基于异方差高斯过程的时间序列数据离群点检测作者：严宏，杨波，杨红雨

密码云中基于熵权评价的虚拟密码机调度方法作者：王泽武，孙磊，郭松辉，孙瑞辰

基于改进单类支持向量机的工业控制网络入侵检测方法作者：刘万军，秦济韬，曲海成

面向分布式网络结构的APT攻击双重博弈模型作者：张为，苏旸，陈文武

抗合谋攻击能力可调的有状态组密钥更新协议作者：敖丽，刘璟，姚绍文，武楠

多属性环境下基于容错学习的全同态加密方案作者：白平，张薇

基于集成学习的口令强度评估模型作者：宋创创，方勇，黄诚，刘亮

海量小文件系统的可移植操作系统接口兼容技术作者：陈博，何连跃，严巍巍，徐照淼，徐俊

高维胖树系统中确定性路由容错策略实现作者：徐佳庆，万文，蔡东京，唐付桥，何杰，张磊

杂志信息网