快捷分类

融合锚词抽取的海量短文本主题层次挖掘

更新时间：2016-07-05

1 引言

大数据时代文本数据迅猛增长，从这些海量文本中找到感兴趣的主题是很多应用的关键，如舆情分析、视觉检测[1]、语义挖掘[2]、图谱构建[3]等.电子科技文献作为一种文本，其标题浓缩了文献的核心研究内容.对文献标题构成的短文本集进行挖掘，从中抽取不同粒度的主题，并将其组织为层次结构，有利于科研人员快速发现关键科学问题.

已有研究表明短语是主题的表现形式[4].因此，本文研究的基本单元是短语.近年来，从文本中挖掘短语的方法主要有2种：图排序[5～8]和主题模型[9～12].图排序方法通过构建一个文本的词图，找到属于不同主题的词.通过设计词排序策略对词排序，将排序靠前的词组合成关键短语表示主题.由此可见，图排序方法的研究对象是单个文本，无法直接应用于短文本集.主题模型方法是基于LDA(Latent Dirichlet Allocation)模型的扩展，通过抽取连续的词构成短语表示主题.由连续的词构成短语是短语的传统定义[13].然而，这种传统意义的短语定义在科技文献标题表示的短文本集中，会出现无法区分不同短语表示相同主题的情况，导致主题分类错误.另外，短文本集具有稀疏性，如果采用主题模型中的文档-词分布表示主题，则无法挖掘子主题，难于形成主题的层次.

针对以上2种方法在本应用中的局限，提出了融合锚词抽取的主题层次挖掘框架.该方法首先构建词共现图G=推断短文本集中的主题分布；其次，估计每一主题的锚词，采用关联规则挖掘短语的频繁模式；最后，用锚词短语的不完整性标准修剪频繁模式，得到含锚词的频繁模式.由于图G既能用原始短文本集中的词共现关系建立，也能用已得到的主题上的词共现关系建立.因而，词共现关系能有效支持主题层次结构.方法在真实的短文本集上进行了测评，结果表明，所提出的方法在发现子主题时，其性能比其它2种方法更好.同时，该方法利用锚词短语，有效避免了主题聚类过程中频繁模式的丢失，提高了挖掘出的主题短语的质量.

一年一度的日内瓦钟表大赏（Grand Prix d'Horlogerie de Genève）简称GPHG在日内瓦当地11月9日终于落下帷幕。并且各大钟表的奖项也纷纷出炉，2018年评奖结果中，总算在传统世家和现代独立制表师品牌之间，找到了些平衡。这同时也意味着独立制表品牌逐渐崛起的趋势。令人惊讶的是，在2018年送评的190多块腕表中，并没有见到当今非常热门的爱彼、朗格等知名品牌，相反许多小众品牌却异常受到青睐。那么接下来就一同看看究竟各大奖项花落谁家吧！

2 融合锚词的主题层次挖掘框架

融合锚词的主题层次挖掘框架THM(Topical Hierarchy Mining)给出了基于词共现图的主题层次挖掘流程，如图1所示.该框架由3个层次构成：顶层主题、次顶层主题和最终的主题层次，体现了主题层次的递归构成过程.主题层次用根为r的树T表示.树中非根结点t称为主题，由信息对表示，其中，表示属于主题t的锚词短语集，表示对主题t的锚词短语进行排序的排序函数.一个锚词短语可同时属于多个主题，但其排序并不相同.主题t的所有子主题由其孩子结点集Childt={z∈T|par(z)=t}表示.其中，par(z)表示z的双亲主题.每一层次的主题均由构建词共现图和挖掘主题短语两个步骤组成.

假设词wi与wj的每一次共现都归因于它们属于同一主题，主题z有k个子主题表示wi和wj构成的边数量，则聚类含k个子主题的主题z只需要估计词共现图G中的分布.于是，随机变量的生成模型服从泊松分布其中，δz表示事件 “生成主题z的边”发生的次数，若用lij表示图G中所有边，则当δz较大时，由泊松分布的累加属性有于是，在模型参数α,δ已知时，可通过公式(1)观察图G中所有的边.

2.1 构建词共现图

从对限时训练剩余题目处理情况的问卷调查数据发现，69.02%的学生面对限时训练剩下的做错题目想老师去解决，也看出了学生整体知识和能力还是不够，虽然我们给出了详细的解题过程，但是依然无法自己突破，也看出了课后小组成员的交流还不够。

p(lij|α,δ)

其中，Ncorrect表示由THM 或CATHY抽取的正确的主题短语数量，Nextracted表示由PDLDA[10] (Phrase-Discovering Latent Dirichlet Allocation)模型抽取的主题短语数量，Nstandard表示人工标注的主题短语数量.选择PDLDA模型输出的主题数量作为短文本集中所有主题数量的原因：(1)PDLDA模型输出的短语由连续的词构成，符合传统意义上短语的定义，所以PDLDA模型发现的短语肯定比THM和CATHY方法挖掘的短语要多；(2)PDLDA模型用短语表示主题，对主题有较好的解释性.

文章基于知网采用跨库检索，收集了2000年到2015年之间，与数据库、数据挖掘、信息检索、机器学习和自然语言处理等关键词相关的文献标题.采用ICTCLAS2016分词包对标题分词，哈工大的停用词表等预处理技术，最终得到包含143,2567个短文本，185,986个不同词的短文本集作为第1个实验数据集DataSet_ZW.以建筑、文学、自动化，计算机，法学和商学共6个类别的书籍标题作为第2个实验数据集，该数据集DataSet_BL共包含23,2176个短文本，25,6563 个不同词.

(1)

（7）事中绩效监控没落实，事后绩效评价没应用。很多高校关注的是专项资金如何分配，分配完之后，就处于放任的状态，不注重过程的监管，事中绩效监控没真正落实，不能及时发现问题并加以纠正，导致贻误时机。很多高校按政府要求对专项资金进行事后绩效评价，可是评价结果并没得到应用，对专项资金执行进度没完成的部门没追责，执行好执行坏一个样，不能形成正确导向。

(2)

(3)

(4)

2.2 挖掘主题短语

此外，观察THM和CATHY挖掘的主题发现：(1)THM发现的主题是对CATHY发现的主题的进一步凝练.例如：“数据分析”主题中，THM得到的子主题之一“数据处理”，能包括CATHY方法中“大数据分析”的任一子主题.可能的原因是：THM发现表示主题的短语时，先找表示主题的锚词，然后运用锚词对频繁短语修剪，因此，删除了主题中更详细的研究点.(2)THM发现的主题是CATHY发现的主题中要使用的技术或方法.例如：THM发现的子主题“机器学习”或“数据挖掘”是CATHY发现的前3个子主题“大数据分析、大数据系统、移动计算”中必须要使用的技术.这种现象说明先找到主题的锚词，可以为研究者提供大数据分析挖掘使用的具体技术.(3)THM方法挖掘出的主题并不都能准确的找到锚词.例如：“机器学习”主题中的4个短语中，组成短语的所有词都不是该主题的锚词.这表明假设每一主题中至少存在一个锚词在实际应用中可能存在偏差.

3 实验结果与分析

3.1 实验设置

对照消毒剂:苯扎溴铵溶液,含量5%,规格1 000 mL/瓶,批号20160601,合肥华瑞牧业有限责任公司生产。

采用期望最大化算法对公式(1)中的参数进行估计.由公式(2)实现E步的更新，由公式(3)和(4)实现M步的更新.

本文从主题层次质量分析、主题层次对主题短语质量的影响以及主题层次对分类的影响三个方面对提出的方法进行了评测.参与比较的方法分别是CATHY[4]( Constructing A Topical HierarchY)和hPAM[15] (hierarchical Pachinko Allocation Model)，它们在构建主题层次时也对短语施加了排序的策略，与本文提出的THM框架具有可比性.

3.2 主题层次质量分析

主题层次质量分析主要评估THM构建主题层次的能力.由于hPAM只能构建3级的主题层次，所以3种方法在数据集DataSet_ZW上只构建3级主题层次.设置根结点的子主题数量为5，非根结点的主题数量为4.表1给出了3种方法构造主题为“大数据分析挖掘”的主题层次中第二层非根结点的子集.观察表2发现：无论是从子主题的角度，还是从锚词短语或短语的角度，THM与CATHY构建的主题层次都能表示“大数据分析挖掘”的某一领域和其子领域，能较清晰地表达双亲孩子结点关系.hPAM方法构造的主题层次不能直观反映双亲孩子结点关系，只能结合其输出的词才能表达一个主题.因此，THM与CATHY构造的主题层次中的短语质量优于hPAM.

由于锚词有较好的主题解释性[14]，其推断也以词共现为统计基础.因此，为改善挖掘的短语质量，利用学习到的参数和进一步抽取主题z中锚词.假定每一主题至少包含一个锚词，s表示主题z已有的锚词集合s={s1,…,sn}，Oi, width=8,height=5,dpi=110 表示已知wi，属于主题z的边中含词wj的概率，则通过归约参数中的词wj计算出Oi,后，主题z能用锚词si表示.因此，锚词抽取的关键是重构，即以线性方式组合锚词表示非锚词.若用C表示重构系数矩阵，Ciz表示词wi，非锚词属于主题z的概率，则通过锚词抽取方法找到表示主题z的锚词s后，主题短语挖掘转换为通过主题z中的锚词，获得主题频率大于给定最小支持度阈值且包含锚词的主题频繁模式.为此，先用关联规则挖掘算法FP-growth挖掘频繁模式集Az，其次用锚词短语完整性标准修剪Az，最后对照已得到的锚词，删除Az中不含锚词的主题短语.由于同一主题可用多个锚词短语描述，为了选择最合适的锚词短语，一方面，本文把锚词短语定义为不同锚词的任意序列，并借鉴文献[4]的思想对其进行排序.

表1 “大数据分析挖掘”的某一主题层次子集

THM锚词短语子主题数据分析数据挖掘机器学习数据查询数据处理数据检索数据存储数据抽取主题挖掘信息挖掘图挖掘分布式挖掘特征提取深度学习主动学习神经网络位置查询轨迹查询SQL语句Top-kCATHY短语子主题大数据分析大数据系统移动计算数据查询可视化分析社交媒体分析众包计算时空轨迹数据SparkHadoop分布式系统数据库系统无线传感网络可穿戴位置查询隐私保护复杂空间查询skyline查询Top-k数据清洗hPAM词子主题信息数据知识查询数据应用系统案例网络新闻数字媒体基于系统推理表达检索评估相关文本

3.3 主题层次对主题短语质量的影响

为了分析层次高度对主题短语质量的影响，将提出的方法与CATHY进行了比较.评估的性能标准是公式(5)表示的准确率(P)、查全率(R)和F值.

(5)

糖尿病是全球范围内的严重公共卫生问题，具有发病率高、并发症多等特点，不仅给患者造成巨大的身心痛苦，也给社会医疗资源造成沉重的负担［6］。糖尿病性心肌病是糖尿病患者特有的心肌功能损害，属于糖尿病的慢性微血管并发症。糖尿病心肌病患者的心肌细胞发生损伤，引起心脏结构异常、左心室肥厚、舒缩功能障碍等病理改变［7］。临床表现为心绞痛、进行性心功能不全，由此引起的心力衰竭、心源性猝死等是引起糖尿病患者死亡的原因之一［8］。

实验过程中先获取PDLDA模型挖掘出的主题和属于这些主题的短语；然后，分别按照不同的主题层次，执行THM 或CATHY方法，并将其获得的所有子主题与PDLDA模型挖掘出的主题进行准确率、查全率和F值的比较分析.表2列出了不同的层次高度对主题短语抽取质量的影响.观察表3可知：(1)随着主题层次的增加，准确率、查全率和F值都呈现增加趋势；(2)在主题层次为3时，CATHY方法优于THM 方法；但在主题层次为4和5时，THM 方法优于CATHY方法.原因是THM方法采用了锚词来寻找最具代表性的主题短语后，在递归构建层次更高的主题后能发现更详细的子主题.

表2 主题层次对主题短语质量的影响

方法主题层次准确率(P)查全率(R)F值THM30.2680.3300.29640.2820.3480.31250.3330.3500.313CATHY30.2760.3400.30440.2800.3450.30950.2840.1730.227

3.4 主题层次用于分类预测

为评估构建的主题层次对分类预测准确性的影响，为数据集DataSet_BL设计了一个分类预测实验.分类预测的准确性采用第k个位置上的正确率P@k作为评价标准.因此，基于锚词短语的覆盖面标准构建了一个5层的主题层次，用于度量顶层分支在k处(k表示前k个短语的位置)的覆盖与分类P@k.为计算k处的覆盖P@k，事先需要对每一主题中的前k个短语进行标注，并检查是否有短语出现在书籍标题中.若用p(t,c)表示锚词短语出现在某一类书籍中的联合概率，p(t)表示锚词短语出现在主题t中的概率；p(c)表示书籍属于类别的概率，则可用公式(6)计算k处的覆盖与分类P@k，其中，t表示锚词短语属于主题t，c表示书籍所属类别.

(6)

图2给出了每一种方法的P@k(k∈[1,60]).由于P@k既考虑了锚词短语的覆盖面，也考虑了它与一个分类的联合概率，所以P@k的值随着k的增大而变大.从3条P@k曲线可知，THM与CATHY的分类的区分度优于hPAMk.hPAM的P@k曲线几乎立即渐近为一条直线.这是因为hPAM用词表示短语，覆盖面高.另外，THM的性能在约为20个短语之前的性能低于CATHY，之后的性能优于CATHY.其原因是前20个锚词短语处于THM方法构建的主题层次的较低层，而其后的短语处于主题层次的较高层，进一步体现了锚词在主题挖掘中具有重要作用.

4 结语

通过词共现图技术与锚词抽取技术的理论研究，提出了一种融合锚词抽取的海量短文本主题层次挖掘框架，用于提高主题挖掘的质量和改进基于主题的预测分类准确度.在2种不同的短文本集上评估了提出的方法，实验结果表明，相比于已有的hPAM和CATH，该方法构建的主题层次、挖掘得到的主题短语在质量方面均得到了改善；该方法构建的主题层次用于分类预测时的准确性也有明显的提升.

参考文献

[1]周炫余,刘娟,卢笑,邵鹏,罗飞.一种联合文本和图像信息的行人检测方法[J].电子学报,2017,45(1):140-146.

ZHOU Xuan-yu,LIU Juan,LU Xiao,SHAO Peng,LUO Fei.A method for predestrian detection by combining textual and visual information[J].Acta Electronica Sinica,2017,45(1):140-146.(in Chinese)

[2]廖律超,蒋新华,邹复民,贺文武,邱淮.一种支持轨迹大数据潜在语义相关性挖掘的谱聚类方法[J].电子学报,2015,43(5):956-964.

LIAO Lu-chao,JIANG Xin-huo,ZOU Fu-min,HE Wen-wu,QIU Huai.A Spectral clustering method for big trajectory data mining with latent semantic correlation[J].Acta Electronica Sinica,2015,43(5):956-964.(in Chinese)

[3]国琳,左万利.基于兴趣图谱的用户兴趣分布分析及专家发现[J].电子学报,2015,43(8):1561-1567.

GUO Lin,ZUO Wan-li.Analysis of user interest distribution and expert finding based on interest graphs[J].Acta Electronica Sinica,2015,43(58):1561-1567.(in Chinese)

[4]Chi Wang,Marina Danilevsky,Nihit Desai,et al.A phrase mining framework for recursive construction of a topical hierarchy[A].The 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].Chicago:ACM,2013.437-435.

[5]Zhao Wayne Xin,Jiang Jing,He Jing,et al.Topical keyphrase extraction from twitter[A].The 49th Annual Meeting of the Association for Computational Linguistics[C].Portland:ACL,2011:379-388.

[6]Grineva M,Grinev M,Lizorkin D.Extracting key terms from noisy and multitheme documents[A].Proceedings of the 18th International Conference on World Wide Web[C].2009.661-670.

[7]Tomokiyo T,Hurst M.A language model approach to keyphrase extraction[A].In Proc.ACL 2003 workshop on Multiword expressions:analysis,acquisition and treatment-Volume 18[C].Sapporo:ACL,2003.33-40.

[8]Liu Z,Huang W,Zheng Y,et al.Automatic keyphrase extraction via topic decomposition[A].Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing[C].Massachusetts:ACL,2010.366-376.

[9]Blei D M,Laerty J D.Visualizing topics with multi-word expressions[J].Statistics arXiv:0907.1013vl[stat.ML],2009:1-12.

[10]Robert V.Lindsey,William Headden,Michael Stipicevic.A phrase-discovering topic model using hierarchical pitman-yor processes[A].Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning[C].Jeju:ACL,2012.214-222.

[11]Wallach H M.Topic modeling:beyond bag-of-words[A].Machine Learning,Proceedings of the Twenty-Third International Conference[C].Pittsburgh:ACM,2006.977-984.

[12]Wang X,McCallum A,Wei X.Topical n-grams:Phrase and topic discovery,with an application to information retrieval[A].Proceedings of the 7th IEEE International Conference on Data Mining[C].Omaha:IEEE,2007.697-702.

[13]Kim S N,Kan M-Y.Re-examining automatic keyphrase extraction approaches in scientific articles[A].Proc Workshop on Multiword Expressions:Identification,Interpretation,Disambiguation and Applications[C].Singapore:ACL,2009:9-16.

[14]Thang Nguyen,Yuening Hu,Jordan Boyd-Graber.Anchors Regularized:Adding Robustness and Extensibility to Scalable Topic-Modeling Algorithms[A].Proc of the 52nd Annual Meeting of the Association for Computational Linguistics[J].Baltimore:ACL,2014.359-369.

[15]D.Mimno,W.Li,A.McCallum.Mixtures of hierarchical topics with pachinko allocation[A].The 24th Annual International Conference on Machine Learning[C].Oregon:ACM,2007.633-640.

作者

吕品，计春雷，汪鑫，罗宜元

出处

《电子学报》 2018年第05期

上一篇：OFDM系统中基于压缩感知恢复由限幅和HPA产生的非线性失真研究

下一篇：互联网动态地址命名与解析服务

《电子学报》2018年第05期文献

基于快速语义修复的操作系统隐藏对象检测技术作者：李勇钢，崔超远，乌云，孙丙宇

基于重新匹配策略的ε约束多目标分解优化算法作者：张磊，毕晓君，王艳娇

基于特征聚类的稀疏自编码快速算法作者：付晓，沈远彤，付丽华，杨迪威

面向大规模认知诊断的DINA模型快速计算方法研究作者：王超，刘淇，陈恩红，黄振亚，朱天宇，苏喻，胡国平

基于情景感知的低交互移动双因素认证系统作者：刘冬，陈晶，杜瑞颖，何琨

基于MapReduce的增广动态Skyline查询处理方法作者：丁琳琳，崔子强，尹显坤，王俊陆，宋宝燕

基于软件网络加权k-核分析的关键类识别方法作者：潘伟丰，宋贝贝，胡博，李兵，姜波

OFDM系统中基于压缩感知恢复由限幅和HPA产生的非线性失真研究作者：杨霖，宋坤

融合锚词抽取的海量短文本主题层次挖掘作者：吕品，计春雷，汪鑫，罗宜元

互联网动态地址命名与解析服务作者：朱亮，徐恪，冯梅

基于稳定匹配的认知无线网络协作物理层安全机制作者：冯晓峰，高新波，宗汝

大函数ISFPRM面积优化方法作者：瞿婷，王伦耀，罗文强，夏银水

数据相等问题的安全多方计算方案研究作者：窦家维，李顺东

面向大数据定价的委托拍卖方案作者：尹鑫，田有亮，王海龙

基于频域波形合成的盲空间分集均衡器设计作者：陈紫阳，胡赟鹏，沈智翔，沈彩耀

沟道宽度对65nm金属氧化物半导体器件负偏压温度不稳定性的影响研究作者：崔江维，郑齐文，余德昭，周航，苏丹丹，马腾，魏莹，余学峰，郭旗

基于行运算器思想的DRSTOP控制信息生成方法作者：宋凯

多元检测线圈在石油拼接套管的远场涡流检测中的应用作者：罗清旺，师奕兵，王志刚，张伟，李焱骏

具有L型栅极场板的双槽双栅绝缘体上硅器件新结构作者：代红丽，赵红东，王洛欣，石艳梅，李明吉

芯片散热微通道仿生拓扑结构研究作者：吴龙文，卢婷，陈加进，王明阳，杜平安

一种分数阶巴特沃斯滤波器的有源电路设计作者：庞轶环，胡志忠

基于边攻击成本的复杂网络鲁棒性研究作者：王尔申，王玉伟，庞涛，曲萍萍，姜毅

一种基于压缩感知的同频多辐射源数量估计及定位方法作者：谷晓鹏，谢树果，常青，杨美玲

基于SVR的粮仓储粮重量在线检测模型作者：张德贤，张苗，张庆辉，张元，吕磊

分布式声源定位系统节点最优布局方法及性能研究作者：闫青丽，陈建峰

GPS驯服CPT原子钟方法研究作者：李铎，吴红卫，顾思洪

位屏蔽多叉树搜索射频识别防碰撞算法作者：莫磊，陈伟，任菊

磁共振脑组织弹性成像的数值仿真算法作者：单翔，李炳南，向馗

全双工信息与能量同传系统的鲁棒性预编码及高能效时隙分配方案作者：谢显中，陈九九，扶渝茜

基于正交定向耦合器组合的微波功率测量方法作者：杜百廷，林宏翔，黄贵荣，刘伟

杂志信息网