更全的杂志信息网

用于短文本关键词抽取的TTM_DMM主题翻译模型∗

更新时间:2009-03-28

1 引言

随着社交媒体的不断发展,网络上产生了大量字数少于140个字符的短文本,包括微博、朋友圈、搜索片段以及电商评论等。短文本关键词抽取作为短文本研究的一个重要课题,在自动问答、话题跟踪和信息检索等领域具有重要作用。

在进行短文本关键词抽取时,已有的主题翻译模型均采用LDA主题模型进行主题发现,解决词语和关键词的主题一致性问题;然后利用得到的主题约束翻译过程,解决词语和关键词的词汇差异问题,即关键词在短文本中出现次数不多,甚至不出现的问题,从而提高短文本的关键词抽取效果。LDA在挖掘以传统的新闻文档为代表的长文本主题时取得了较好的效果,原因是长文本的字数多,词语信息丰富。但是由于短文本具有词数少,特征稀疏的特点,直接利用LDA模型进行短文本主题发现效果较差,从而影响了特定主题下词语到关键词的翻译过程和关键词抽取的精度。为克服上述不足之处,本文利用在短文本主题发现方面效果较好的DMM模型,并与统计机器翻译模型相结合,提出了用于短文本关键词抽取的TTM_DMM主题翻译模型。与传统方法相比,该模型能够有效地提高短文本关键词抽取效果。

地域文学与文化不仅有独特的内涵,而且往往具有独特的样式和特色,如古代四川的竹枝词,中央苏区的红色歌谣与兴国山歌,都有自己形式和内容上的特点。对地域文学和文化独特形式特点的关注也使青年学生深入理解“越是民族的越是世界的”这一命题。

2 相关工作

目前,关键词抽取方法主要分为以下四类:基于统计的方法,基于主题的方法,基于网络图的方法和基于机器学习的方法。

基于统计的方法主要利用文档中词语的统计信息抽取文档的关键词,该种方法不需要训练数据与外部知识库,对预处理后的文档利用简单的统计规则(词频、TF-IDF以及共现信息等)进行关键词抽取[1]。罗燕等提出基于词频统计的文本关键词抽取方法,并在中英文数据集上进行验证[2]。苏祥坤等通过词序组合、词性标注、停用词过滤等,提出了基于词序统计组合的关键词抽取方法[3]。Siddiqi S和Sharan A将词频信息与词空间分布相结合,提出了一种适用于任何语言的关键词自动抽取方法[4]

基于主题的方法通常是利用主题模型LDA进行关键词抽取。Siu等通过训练HMM模型发现主题信息和关键词信息,并在测试集上得到了较好的结果[5]。文献[6~7]利用LDA主题模型实现关键词自动抽取。Ding等提出TSTM(Topic-Specific translation model)主题翻译模型,该模型利用LDA模型发现主题,再计算该主题下词语与关键词的对齐概率,提高了微博关键词自动标注效果[8]

本文提出的用于短文本关键词抽取的TTM_DMM主题翻译模型主要使用DMM作为主题发现模型,与传统使用LDA的区别在于:LDA假设每篇文章均有一个主题分布,这一假设对于词语数量较多的长文本来说是合理的,因此,LDA在以新闻为代表的长文本主题发现方面取得了良好的效果。而DMM模型假设整个语料库只有一个主题分布,每篇文章只有一个主题。显然,这对于长文本来说是不合理的,但对于短文本是合理的,因为短文本词语非常短少,每篇短文本拥有一个主题比拥有一个主题分布更切合实际。这是DMM能够解决短文本特征稀疏性问题,提高短文本主题发现效果的重要理论依据。

医药企业具有周期长,高投入的特点,使得其研发活动风险偏高。对于财政部门,证监会以及市场投资者来说,企业相关研发活动信息的披露十分关键。因此在此基础上,选取上市医药企业年度报告作为案例进行分析,比较准则下关于信息披露要求,发现问题并提出建议。

基于网络图的关键词抽取方法首先要构建文档的语言网络图,其次对网络图进行分析,在整个网络图上寻找起重要作用的词或短语,并将这些词或短语抽取出来作为关键词。Mihalcea和Tarau等利用了PageRank的思想,提出了基于图模型的TextRank方法,该方法将图节点作为候选词,边作为词与词之间的共现关系,根据PageRank算法选出排名最高的若干作为关键词[9]。文献[10~11]改进了TextRank算法,提高了关键词抽取的效果。

基于机器学习的方法首先在训练语料库上进行模型参数的学习,其次利用学习到的参数对测试语料库进行自动关键词抽取。Liu等提出利用决策树学习方法进行文本关键词抽取[12]。Sarkar K等面向科技类文章提出了一种基于神经网络的关键词抽取方法[13]。文献[14~15]提出了基于支持向量机的关键词抽取方法。Zhang等利用条件随机场实现关键词的自动标注[16]

本文提出的TTM_DMM模型为基于主题的关键词抽取方法,并与统计机器翻译相结合,实现短文本的关键词抽取。

3 TTM_DMM主题翻译模型

3.1DMM模型背景简介

狄利克雷多项混合(Dirichlet Multinomial Mixture,DMM)模型是由Nigam等提出的一种文档概率图模型[17],其表示形式如图1所示。

  

图1 DMM模型的图形化表示图

其中K为主题数,D为语料库集。DMM模型认为,当生成一篇文档d时,首先从语料库的主题分布θ中选择一个主题z,其次在给定主题z的条件下,根据词语的分布φz,生成文档d中的词语。因此,DMM生成其内容的似然函数如式(1)所示。

 

此外,由于主题分布θ和φk为多项分布,所以采用狄利克雷分布作为其先验分布,如式(2)所示。

 

传统的并行多模数字中频结构由于模块的类比使用,每次只有一种通信模式工作,造成太多硬件资源的浪费。而固定参数配置的中频方案由于滤波器类型和前后位置以及抽取级数和抽取系数早就固定,使得其灵活性和资源利用率不高。再者,对于数字混频后的I、Q两路信号在滤波和抽取模块中是完全一模一样的重复结构,这样也会浪费FPGA硬件资源。基于以上两种结构的不足之处,本文设计出一种优化的动态参数配置多模数字中频优化结构,如图4所示。

本论文试件参照欧洲规范4[14],因试验条件限制,对标准试验方法进行简化,将结构中的构造钢筋进行删除.本文只考虑贯穿钢筋对波形PBL连接件承载能力的影响,因此共设计3组试验,每组3个试件.PBL连接件试件尺寸见图3.

除此之外,Yin等基于DMM模型提出了用于短文本聚类的GSDMM模型[18]。该模型通过Collapsed Gibbs方法采样短文本的主题,比Nigam等使用的EM方法效率更高。该方法很好地解决了短文本的稀疏性问题,算法收敛速度快,在短文本聚类方面取得了非凡的效果,为本文利用Collapsed Gibbs采样方法的DMM模型进行主题发现,并结合统计机器翻译进行短文本关键词抽取提供了可行性。

3.2TTM_DMM模型

TTM_DMM模型是基于DMM并与统计机器翻译结合的短文本关键词抽取模型。符号与定义如表1所示。

 

表1 TTM_DMM模型的符号与描述

  

符号D V C T K zd Nd Md z={zd}|D|d=1 wd={wdn}Nd n=1 td={tdm}Mdn=1描述语料库集语料库中不重复的词语个数关键词关键词集中不重复的关键词个数主题的个数第d篇短文本的主题第d篇短文本中词语的个数第d篇短文本中关键词的个数语料库的主题集合第d篇短文本中的词语第d篇短文本中的关键词

TTM_DMM的图形化表示如图2所示,该模型包括以下两个方面。

1)与DMM模型相结合。TTM_DMM模型认为:用户写一篇短文本d时,首先从语料库主题分布θ中选择一个主题z,然后根据该主题下的词语分布φz生成词语。短文本的关键词与短文本内容拥有相同的主题z,保证了短文本词语与关键词的主题一致性。

2)与统计机器翻译模型相结合。TTM_DMM模型基于短文本词语和关键词的主题一致性原则,学习特定主题下词语与关键词的翻译概率Q,实现为未标注关键词的短文本生成关键词的目的。

首先,采用Collapsed Gibbs方法给训练短文本集中的词语和关键词采样主题。

  

图2 TTM_DMM模型的图形化表示图

中,是主题k下,关键词t和词语w在一条短文本中共同出现的次数。Q的大小为K*V*T。

1)对于每一个主题k=1,…,K:

选择φk~Dirichlet(β);

2)选择θ~Dirichlet(α);

自由主义强调“权力”与“权利”、“自由”与“秩序”之间的平衡,既反对过于强大的政治权力,也反对因权利扩张形成不同程度的“无政府状态”。身处非西方世界,我们往往难以察觉西方自由主义强调建立强权的特性及其复杂影响。对美国而言,如果没有一种相对独特的自由主义传统价值认同,美国作为国家就在一定程度上失去了合法性,美国社会就会失去凝聚力,并在一定程度上迷失发展方向。但作为国家认同标志,美国自由主义的影响具有两面性:既表现为文化凝聚力和影响力,对于推动美国自身发展和人类文明进步做出了重要贡献,同时也造成了不容忽视的恶劣影响,这是美国历史独特性的显著表现。

3)对于每一篇短文本d=1,…,D:

选择主题zd~Multinomial(θ)

其中,N-d,k是语料库D中除去短文本wd后主题为k的短文本的数量,N-d是语料库D中除去短文本wd的文档的数量,即N-d=|D|-1。表示语料库中除去短文本wd后主题为k的词语wdn的个数。表示主题为k时,关键词tdm和wdn共同出现在一条短文本中的次数。

选择wdn~Multinomial(φzd);

(2)对于每一个关键词m=1,…,Md:选择关键词tdm~ P(tdm|wd,zd,Q)。

其中,φk是短文本集在主题为k时的词语分布,θ是短文本集的主题分布。第d篇短文本中的所有词语和和所有关键词共用相同的主题zd。Q为特定主题下,短文本中词语与关键词的翻译概率,表示在主题为 k 的条件下,词语wi关键词tj的翻译概率。

4 参数估计与推理

4.1TTM_DMM的学习

利用在短文本主题发现方面效果较好的DMM模型,能够提高主题发现的准确率,进而提高主题约束下词语与关键词翻译概率的准确性,实现为短文本关键词抽取的目的。

通过对本工程灰土挤密桩的试验分析,桩体平均压实度、桩间土挤密系数及单桩复合地基承载力均满足设计及规范要求,消除了处理范围内土的湿陷性,提高了地基承载力,为类似工程提供参考。

3)TSTM模型:一种基于LDA的主题翻译模型。该模型首先通过学习LDA模型对训练集文档中的词语和关键词采样;其次,学习特定主题下词语到关键词的翻译概率;最后,利用学习到的翻译概率、词语在文档中的重要程度和测试集的主题分布计算得出每篇文档的关键词得分。该方法与本文提出的TTM_DMM模型类似,区别在于,TTM_DMM模型引入了DMM模型解决短文本的稀疏性问题,进而提高主题发现效果,实现关键词抽取精度的提高。

 

(1)对于每一个词语n=1,…,Nd

其次,当短文本中词语和关键词的主题稳定后,通过如下的公式估计特定主题下词语与关键词的翻译概率Q:其

作为泰州东部新城、重要组团、生态绿肺,姜堰城市不能走摊大饼式的发展老路,唯有紧扣自身功能定位,以特色争先、以品质取胜,汇聚更多的优势资源。

 

根据图2,TTM_DMM模型假设如下的生成过程:

4.“中脉巴马国际长寿养生都会”项目突出打造长寿养生养老主题。“中脉巴马国际长寿养生都会”项目位于世界长寿之乡广西巴马瑶族自治县长寿村(弄劳屯),该项目总投资18.5亿元,于2016年4月14日正式动工兴建,项目以当地天然长寿资源为依托,正在打造一个集观光旅游、休闲度假、高端养生养老于一体的大型健康养生养老综合项目,其项目类型为会员制养生养老服务机构,目前还在建设中。

4.2 短文本关键词的抽取

给定测试短文本集,通过如下的公式给第d篇短文本进行主题标注,见式(5)。

基于政策行为人理性决策的程度、科层制的程度、经济体制下专业分工程度,笔者将动员、强制、交换三种模式作一个简单区分。

 

其中,

 

式(6)中,p(k)是主题分布的先验。 Nk表示主题为k的短文本的数量。式(7)中,表示语料库中主题为k的词语wdn的个数。是语料库中主题为k的词语的数量。

当k=1,…,K时,取得概率 p(zd=k|d)最大时zd的值作为第d篇短文本的主题值。最后,利用主题分布和特定主题下词语和关键词的翻译概率Q,通过式(8)给测试数据集抽取关键词,第d篇短文本中关键词m的概率为

 

其中,p(wdn|wd)是短文本wd中每个词语的权重,本文采用 IDF(Inverse Document Frequency)方式计算。

5 实验结果与分析

5.1 实验数据集

我们利用从新浪微博网站爬取的微博作为短文本集,其中包括4个主题共53171条自带用户标注关键词的微博。主题分别是“北京马拉松”、“iPhone6s”、“亚洲杯”、“花千骨”。我们随机选取12000条微博构成实验所用数据集TTMSet,10000条为训练语料,2000条为测试语料。对数据集进行分词、去停用词等处理。数据集详情如表2所示。

我们采用准确率Precision,召回率Recall和综合指标F-measure作为关键词抽取效果的评价指标。

 

表2 数据集介绍

  

(S:短文本篇数;K:主题个数;V:词汇库大小;T:关键词库大小;Nt:平均每条短文本的关键词的个数)

 

1.08数据集TTMSet S V T Nt 12000 K 4 172593261

5.2 对比实验设置

本文将TTM_DMM模型与下列三个方法进行比较:

目前相当多的工程造价咨询企业的业务范围单一,只包括项目建设某个阶段,甚至只是某个阶段中的一部分,业务基本上都集中在工程招标控制价的编审、实施阶段的预算和结算审核上,前期的投资策划及决策、可行性研究及工程项目后评估方面没有涉及。服务手段落后、造价咨询服务缺乏全面性和完整性。工程造价的确定与控制应该是全过程的,工程实施阶段对造价的有效控制空间只有20~30%,而投资策划、投资决策阶段对造价的有效控制空间可达70~80%。

调查的1 336例骨科住院手术的老年患者中,发生医院感染42例(44例次),感染率为3.14%。其中男14例,平均(71.57±11.19)岁,女28例,平均年龄(72.21±6.88)岁。

1)LDA主题模型:LDA是一种基于主题的概率生成模型。在运用LDA进行关键词抽取时,首先,分别计算文档与候选关键词的主题分布;其次,计算两者的主题相似度,排序并选取最高的若干个作为关键词

2)IBM model-1:IBM model-1是翻译模型的代表,利用词对齐模型和词语与关键词的共现关系来学习由词语翻译为关键词的翻译概率。

对于短文本wd,通过式(3)选择一个主题zd∈[1,K]:

5.3 实验结果及分析

TTM_DMM模型初始化α=0.5,β=0.1,K=4,每次实验的迭代次数为2000次,词语的IDF值为短文本词语重要度。

  

图3 不同关键词抽取方法的Precision-Recall曲线图

图3 是LDA、IBM model-1、TSTM和TTM_DMM四种关键词抽取方法的实验结果图,每条曲线的各个点表示抽取的关键词个数不同时的Precision和Recall值,右侧第一个点表示抽取的关键词个数为1个,抽取个数从右至左依次递增至5个,其中曲线越接近右上角,说明抽取效果越好。由于TTMSet数据集中每篇短文本的平均关键词个数是1.08个,导致关键词抽取的个数为1个时,准确率最高,召回率最低,并且当抽取出的关键词个数由5个下降为1个时,各模型抽取出的关键词会包含更少的文档已标注好的关键词,召回率降低,准确率升高。

目前我国反腐败法律制度党内立法多、国家立法少,党内制度又往往不能及时转化为国家法律法规,因而其强制性和约束力偏弱。理顺二者的关系:一是要处理好宪法与的党内反腐法规关系;二是要处理好国家反腐立法与党内反腐立法的互动关系;三是要处理好党内反腐法规与国家法律有关反腐规定的互补关系;四是要严格区分党内反腐立法和国家反腐立法的权限;五是要构建党内立法与国家立法的衔接机制;六是要适时把成熟的党内法规上升为国家法律;七是要加强党内执法和国家执法过程中的联系与沟通;八是要建立党内违章审查制度。

圆圆沙警戒区是上海港南槽航道和北槽航道的交会处,是上海港最复杂和危险的航行水域之一,此警戒区上游北面是吴淞锚地,上游南面是外高桥码头,南槽航道的进口船与北槽航道的进出口船若在此交会,双方都应该特别谨慎航行。

各模型实验结果分析如下。

1)LDA模型的曲线位于最左下方,下降速度最快,说明其关键词的抽取效果最差,并且当抽取的关键词的个数变化时,稳定性较差。原因是该模型只考虑了词语与关键词的主题一致性,没有加入短文本已有词语本身对关键词抽取的影响,并且由于短文本字数较少,词汇信息不丰富,使得LDA在短文本主题发现存在缺陷,影响关键词抽取效果。

2)IBM model-1模型的抽取效果好于LDA模型,并且在抽取的关键词个数变化时,抽取效果比LDA模型更稳定。但是由于其只考虑了词语与关键词的共现关系,没有考虑词语与关键词是否主题一致,导致抽取效果并没有达到最好的结果。

3)TSTM模型的短文本关键词抽取效果仅次于TTM_DMM模型,曲线下降趋势较平缓,说明该模型在抽取效果和稳定性上都有很好的表现,但是该模型的短文本关键词抽取效果仍然不是最好的,原因是虽然该模型同时引入了LDA模型和统计机器翻译,综合了上述两种模型的优点,使得其抽取效果超越上述两种模型,但是由于LDA模型在短文本主题发现上的缺陷,使得模型主题发现效果不佳,影响特定主题下词语与关键词翻译概率的计算,从而导致其抽取效果并不是最好的。

4)TTM_DMM模型的曲线最接近右上角,说明抽取效果相较于另外三种模型更好,原因是TTM_DMM模型不仅解决了主题一致性问题和词语与关键词的共现关系问题,还使用DMM作为主题发现的主要模型,在短文本的主题发现效果上更好,结合统计机器翻译,使得模型可以更精准地得到特定主题下词语到关键词的翻译概率,从而提升了短文本关键词抽取效果。

5.4 实例分析

为了更加客观地展示实验结果,本文以“iPhone6s曝光:硬件升级内存或升至2GB”为例,展示TTM_DMM、TSTM、LDA和IBM model-1的关键词抽取效果,如表3所示,该表展示了四种关键词抽取模型对这条微博进行关键词抽取的结果。其中抽取出的关键词中打(×)的表示该关键词不符合预期目标,本文以各模型抽取的关键词的前五个关键词为例说明。

 

表3 不同关键词抽取方法的标注示例

  

Method LDA IBM model-1 TSTM TTM_DMM标注的关键词iPhone6S,苹果(×),手机,iPhone6SPlus(×),iPhone6(×)iPhone6S,手机,苹果(×),肾(×),硬件iPhone6S,硬件,手机,存储,内存iPhone6S,手机,硬件,内存,容量

由表3可以看到,LDA抽取的关键词大多与“iPhone”有关,但与微博内容无关。IBM model-1抽取出的关键词也出现了两个不符合预期的关键词,其主要原因是该模型只考虑了短文本中词语与关键词的共现关系,忽略了短文本词语和关键词的主题一致性,例如“肾”这个词是通过iPhone翻译过来的,与微博内容关系不大。TSTM和TTM_DMM抽取的关键词较好,但是TTM_DMM抽取出的关键词更恰当。

6 结语

本文创新性地提出了一个用于短文本关键词抽取的TTM_DMM主题翻译模型,通过利用在特征稀疏的短文本主题发现上效果较好的DMM模型,结合统计机器翻译,计算特定主题下词语和关键词的翻译概率,从而实现为短文本标注关键词的目的。实验结果证明,TTM_DMM模型能够有效提高短文本关键词抽取的效果。未来我们将继续研究如何进一步提高短文本关键词抽取的精度,并与实际应用相结合,针对特定的领域进行关键词抽取。

参考文献

[1]赵京胜,朱巧明,周国栋,等.自动关键词抽取研究综述[J].软件学报,2017,28(9):2431-2449.ZHAO Jingsheng,ZHU Qiaoming.Review of Research in Automatic Keyword Extraction[J].Journal of Software,2017,28(9):2431-2449.

[2]罗燕,赵书良,李晓超,等.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725.LUO Yan,ZHAO Shuliang,LI Xiaochao,et al.Text keyword extraction method based on word frequency statistics[J].Journal of Computer Applications,2016,36(3):718-725.

[3]苏祥坤,吾守尔·斯拉木,买买提依明·哈斯木.基于词序统计组合的中文文本关键词提取技术[J].计算机工程与设计,2015(6):1647-1651.SU Xiangkun,WUSHOUER Silamu,MAIMAITIYIMING Hasimu.Keywords extraction based on word order statistics and combination of Chinese text theme[J].Computer Engineering&Design,2015(6):1647-1651.

[4]SIDDIQI S,SHARAN A.Keyword and keyphrase extraction from single Hindi document using statistical approach[C]//International Conference on Signal Processing and Integrated Networks.IEEE,2015:713-718.

[5]SIU MH,GISH H,CHAN A,BELFIELD W,LOWE S.Unsupervised training of an HMM-based self-organizing unit recognizer with applications to topic classification and keyword discovery[J].Computer Speech&Language,2014,28(1):210-223.

[6]刘啸剑,谢飞.结合主题分布与统计特征的关键词抽取方法[J].计算机工程,2017,43(7):217-222.LIU Xiaojian,XIE Fei.Keyword Extraction Method Combining Topic Distribution with Statistical Features[J].Computer Engineering,2017,43(7):217-222.

[7]CHO T,LEE J H.Latent Keyphrase Extraction Using LDA Model[J].Journal of Korean Institute of Intelligent Systems,2015,25(2):180-185.

[8]DING Z,ZHANG Q,HUANG X.Automatic Hashtag Recommendation for Microblogs using Topic-Specific Translation Model[C]//Stroudsburg,PA:Proceedings of COLING 2012:Posters,2012:265-274.

[9]MIHALCEA R,TARAU P.TextRank:Bringing order into text[C]//In:Proc.of the EMNLP 2004.Unt Scholarly Works,2004:404-411.

[10]顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014,30(7):41-47.GU Yijun,XIA Tian.Study on Keyword Extraction with LDA and TextRank Combination[J].New Technology of Library and Information Service,2014,30(7):41-47.

[11]宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016(6):20-27.NING Jianfei,LIU Jiangzhen.Using Word2vec with TextRank to Extract Keywords[J].New Technology of Library and Information Service,2016(6):20-27.

[12]LIU J,ZOU D S,XING X L,et al.Keyphrase extraction based on topic feature[J].Application Research of Computers,2012,29(11):4224-4227.

[13]SARKAR K,NASIPURI M,GHOSE S.A New Approach to Keyphrase Extraction Using Neural Networks[J].International Journal of Computer Science Issues,2010,7(2):16-25.

[14]ZHANG K,XU H,TANG J,et al.Keyword Extraction Using Support Vector Machine[J].Lecture Notes in Computer Science,2006,4016:85-96.

[15]CHEN Y N,HUANG Y,LEE H Y,et al.Unsupervised two-stage keyword extraction from spoken documents by topic coherence and support vector machine[J].2012:5041-5044.

[16]ZHANG C.Automatic Keyword Extraction from Documents Using Conditional Random Fields[J].Journal of Computational Information Systems,2008,4.

[17]NIGAM K,MCCALLUM A,THRUN S,and MITCHELL T M.Text classification from labeled and unlabeled documents using em[J].Machine Learning,2000,39(2/3):103-134.

[18]YIN J,WANG J.A dirichlet multinomial mixture model-based approach for short text clustering[J].2014:233-242.

 
王瑞,秦永彬,闫盈盈
《计算机与数字工程》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号