更全的杂志信息网

蒙古语词向量评测研究*

更新时间:2009-03-28

0 引言

要将自然语言交给机器学习中的算法来处理,通常需要将语言数学化,词向量就是将语言中的词进行数学化的一种方式。词向量将某种语言中的每一个词映射成一个固定长度的短向量,将所有这些向量放在一起形成一个词向量空间,而每一词向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的语义、语法上的相似性。词向量具有良好的语义特性,可用于改善和简化许多自然语言信息处理应用,并且词向量的质量影响自然语言信息处理应用的性能。因此,针对蒙古语词性标注、命名实体识别、短语识别、机器翻译方面的应用需求训练蒙古语词向量,研究词向量的评测具有重要的研究意义。词语作为连续向量的表示具有悠久的历史。已有许多学者用不同模型训练了词向量,比较经典的模型有神经网络语言模型(NNL M)[1]、双对数线性语言模型(LBL)[2]、循环神经网络语言模型(RNNL M)[3]、连续词袋模型(CBOW)和Skip-gram模型[4]等。另外,Mikol ov等[5]还提出了Skip-gra m模型的几个扩展,即Hierarchical Soft max算法、负采样算法和欠采样技术,从而提高了词向量的质量和训练速度。针对形态丰富的语言,Bojano wski等[6]提出了一种基于Skip-gra m模型的新方法。此外,词向量可用于改善和简化许多NLP应用[7-8]

词向量的评价方法有两种:一个是把词向量融入到现有系统中,看能否提升现有系统[9];另一个是从语言学的角度分析词向量,比如相似度。研究者发现相似的词不仅彼此接近,而且这个词具有多重相似度。这在早期的变形语言中已被观察到,例如,英语名词可以有多个单词结尾,如果在原始向量空间的子空间中搜索类似的单词,可以找到具有相似结尾的单词[10-11]。蒙古语是黏着性语言,其形态丰富,并存在许多词根相同的名词和动词的变形形式,这些形式表示相似的概念。比如动词都有相同的词根,表示“走”的不同形态。因此本研究从语言学角度的语义语法相似性来评价蒙古文词向量质量。蒙古语词向量评价方面不像英语一样有自己的语义语法测试集,因此,本研究结合蒙古语特征设计一个语义语法综合测试集,然后在此测试集上评测蒙古语词向量的质量。

无先兆型偏头痛患者基于前脑岛的功能连接分析 … ………………………… 郁媛文,刘红星,管青山,等 81

1 蒙古语语义语法测试集的建立

词向量具有良好的语义特性,可以通过加减法操作来对应某种语义语法关系,并通过语义语法相似性来评价词向量。比如判断与接近的向量是不是。

1.1 蒙古语语义测试集的建立

在大量数据上训练高维词向量时,所得到的向量可以回答诸如城市和它所属的国家之间的单词之间的微妙语义关系,例如,巴黎是法国的,柏林是德国的。根据这种现象本研究建立了两种蒙古语语义关系集:首都-国家关系和男-女关系。每个类别的两个实例如表1所示,相同类别的两个单词对连在一起构成一个语义问题,共有100个语义问题。本测试集中只包含一个词构成的单词,不包含多单词实体(如)。

 

表1 语义测试集中的两种语义关系实例Table 1 Examples of t wo types of semantic questions in Semantic test set

  

Type of relationship Word pair 1 Wor d pair 2 Capital city-Country Man-Woman

1.2 蒙古语语法测试集的建立

总之,在高中物理教学中,教师引导学生进行教学活动的积极参与,亲自探究知识的生成,这样既能激发学生的兴趣,培养学生独立思考和自主探究的能力,也能不断提升学生的物理综合水平,促进学生物理素养的发展.

CBOW模型是根据上下文预测目标语言的概率来优化词向量的。蒙古语n-gram语言模型中4元模型的效果最好,因此,本研究在窗口为3~6的情况下训练蒙古词向量,训练语料为27万蒙古文句子,词向量维度为300,并用建立的语义语法测试集评测词向量。从表3可以看出,窗口为4的情况,下词向量质量最好,所以用于训练蒙古语词向量的CBOW模型的窗口大小为4,目标词的上下文为该词前后的4个词。模型架构如图1a所示。举个例子,假如给定一个词的前面 4 个词和后面4个词,可以预测出这个词最大可能为。由此可以看出,在蒙古语中,当窗口设为4时,词语才能表达出良好的语义。

 

表2 语法关系测试集中4种类型语法问题实例Table 2 Examples of four types of syntactic questions in Syntactic test set

  

Type of relationship Word pair 1 Wor d pair 2 Nu merals f or m change Pl ural nouns Noun casePronouns f or m change

1.3 词向量评测方法

使用类比方式在建立的语义语法测试集上评测蒙古语词向量质量。具体操作方法:设语义语法测试集中每个问题的4个词依次对应a、b、c、d。已知a之于b犹如c之于d。先给出a、b、c,再看C(a)-C(b)+C(c)最接近的词是否是C(d)。如果计算出来的向量与测试集中的词d完全相同,则认为是正确答案。本研究评估所有问题类型的总体准确性,并分别对语义、语法问题进行评估。

2 蒙古语词向量模型架构

训练完成后,使用类比方式在建立的语义语法测试集上评测蒙古语词向量质量。表5是在不同大小的训练数据和不同维度下,用Skip-gra m模型训练词向量的结果。由表5可以看出,在某些方面,添加维度或添加训练数据可以提高词向量质量。

海瑞塔·拉克斯在癌症治疗期间,她的主治医生从她的肿瘤上取下了一块组织样本,送给了约翰·霍普金斯大学细胞培养组的头乔治·盖伊并进行观察培养。

1)雨污分流:作业区基本实现没有大型设备干扰,可以分区分层分单元摊铺,为雨污分流创造了良好的作业环境。辅以围堰等作业设施,可进一步控制作业面。

在CBOW模型和Skip-gra m模型中,目标词w t是一个词串中间的词而不是最后一个词,其拥有的上下文为前后m个词,m为模型窗口的大小。

本研究结合蒙古语法特征建立了关于蒙古语名词格、复数、数词和代词的4种语法关系集。每个类别的两个实例如表2所示,相同类别的两个单词对连在一起构成一个语法问题,共有544个语法问题。

 

表3 不同窗口下CBOW模型的性能Table 3 Perfor mance of CBOW model under different window size

  

Windo w size Se mantic-Syntactic accuracy(%)3 23.30 4 24.14 5 19.71 6 14.91

Skip-gra m模型根据当前词预测上下文的概率来优化词向量,同样本研究在窗口为3~8的情况下分别训练蒙古词向量,训练语料为27万蒙古文句子,词向量维度为300,并用建立的语义语法测试集评测词向量。从表4可以看出,窗口为5的情况下,词向量质量最好。

所以用于训练蒙古语词向量的Skip-gra m模型的窗口大小为5,根据当前词预测词前后5个词。模型架构如图1b所示。

 

表4 不同窗口下Skip-gram模型的性能Table 4 Perfor mance of Skip-gr am model under different window size

  

Window size Semantic-Syntactic accuracy(%)3 33.60 4 31.60 5 34.27 6 32.48 7 29.95 8 28.88

  

图1 蒙古语词向量模型架构Fig.1 Mongolian word vectors model architecture

3 实例验证

使用上述CBOW模型和Skip-gra m模型训练蒙古语词向量。训练语料采用CWMT2015的蒙古语训练语料和内蒙古大学100万词级的《现代蒙古文数据库》。上述两种语料是蒙古文拉丁转写形式,因此训练之前,先将单词与标点符号进行分割。

词向量可以使用NNL M、RNNL M、LBL等不同模型架构来学习,这些架构的计算复杂度比CBOW和Skip-gra m模型要高出许多,因此本研究采用CBOW和Skip-gra m模型训练蒙古词向量,并采用Hierarchical Soft max加速策略。

 

表5 Skip-gram架构在蒙古语语义语法关系测试集上的总体准确性Table 5 The overall accuracy of Skip-gram architecture in Mongolian semantic-syntactic relationship test set

  

Accuracy(%)Di mensionality 12 M 17 M 23 M 100 17.91 22.88 25.36 200 20.57 25.54 28.11 300 22.35 26.53 29.04 600 21.22 27.54 28.26

为了比较两种模型架构,本研究在规模为23 M的训练语料上分别用CBOW模型和Skip-gra m模型训练词向量,词向量维度为300。结果表明,对于蒙古语而言,词法和语义任务上Skip-gram模型优于CBOW模型(表6)。

 

表6 模型架构在语X语法测试集上的准确性比较Table 6 The accuracy comparison of model architecturein semantic-syntactic test set

  

Model architecture accuracy(%) Syntacticaccuracy(%)Semantic CBOW 5.12 32.85 Skip-gram 15.12 42.95

综上所述,蒙古语语义准确率总体比较低,第一个原因是测试中忽略了同义词的概念,比如,就测试集中的来说,有同义词,而本研究所采用的测评方法规定,只有计算出来的向量与测试集中的词完全相同时才认为是正确答案,所以同义词被忽略。第二个原因是训练语料库中缺少地名相关的词,因此训练出来的地名词向量质量比较差,无法表达出其语义。

4 结束语

[4] MIKOLOV T,YIH W,ZWEIG G.Linguistic regularities in continuous space word representations[C].Pr oceedings of NAACL-HLT,2013.

功能设计能够按预案类别、名称、编制单位、适用范围等不同标准对预案进行查询、浏览,并能够将查询结果以HTML、EXCEL、PDF等常用格式进行输出、打印,并支持打印预览、设置。查询界面如图10所示。

[3] MIKOLOV T.Statistical language models based on neural net works[D].Lausanne:Brno University of Technology,2012.

参考文献:

蒙古语名词有格、数、领属等范畴的形态变化。蒙古语的格是通过名词后面缀接格附加成分来表示,例如(房子的),其中(房子)是名词,是格附加成分,共有7种格附加成分。蒙古语的复数是在名词单数形式上缀接复数附加成分来表示。例如名词单数形式(老师)上缀接复数附加成分,表示“老师们”的意思。蒙古语数词的变化也是在基数词上缀接各种附加成分表示,比如基数词(一)上缀接附加成分形成,表示“第一”的意思。

[1] BENGIO Y,DUCHARME R,VINCENT P,et al.A neural probabilistic language model[J].Journal of Machine Lear ning Research,2003,3:1137-1155.

[2] MNIH A,HINTON G.Three new graphical models for statistical language modelling[C].24th Annual Inter national Conference on Machine Lear ning(ICML),Corvallis,2007.

蒙古语是个形态丰富的语言,有着丰富的数、格、时、体、态等形态变化。这导致了蒙古语的词汇量庞大。词向量训练时使用固定大小的词汇表,这使得罕见词语无法向量化。因此,在后续工作中将研究基于子词单元(比如词素级、字符级)的词向量表示来提升形态丰富语言的性能。词向量训练好以后,通常会作为各种神经网络结构的初始值,Wor d2vec模型是很浅层的神经网络,词向量经预训练后做为其初始值,通常可以提升任务上的效果。因此,后续研究将会把训练好的词向量作为初始值,运用到蒙汉机器翻译任务上,以提升其翻译效果。

本研究分别使用CBOW模型和Skip-gram模型训练蒙古语词向量,并在自己建立的语义和语法测试集上评测了词向量的质量。研究表明,利用Skip-gra m模型且窗口为5的情况下蒙古语词向量质量最好。随着词向量维度或训练数据的增大,词向量质量有明显的提高。

[5] MIKOLOV T,SUTSKEVER I,CHEN K.Distributed representations of words and phrases and their co mpositionality[C]//BURGES C J C,BOTTOU L,WELLING M,et al(eds.).Advances in neural information processing systems 26(NIPS 2013).Nevada:[S.n.],2013.

在热应激情况下奶牛出汗多,水的需求量上升,应给奶牛提供无限制、新鲜、干净的饮水。水槽应经常清洗,每周用漂白粉消毒1次。水槽应放在遮荫且奶牛易喝到的地方。

在进行建筑给排水地漏设计的过程中,设计人员应该严格参照建筑工程建设标准与相关规范要求,合理设计地漏水封问题,如深度问题等。结合以往的实践经验来看,国内地漏水封设计深度一般需要不小于50毫米。

[6] BOJANOWSKI P,GRAVE E,JOULIN A,et al.Enriching wor d vectors with subword infor mation[Z].Facebook AI Research,2016.

[7] COLLOBERT R,WESTON J,BOTTOU L.Natural language pr ocessing(al most)fro m scratch[J].Jour nal of Machine Learning Research,2011,12:2493-2537.

[8] KI M Y.Convolutional neural net wor ks for sentence classification[C].Empirical Methods in Natural Language Processing.[S.l.],2014.

[9] TURIAN J,RATINOV L,BENGIO Y.Word representations:A si mple and general met hod for semi-Supervised lear ning[C].Proc Association f or Co mputational Linguistics.[S.l.],2010.

[10] MIKOLOV T.Language modeling for speech recognition in Czech[D].Lausanne:Brno University of Technology,2007.

[11] MIKOLOV T,KOPECKY,BURGET L,et al.Neural net wor k based language models for highly inflective languages[C].Inter national Conference on Acoustics,Speech and Signal Processing.[S.l.],2009.

我一直认为学校教育最关键的一点,是让学生养成阅读的习惯、培养学生阅读的能力。如果一个学校将这个问题解决了,主要的教育任务应该说就算完成了。如果一个孩子在十多年的教育历程中,还没有养成阅读的兴趣和习惯,一旦他离开校园就很容易将书本永远丢弃到一边,这样的教育一定是失败的。相反,一个孩子在学校里虽然成绩普普通通,但对阅读产生了浓厚的兴趣,养成了终身学习和阅读的习惯,他未来一定会比考高分的孩子走得更远。学校教育不仅要像提供母乳一样给孩子们提供最初的滋养,而且要通过提倡自主阅读让孩子们学会自由飞翔。

 
乌云塔那,王斯日古楞
《广西科学院学报》 2018年第01期
《广西科学院学报》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号