更全的杂志信息网

融合上下文字符信息的泰语神经网络分词方法*

更新时间:2009-03-28

1 引言

自动分词是自然语言处理的基本任务之一,是句法分析、文本分类、信息检索、机器翻译等信息处理的基础。目前分词的研究方法主要有基于词典的字符串匹配分词方法、基于统计的分词方法及规则与统计结合的分词方法[1]。基于词典的分词方法效率较高,但对于新词的识别能力不足;基于统计的分词方法的准确率优于基于词典匹配的方法,而且可以不受待处理文本领域的限制,能自动排除部分歧义并识别相应的未登录词语。

泰语与汉语、日语等语言相似,词与词之间在形式上没有明确的分界符。泰语词汇主要由音节构成,包括单音节词、双音节词和多音节词,但音节一般由多个泰语字符组成,其中泰语字符由44个辅音字符(C)、32个元音字符(V)和5个发音声调(T)三部分构成。

1.2方法对照组,常规治疗,推拿+理疗,按摩后外敷多克自热炎痛贴,1次/天,尪痹片,口服,一次4片,一日3次。观察组:推拿+理疗,外加中药熏蒸,仪器:XZ-1型中药熏蒸床,中药成份:透骨草30g,威灵仙、三棱、莪术、五加皮、海桐皮各20g,艾叶、川椒、白芷、红花各10g,制成粉;治疗前将中药预热100度[2]。放置熏蒸床的容器内,对患者的具体病症部位进行局部熏蒸,1次/天,30min/次。

如图1所示,泰语词(你) 是单音节词,由三个字符构成;词(书)是由音节 组成的双音节词,而是由四个字符组成,是由三个字符组成,整个词由七个字符组成。因此,泰语由连续的字符按一定顺序排列成词再构成句子。

2.1.2 分布。此次调查发现的20种病害主要分布在盐源县(9种)、昭觉县(9种)和西昌市(8种),布拖县和喜德县分别有6种和5种病害发生。光叶紫花苕叶斑病和斑枯病集中在喜德和布拖2县发生,白粉病则发生于盐源县;玉米病害除锈病在昭觉县有发生,其余病害均发生在西昌市;黑麦草锈病在喜德县和西昌市发生,镰孢枯萎病、离孺孢叶枯病、离孢灰斑病则广泛分布于喜德等5县市。

  

Figure 1 Example of Thai word segmentation图1 泰语分词举例

目前,已有许多比较成熟的方法用于中文、日文自动分词,如最大熵模型[2,3]、隐马尔可夫模型[4,5]、决策树模型[6,7]、条件随机场模型CRFs(Conditional Random Fields)[8,9]等。泰语分词方面,也有少量相关研究。Poowarawan等人[10]在90年代,研究了泰语音节切分。Aroonmanakun[11]在 2003 年使用 200 多条规则对泰语音节进行切分,然后通过音节之间的搭配关系将音节合并为词。 Haruechaiyasak 等人[12]将泰语分词转化为基于泰语字符的条件随机场序列标注问题,取得了较好的分词效果,与赵志鹏[13]运用CRFs方法研究泰语分词相比,后者在语料规模上较小,而且使用CRFs标注需要定义大量的特征函数,导致特征模板复杂、搜索空间大、分词速度慢。 Limcharoen等人[14]使用GLR 分析算法和词的N-gram 模型进行泰语分词,实验F值达到87.04%,但该方法使用的参数空间大且数据稀疏严重。Suesatpanit等人[15]使用字符特征信息进行泰语分词,该方法获得了较高的F值,但是该方法考虑的字符信息较少。Kruengkrai等人[16]使用泰语词信息和字符簇(Character-Cluster)混合模型对泰语分词进行研究,获得了较好的泰语分词效果,但是分词的准确率和分词速度还有待提升。

3.5.2 10次交叉验证实验

2 神经网络分词标注模型

本文提出的融合上下文字符信息的泰语神经网络分词模型分为以下三步:首先,对语料预处理,有效地融合字符、声调和部分音节等信息;其次,根据预处理语料进行神经网络模型训练;最后,对模型训练的数据进行解码分析。

世界各国经验表明,住房金融是整个金融体系的重要组成部分,占比较大,住房金融风险事关整个金融系统性风险。因此,如何测度与预测住房金融风险及发生概率,如何评价这种风险的益处或者害处,如何褒益抑害是防范新时代上海市住房金融风险必须直面的问题。为此,依据笔者为期两月的调研,笔者提出防范新时代上海市住房金融风险的短期政策创新方略、中期制度改革方略、长期产权优化方略。

2.1 泰语分词标注问题

泰语分词标注的目标是采用BMES 体系对泰语中的词汇进行标注。其中S表示泰语单字符独立成词,B表示泰语词语的首字符,E表示泰语词语的结束字符,M表示泰语词语中除首字符和尾字符外的其它所有中间字符。设C={c1,c2,c3,…,cn}为待分词的泰语语句,其中ci表示泰语语句C中的第i个字符;L={l1,l2,l3,…,ln}表示泰语句子C上组成词的字符识别结果标记序列,其中li∈{B,M,E,S},通过li表示出泰语语句中的每个词启止位置,即确定每个词。

本文所用模型的输入数据为泰语句子中待标记的字符信息及上下文字符信息,包括当前多特征的字符信息和前后窗口的字符信息,并利用神经网络逐层发现和抽取其中的特征,网络中越高的层获取的特征信息越抽象。神经网络结构如图2所示。

  

Figure 2 Structure of neural network图2 神经网络结构图

其中第一层称为字符嵌入层是线性映射层,将泰语中的元音字符、辅音字符、声调等映射到低维空间中。第二层抽取字符上下文窗口中的特征;输出层采用Sofmax预测当前字符标注为BEMS中符号的概率,选择概率最大的标记作为标注结果。

其中,W1Qdh×(15d+d)是节点权重矩阵,b1Qdh为偏置。

 

(1)

通过将每个字符的低维向量连接可得到n-gram模型(wi,wi+1,…,wi+k-1)的向量表示对于上一个字符的标记,采用和当前字符一样的方式将其映射到d维向量对应的嵌入矩阵为EtQd×ΝwΝw为词汇表中字符的总数。

由此可以看出,我国学者关于武术文化研究的主题变迁经历了非物质文化遗产视域下探讨武术文化保护与传承——武术文化的国际化传播——武术文化与现代化元素的冲突——民间武术传承——商业赛事中的武术文化传播这样一个过程,但是每个阶段的武术文化研究主题仍然有重叠,体现出武术文化研究的逐渐深入。

嵌入层的下一层是普通的神经网络隐藏层,它以嵌入层各输出的连接向量作为输入,其隐层节点的数量为dh,激活函数采用3个函数对比,其中双曲线函数:

h=tanh(W1x+b1)

(2)

设词汇表中有Νw个不同的字符,语料库的字符表为W={w1,w1,…,wNw}。其中wi向量表示字符0-1编码向量,编码方法为当前字符在词汇表中的序号为j,则向量的第j维值为1,其它维值为0。嵌入层将句子中的每个泰语字符映射为一个d维向量对应的嵌入矩阵为EwQd×Νw,则字符向量映射过程为:

为打响蓝宝石品牌,2002年以来,昌乐县先后成功举办了11届中国(昌乐)国际宝石节和6届中国(昌乐)国际宝石博览会。2018宝博会上,魅力绽放的“中国蓝”,让无数游客和客商被昌乐县黄金珠宝产业的快速发展和城市的靓丽形象而折服,有来自20个国家和地区的95家国际客商参展参会,国际化程度创历年最高。期间现场交易额近2.4亿元。宝博会的举办不仅收获了丰硕的经济成果,也提升了昌乐珠宝特别是蓝宝石和黄金首饰的国际知名度。

实验解码在CPU E5-4620、内存16 GB的服务器下进行,实验中句子字符经过预计算后采用的神经网络解码过程的方式进行解码标注,以输出符合规范且概率值相对较高的标记作为最终标注结果。

2.2 损失函数

根据训练语料我们可以生成包含输入输出对的训练集合S={(xi,yi):i=1,2,…,N} 。每个输入xi是通过滑动窗口从句子得到的包含k个字符的向量。针对一个特定的句子,每个训练样本xi是一个三元组(cl,wj,cr),其中包含待标注字符wj、上下文中的前七个字符(cl=(wj-7,…,wj-2,wj-1)和后七个字符(cr=wj+1,wj+2,…,wj+7)。训练样本中的输出yi是维度为4的标注集二值向量,其对应标注维度的值为1,其它为0。模型的参数为θ={M,L,W1,b1,W2}。针对一个样本的损失函数定义为:

 

(3)

其中,δ为克罗内克函数,则所有样本的损失函数为:

 

(4)

本文采用参数为ρ=0.95,ε=1E-5的随机梯度下降算法最小化损失函数J,以获得网络的参数θ,网络的收敛性何嘉等人[26]已给出验证。

从表3可以看出:利用保密点进行检查,共检查51个点,点位中误差为0.26 m,限差为±0.8 m,最大较差为0.89 m,限差为±1.6 m。利用像控点进行检查,共检查20个点,点位中误差为0.42,限差为±1.2 m;最大较差为1.01 m,限差为±2.4 m;使用GPS RTK实地测量明显地物共检查99个点,点位中误差为0.76 m,限差为±1.2 m;最大较差为1.69 m,限差为±2.4 m。

 

(5)

在参数初始化方面,本文将嵌入矩阵、节点权重和偏置统一初始化为[-εinit,εinit]中的随机数。其中:

 

(6)

其中,fanIn表示当前层的输入节点数,fanOut表示当前层的输出节点数。

对泰语分词标注的神经网络模型根据字符分布,将窗口大小取值为15,T为10 000表示每次前向计算和后向计算10 000个字符的损失值后,更新一次网络的权重参数,字符嵌入节点数为语料中字符的个数,位置标注嵌入层输入节点为4,具体参数设置如表2所示。

3 实验与分析

分词实验采用 InterBEST 2009泰语分词评测语料(Segmentation Guidelines for InterBEST 2009 Thai Word Segmentation:An international episode.http:∥thailang.nectec.or.th/downloadcenter/index.php?option=com_docman&task=c at_view&gid=43&Itemid=61)。该语料分为 Article、Encyclopedia、News和Novel 四类约500万泰语词的分词语料。在分词性能评估时,采用的是直接对分词最终结果进行评估,计算泰语分词的准确率P、召回率RF值。实验随机从语料中抽取一部分作为测试集,训练数据集和测试集的分配如表1所示。在此训练语料和测试语料上对不同的泰语分词方法结果进行对比。

 

Table 1 Thai word segmentation corpus experiment表1 实验分词语料

  

类别训练语料数据大小/MB 词数 测试语料数据大小/MB 词数 Article12.311202210.91078266Encyclopedia12.510903000.86770836News18.715630491.16098636Novel16.015264081.420133007Total59.552999784.357380745

3.1 数据预处理及实验准备

(8)种类8。主要研究创客教育与教师发展间的关系。因为创客教育对于教师要求很高,所以创客教育有利于教师的创新能力的提高,促进智慧教师的养成。

第二阶段隐藏层训练的过程中,一定数量的样本个数用来组成一个Minibatch,设每个样本的维度为D,样本个数为M,神经网络的输入窗口数为m,则每一个MinibatchD×M×m的矩阵。整体的训练过程则将经历前向计算、后向计算和权重更新三个部分。在字符统计时,字符数为191组,语料数据化表示时实验进行得很快;实验中字符的Minibatch矩阵为191×5000×15=14325000。

3.2 评价指标

实验使用三个评价指标对泰语分词性能进行评估,即准确率P、召回率R以及调和平均值F。准确率P、召回率RF值的计算公式如下所示:

企业应把培训工作纳入整体规划中,企业领导者应在战略上高度重视员工培训,“把培训工作当作一项长期的基础工作来抓,并将培训情况作为每个员工工作考核的重要内容”[3]。

 

(7)

 

(8)

 

(9)

3.3 神经网络模型参数设置

针对句子中字符的标注位置,本文采用贪心算法进行标注,以网络输出中概率值最高的标记作为最终标注结果。相对于已有的分词标注方法,本文采用的方法不需要从大规模的特征表中查找,并计算构建字符特征,这在很大程度上降低了算法的计算复杂度。为进一步提高解码的效率,我们采用了类似于文献[27]的预计算策略。

根据表2中所给的参数对神经网络模型进行训练,并比较tanhlogisticreLU激活函数对泰语分词标注性能的影响。实验表明三种激活函数在两组不同实验中获得的准确率都很高,实验中reLU函数的准确率达到97.29%;平均损失中,logistic函数最高,reLU函数损失值最低。

 

Table 2 Parameter settings表2 参数设置

  

参数名称参数值字符窗口15λ10-4T10000SGD动量参数ρ0.95字符嵌入层输入节点191标识嵌入层输入节点数4字符嵌入层输出节点数50位置标识节点数4隐含层输入节点数754隐含层输出节点数250Sofmax层输出节点数4

3.4 神经网络模型解码过程

神经网络模型训练输出数据为SBEM的标记,解码过程中根据对应标记及词语分布特性进行解码,其中每一句起始标记选SB中概率最大者;若前一标记为SM,则后一个标记为SB中概率最大者;若前一标记为B,则后一标记为EM概率最大者;若前一标记为E,则后一个标记必须为M

3.5 实验结果分析

3.5.1 与现有分词模型对比实验

实验对比了融合上下文字符信息的神经网络分词方法与条件随机场(CRFs)方法[12,13]、Character-Cluster Hybrid 方法及 GLR and N-gram 方法中最好的分词实验结果进行对比。在对比Character-Cluster Hybrid 方法[15]及 GLR and N-gram 方法[13]进行实验时,使用表1中的训练集语料进行训练,并在相同测试集语料上进行测试。泰语分词性能对比如表3所示。

实验显示,融合上下文字符信息的神经网络分词模型单字符特征简单且仅有191个。融合上下文字符信息更能获取字符之间的相关性,更有利于分词准确率的提高。实验对比可以发现,相对于特征模板复杂的条件随机场模型、Character-Cluster Hybrid模型和GLR and N-gram模型,所提模型在四种不同领域的实验结果中取得很好的准确率P、召回率RF值。通过实验分析发现,对于条件随机场模型、Character-Cluster Hybrid模型和GLR and N-gram模型切分错误的词主要是因为存在特征定义不全面,而融合上下文字符信息的分词模型主要是因为存在歧义词。

从表4中分析发现,在不同领域的神经网络模型分词方法的结果相差不大,即模型具有一定的领域适应性。

 

Table 3 Comparison of performance of various Thai word segmentation methods表3 多种泰语分词方法性能对比

  

方法P/%R/%F/%条件随机场模型94.6895.5495.11Character-ClusterHybrid模型96.7197.9797.34GLRandN-gram模型83.95486.3185.10神经网络模型97.2799.2698.26

 

Table 4 Performance comparison of the neural network model in different areas表4 基于神经网络模型在不同领域性能对比

  

DomainP/%R/%F/%Article97.16199.30298.422Encyclopedia97.32099.29398.621News97.35198.85098.152Novel97.12098.81297.541

综上所述方法,将分词任务转化为序列标注问题[17,18],采用的上下文特征越丰富,越有助于提升分词效果,但同时也会带来数据稀疏、搜索空间变大的问题,给分词速度带来不利影响 [9,19]。神经网络在处理丰富的结构化特征时有明显的优势,运用神经网络模型可以处理低维、致密的向量,能有效地缓解传统特征空间大、特征向量稀疏性带来的影响[20-25],而且Chen等人[24,25]利用神经网络模型研究中文分词的准确率达到96.5%。本文将利用神经网络模型处理泰语分词,将分词任务转化为序列标注问题,对现有泰语分词方法中搜索空间大、分词速度慢等问题,提出融合上下文字符信息的泰语神经网络分词模型,该模型在保证分词性能的前提下,有效地提高了泰语分词的速度。

将4类语料分别分为10份,其中用9份作为训练语料,1份做测试语料,并对4种类别中的训练语料和测试语料分别合并到一起。进行10次交叉实验。表5显示在10次实验中的分词效果。

 

Table 5 Cross-test results表5 交叉实验结果

  

序号训练词数测试词数P/%R/%F/%0510014258003197.48299.43898.7341510721457295997.42799.54298.7582513834254183197.18099.22798.4773512191555825897.46999.29898.6584510552757464697.53999.51298.7995509876358141097.35499.45498.6776511684556332897.42099.28398.6267514331753685696.99398.89198.0658509257158760297.00799.05698.3109509692158325296.82198.94298.150平均值97.26999.26098.260

对比表5发现,泰语神经网络分词实验具有领域自适应功能,对不同语料的10次交叉验证都能取得很好的效果,且平均准确率P、平均召回率R和平均F值分别达到97.269%、99.26%、98.26%。

3.5.3 解码速度对比实验

在隐藏层训练的过程中,将经历前向计算、后向计算和权重更新三个部分。隐藏层下面是一个Softmax分类层,用于预测标注为各标记的概率p=softmax(W2h) ,其中W2Qdh

融合上下文字符信息的神经网络分词模型输出的数据,通过直接解码神经网络模型D-NN(Direct decoding Neural Network model)和预计算解码神经网络模型P-NN(Predictive decoding Neural Network model)两种方式进行解码,直接解码是在解码过程中每次不停地迭代参数矩阵;预计算解码,即在解码之前,对字符出现的权重参数存储,在解码过程中直接查找相应的权重表,以提高解码的速度。

能源强度是评价一个国家 (地区)能源综合利用效率的常用指标之一,体现了一个国家 (地区)经济发展过程中所付出的资源环境代价 (林伯强,2014)[1]。当前,针对能源强度的研究多为以下两个方面:

由于条件随机场分词方法应用广泛且其解码速度快,本文通过直接解码(D-NN)和预计算后解码(P-NN)以及条件随机场方法解码对比如表6所示。实验结果表明,基于融合上下文字符信息的神经网络分词方法在准确率、召回率以及F值上都有很大的提高且预计算后解码速度也很高,是条件随机场模型解码速度的2.127 8倍。

正文内容实验分为三个阶段,首先是语料预处理及语料字符的向量化表示阶段,其次是神经网络模型训练阶段,最后是进行解码分析。其中第一阶段主要是对语料清理、构建字符字典表、语料数字化表示、生成训练语料。本文采用不同的字符信息进行对比实验,在构建字符字典表和语料数字化表示时,进行不同的实验设置。

 

Table 6 Segmentation speed comparison between neural network model and conditional random field model表6 神经网络模型与条件随机场模型分词速度对比

  

方法分词解码速度(词/秒)P-NN1140.65D-NN797.66CRFs536.07

4 结束语

本文针对泰语分词问题,借鉴其他语种的词向量表示的思想,提出了融合上下文字符特征的泰语神经网络分词模型。实验结果表明,模型中的多层神经网络有效地识别出泰语词语的分界,降低了特征值稀疏带来的影响,提高了泰语分词的性能。此外,模型中通过不同层次的融合上下文字符信息,提高词性标注准确度的同时,很大幅度地提高了解码速度。考虑到泰语存在大量的巴利语和梵语借词以及其他外来词,在进一步研究工作中,我们将考虑如何将这些信息融入模型中,进一步提高模型的性能。此外,模型中泰语由连续字符组合成词,在进一步研究工作中,将该模型运用于越南语等其他基于连续字符组成词的语言,进行高效、准确、快速的分词。

参考文献:

[1] Zhao Wei, Dai Xin-yu, Yin Cun-yan, et al.A method combining rule-based and statistics-based approaches for Chinese word segmentation[J].Application Research of Computers,2004,21(3):23-25.(in Chinese)

[2] Xue N, Shen L.Chinese word segmentation as lmr tagging[C]∥Proc of the 2nd SIGHAN Workshop on Chinese Language Processing-Volume 17,2003:176-179.

[3] Zhang L Y,Qin M,Zhang X M,et al.A Chinese word segmentation algorithm based on maximum entropy[C]∥Proc of 2010 International Conference on Machine Learning and Cybernetics,2010:1264-1267.

[4] Zhang H P,Liu Q,Cheng X Q,et al.Chinese lexical analysis using hierarchical hidden Markov model[C]∥Proc of the 2nd SIGHAN Workshop on Chinese Language Processing-Volume 17,2003:63-70.

[5] Jiang Fang, Li Guo-he,Yue Xiang,et al.Segmentation of Chinese word based on method of rough segment and part of speech tagging[J].Computer Engineering and Applications,2015,51(6):204-207.(in Chinese)

[6] Sornlertlamvanich V, Potipiti T,Charoenporn T.Automatic corpus-based Thai word extraction with the C4.5 learning algorithm[C]∥Proc of the 18th Conference on Computational Linguistics-Volume 2,2000:802-807.

[7] Theeramunkong T, Usanavasin S.Non-dictionary-based Thai word segmentation using decision trees[C]∥Proc of the 1st International Conference on Human Language Technology Research,2001:1-5.

[8] Mo Yi-wen, Ji Dong-hong, Huang Jiang-ping.Slight-pause marks boundary identification based on conditional random field[J].Journal of Computer Applications,2015,35(10):2838-2842.(in Chinese)

[9] Zhang R,Kikui G,Sumita E.Subword-based tagging by conditional random fields for Chinese word segmentation[C]∥Proc of the Human Language Technology Conference of the NAACL,Companion Volume:Short Papers,2006:193-196.

[10] Poowarawan Y. Dictionary-based Thai syllable separation[C]∥Proc of the 9th Electronics Engineering Conference,1986:409-418.

[11] Aroonmanakun W.Collocation and Thai word segmentation[C]∥Proc of the 5th SNLP & 5th Oriental COCOSDA Workshop,2002:68-75.

[12] Haruechaiyasak C,Kongyoung S.TLex:Thai lexeme analyser based on the conditional random fields[C]∥Proc of the 8th International Symposium on Natural Language Processing,2009:1-5.

[13] Zhao Zhi-peng. Machine learning approach to Thai word segmentation [D].Kunming:Yunnan University,2014.(in Chinese)

[14] Limcharoen P,Nattee C,Theeramunkong T.Thai word segmentation based-on glr parsing technique and word n-gram model[C]∥Proc of the 8th International Symposium on Natural Language Processing,2009:1.

[15] Suesatpanit K,Punyabukkana P,Suchato A.Thai word segmentation using character-level information[C]∥Proc of InterBEST 2009 Thai Word Segmentation Workshop,2009:18-23.

[16] Kruengkrai C, Uchimoto K,Kazama J,et al.A word and character-cluster hybrid model for Thai word segmentation[C]∥Proc of the 8th International Symposium on Natural Language Processing,2009.

[17] Ren Zhi-hui, Xu Hao-yu, Feng Song-lin, et al .Sequence labeling Chinese word segmentation method based on lstm networks[J].Application Research of Computers,2017,34(5):1321-1324.(in Chinese)

[18] Liu Yi-jia, Che Wan-xiang, Liu Ting, et al.A comparison study of sequence labeling methods for Chinese word segmentation,pos tagging models[J].Journal of Chinese Information Processing,2013,27(4):30-37.(in Chinese)

[19] Zhang R, Kikui G, Sumita E.Subword-based tagging for confidence-dependent Chinese word segmentation[C]∥Proc of the COLING/ACL on Main Conference Poster Sessions,2006:961-968.

[20] Zheng X, Chen H,Xu T.Deep learning for Chinese word segmentation and pos tagging[C]∥Proc of EMNLP,2013:647-657.

[21] Pei W,Ge T,Chang B.Max-margin tensor neural network for Chinese word segmentation[C]∥Proc of ACL (1),2014:293-303.

[22] Qi Y,Das S G,Collobert R,et al.Deep learning for character-based information extraction[C]∥Proc of European Conference on Information Retrieval,2014:668-674.

[23] Zhang D Y,Xu Y.Chinese word segmentation based on the first kind of spline weight function neural networks[C]∥Proc of Applied Mechanics and Materials,2014:683-686.

[24] Chen X,Qiu X,Zhu C,et al.Gated recursive neural network for Chinese word segmentation[C]∥Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,2015:1744-1753.

[25] Chen X,Qiu X,Zhu C,et al.Long short-term memory neural networks for Chinese word segmentation[C]∥Proc of the Conference on Empirical Methods in Natural Language Processing,2015:1385-1394.

[26] Chen L, He J. Optimization of Chinese word segmentation based on neural network and genetic algorithm[J].Journal of Southwest China Normal University,2007,32(4):90-93.

[27] Devlin J,Zbib R,Huang Z,et al.Fast and robust neural network joint models for statistical machine translation[C]∥Proc of ACL (1),2014:1370-1380.

附中文参考文献:

[1] 赵伟,戴新宇,尹存燕,等.一种规则与统计相结合的汉语分词方法[J].计算机应用研究,2004,21(3):23-25.

[5] 姜芳,李国和,岳翔,等.基于粗分和词性标注的中文分词方法[J].计算机工程与应用,2015,51(6):204-207.

[8] 莫怡文,姬东鸿,黄江平.基于条件随机场的顿号边界识别[J].计算机应用,2015,35(10):2838-2842.

[13] 赵治鹏.采用机器学习方法实现泰语分词[D].昆明:云南大学,2014.

[17] 任智慧,徐浩煜,封松林,等.基于LSTM网络的序列标注中文分词法[J].计算机应用研究,2017,34(5):1321-1324.

[18] 刘一佳,车万翔,刘挺,等.基于序列标注的中文分词,词性标注模型比较分析[J].中文信息学报,2013,27(4):30-37.

 
陶广奉,线岩团,王红斌,汪淑娟
《计算机工程与科学》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号