快捷分类

基于改进的多层BLSTM 的中文分词和标点预测

更新时间：2009-03-28

0 引言

随着互联网和计算机硬件的发展，智能家居控制、自动问答和语音助手等自然语言处理应用得到越来越多的关注。而中文不同于西方语系之处，即词与词之间没有固定的间隔，使得中文分词成为自然语言处理的基础。另一方面，口语对话没有标点符号，不能区分语句边界及规范语言结构，因此标点预测也是极其重要的自然语言处理任务。目前中文分词和标点预测都是作为独立的自然语言处理任务存在的，先中文分词再标点预测的级联的方案不仅显得过于复杂，而且分词的效果会直接影响到标点预测的性能，因此找到一个能并行执行中文分词和标点预测的方法具有现实的意义。

(1)平行近距离的管线探测技术，为最大限度地节约资源和空间，采用平行近间距的铺设方式，对空间距离较小的底下管线非常有效。探测曲线容易发生异常，在单一的高峰阶段，如果对相邻的管线进行差异化的探测，注意异常曲线的峰值，如果对称性质发生变化，可以比较对应的曲线峰值，当空间和位置上发生了偏移，则可能是相邻管线间的互感使得电磁出现异常，应注意相互叠加的部分。

由字构词的中文分词方法首次由Xue等［1］提出，使用LL、RR、MM、LR作为标记，分别代表一个词的开始、结束、中间字、单个字。随着SIGHAN国际中文分词评测Bakeoff的进行，序列标注的中文分词方法逐渐成为主流。该方法能够很好解决机械分词的切分歧义问题，又能避免全切分方法因切分过多造成的分词效率下降问题［2－5］。用于中文分词的常用标注集有三种:二词位、四词位和六词位，各词位标注的定义如表1所示。二词位标注大多用于基于字标注的条件随机场分词系统，Zhao等［6］首次使用了六词位标注法，已有的采用深度学习的文章均采用四词位标注法［7］。

隐性价值更需要用心去挖掘。比如拿专题纪录片来说，作品绝大多数局限于从个人角度去审视，尽管我们觉得它的信息价值较高，或者说由于从中可窥见中国纪录片发展轨迹因此具有凭证价值，某些片断可作为当时社会生活原生态的一种记录。又如解放前老百姓的衣食住行等。在判断素材价值时还应注意到主题、画面、解说词之间的关系。

序列标注用到的模型有Leonard E．Baum提出的隐马尔可夫模型，它的缺点是由于其输出独立性假设，无法考虑上下文的特征。最大熵模型［8］也可用于中文分词，此模型的应用克服了隐马尔可夫的缺点，但是对于训练预料中未出现的情况全部忽略，而且只能找到局部最优解。使用链式条件随机场(conditional random field)来进行中文分词，可以克服隐马尔可夫模型和最大熵的上述缺点［9－10］。但是序列标注的方法不管是隐马尔可夫、最大熵还是条件随机场都局限于特征的设计，特征数量比较大，容易在训练时产生过拟合现象。而深度学习利用BP(Back Propagation)算法不断调整由简单但非线性结构组成的网络权值，从而找到原始数据更加抽象的表达，这些特征是在网络模型迭代中从原始数据中“学到”的，不需要人工进行设计，自学习是关键所在。深度学习的优秀泛化能力、可以避免繁琐人工特征抽取的优势使其成为机器学习领域的热点。最早是Zheng等［11］将深度学习应用到中文分词中，还把神经网络中的极大似然训练方法替换成他提出的perceptron-tyle训练方法实现了中文分词和词性标注任务。Pei等［12］在其基础上加入了标签嵌入层和张量变换层，提出了MMTNN模型用于中文分词。

表1 三类词位标注集的定义Tab．1 Definition of three kinds of tag sets

pagenumber_ebook=62,pagenumber_book=1279

标注集标记定义二词位 S，n 开始，后续四词位 B，M，E，S 开始，中间，结束，单字六词位 B，B2，B3，M，E，S 开始，第二字符，第三字符，中间，结束，单字

由于LSTM模型具有解决梯度消失问题的优点［13－14］，Chen等［15］使用LSTM来实现中文分词。后续有学者在2015对流行的LSTM变体进行了研究对比，得出的结论是他们基本上是一样的［16］。单向的LSTM只能记住过去的上下文信息。因此有学者在2016年提出了使用双向LSTM神经网络来进行中文分词［17］，这样就可以获得当前词前后两面的上下文信息，从而提高分词准确率。一层LSTM叠加在另一层上可以形成多层的LSTM网络结构。虽然深层次的网络可以学习到更加抽象的信息，但随着叠加层数的增多，会出现网络难以训练和过拟合现象，因此多数情况下选用2层的LSTM网络结构［18－19］。

此外，序列标注的思想也可以推广应用到词性标注、实体命名识别和标点符号预测等NLP任务中。类似于中文分词，标点预测也可以被看作是序列标注问题，预测过程是对文本序列的每个字符进行标注，以确定语句边界处的标点符号。Jing等［20］用此方法结合最大熵模型进行了标点符号预测。Shriberg等［21］结合条件随机场模型用于语音识别中句子边界的检测。利用序列标注的思想便可实现多个预测任务的联合标注，因为联合标注的每个标签包含了多种预测任务的信息，因此可以实现多个预测任务的并行执行。Zhang等［22］用单层感知器并行执行中文分词和词性标注;Zheng等［11］曾用多层神经网络实现了并行执行中文分词和词性标注;Wang等［23］用一个模型进行了中文分词和非正式词汇的识别;Wu等［24］提出了可以同时进行中文分词和标点预测的联合任务框架用以处理社交网络数据;除了并行执行两项任务，还有学者用一个模型同时进行了中文分词、词性标注和句法分析［25］。受此启发，本文构建包含了中文分词标注和常用标点标注的联合标注集，并提出了一种改进型多层BLSTM网络，进而基于该神经网络和联合标注集并行执行中文分词和标点预测。

1 基于序列标注的中文分词模型

基于循环神经网络(Recurrent Neural Network，RNN)的序列标注通用模型如图1［19］所示，该模型由输入窗口、字符向量表示查找表、RNN层和softmax推理层(标签预测层)四部分组成。其中，输入窗口中的C1～Cn表示输入的文本字符，输入的文本字符通过字符向量表示查找表转换成能够被RNN神经网络处理的信号向量(该过程也称文本向量化，文本的向量化有两种策略，一种是在训练之前进行随机初始化，在训练过程中随着网络权值进行更新;另一种是用预训练的字向量进行初始化。其中预训练字向量的过程是随着语言模型的训练产生的，常用的语言模型包括Google在2013年开源的word2vec模型和LSTM模型，而用LSTM构建语言模型预训练的字符向量对分词结果有不同程度的提升［18］)。而RNN的输出经过全连接的标签预测层获得最终的分类结果，如图1中softmax层输出的Y1～Yn所示。当所选标注集为中文分词标注集时，此序列标注通用模型便可实现中文分词。以下将分别对中文分词标注集和由经典多层BLSTM网络组成的RNN层作详细介绍。

图1 基于RNN的中文分词模型Fig．1 Chinese segmentation model based on RNN

1．1 中文分词标注集

实验中的超参数设定如表4所示，并对一些重要参数进行说明。

授课老师提前准备好情景模拟法的模拟授课教室，先对纳入本研究的护士生进行系统的学习和培训，再由每一位护士生选择典型病例，在模拟授课教室中，每5名护士生组成一组，模拟医院中的护理病房，按照常规的护理流程、护理内容等进行演练。授课老师在护士生的演练过程中，随时提出一些常见问题、紧急情况等进行提问，或扮演患者进行提问，以观察护士生的反应能力、思考能力、操作能力、处理能力、沟通能力等，在最后应对护士生的处理方法等进行总结和指导，促进其综合能力的提高。

表2 中文分词标注集Tab．2 Tag set of Chinese cegmentation

定义标记定义标记定义标记空格 0 中间 2 单字4开始 1 结束3

1．2 经典的多层BLSTM网络

本实验同时采用召回率(R)、准确率(P)和综合指标(F)作为对预测结果的评价指标。指标F的计算如式(1)所示:

2 联合任务方法及改进的多层BLSTM网络

实验选择了常用的PKU数据集作为对比。PKU数据集［27］由第二届国际中文分词Bakeoff提供，针对PKU数据集中的文本样本长度不一的情况，实验之前作了相应的预处理:

pagenumber_ebook=63,pagenumber_book=1280

图2 经典多层BLSTMFig．2 Classic multilayer BLSTM

2．1 中文分词和标点预测联合标注集

联合标注集如表3所示。每个标签(标记)既包含了中文分词信息又包含了标点预测信息。对于标点符号，其只可能出现在一个词结束的地方，即出现在单字后面或者一个词的结尾处，具体的标签如图3的“单字”栏和“结束”栏所示。对于开始字和中间字，其后一定不会出现标点符号，所以分别用标签1和2标记即可。用此联合标注集应用于序列标注通用模型，便可实现并行执行中文分词和标点预测。

表3 联合标注集(并行执行中文分词和标点预测)Tab．3 Joint tag set(performing Chinese segmentaion and punctuation prediction jointly)

分词定义标记空格0开始 1中间 2结束，。 ? ! 、 : ; #无12 13 14 15 16 17 18 19 20 3 4 5 6 7 8 9 10 11单字，。 ? ! 、 : ; #无

利用上述联合标注集(21标签)标注过的数据进行模型训练。测试时，可以分别对中文分词和标点预测的结果进行统计。对于中文分词，标签1表示词的开始，标签2表示中间字，标签3～11均表示词语的结束，标签12～20均表示单个字构成的词;对于标点预测，标签1、2、11和20表示无标点符号，标签3和12表示逗号，标签4和13表示句号，标签5和14表示问号，标签6和15表示感叹号，标签7和16表示顿号，标签8和17表示冒号，标签9和18表示段落标记(#)。

2．2 改进的多层BLSTM网络

此外，由于溶液热交换器的存在，使得从发生器进入吸收器以及从吸收器进入发生器的溶液温度分别与吸收器和发生器内部的溶液温度之差较小。因此对于稳态运行的AHP和AHT温度分布，可知AHP发生器所需的高温热源的数量（质量流量）上较少，而AHT吸收器所释放的热量只能加热较少质量的外界受热体（用热户）。若忽略溶液泵所耗功率，AHP和AHT的性能系数COP分别为：

图3 改进的多层BLSTMFig．3 Improved multilayer BLSTM

3 实验与分析

3．1 数据集、实验环境和评测标准

序列标注通用模型可以应用于各种序列标注问题，每种标注任务都对应不同的标注集，即预测任务的功能取决于选择的标注集，因此，构建联合标注集是实现并行执行中文分词和标点预测的关键。本文在中文分词四词位标注集的基础上整合了常用的标点符号标注，以此构建了联合标注集。另外，本文还对经典的多层BLSTM网络作了改进。以下对联合标注集和改进的多层BLSTM网络作详细介绍。

1)在标点符号处将长度大于预定长度的样本分成多个，以便使待处理处理的样本长度小于预定长度，并用空格补齐长度小于预定长度的样本;

2)滤除含有待预测标点之外标点的样本。

本文进行的实验用到了Google所开源的tensorflow，所用语言为python。源代码已经上传到个人github账户［28］。工作站主要参数:CPU为Intel Core i7 6800k，GPU为Nvidia Titan xp;操作系统为Ubuntu。

LSTM网络是循环神经网络的一种特殊形式，由基本的LSTM单元组成［26］。将基本LSTM单元在时间轴上展开便能形成单层LSTM网络，将单层的LSTM网络逐层叠加，由此形成多层的LSTM网络结构，经典的LSTM网络结构由正向多层LSTM网络结构和反向多层LSTM网络结构组成，如图2所示。其中正向多层LSTM网络结构的输入信息为正序输入，反向多层LSTM网络结构的输入信息为反序输入，最后将正向多层LSTM网络结构的输出向量与反向多层LSTM网络结构的输出的向量进行合并。合并之后的向量便含有来自上下文的信息。

3．2 主要参数设置

用于中文分词序列标注的标注集如表2所示。1～4分别表示一个词语的开始字、中间字、结束字和单字。

表4 实验超参数设定Tab．4 Experiment hyperparameters setting

pagenumber_ebook=64,pagenumber_book=1281

200 Max_max_epoch 50初始学习速率 1．0 Lr_decay 0．9 LSTM长度 100 Batch_size 20 Keep_prob 0．5 Vocab_size 6000超参数设定值超参数设定值字向量维数Max_epoch 16

综合考虑到随着字向量维数的增大会增加训练时间，实验中的字向量维数设定为200;LSTM网络长度的增加虽然能提取更多的上下文信息，但受限于中间隐层的维度，故将LSTM网络定长设定为100;为了防止实验中出现过拟合现象，采取了dropout方法，keep_prob作为进行dropout时所屏蔽的神经元比例，设定为0．5;训练过程中迭代次数为50，初始的学习率是1．0，迭代到max_epoch为16后学习率开始以0．9的速率下降，字典的大小设置为6000。

3．3 实验结果分析

本文的对比实验由三部分组成，每个部分的每个实验都分别在字向量随机初始化和字向量预训练等两种字向量初始化策略下进行。除此之外，还列出了当年国际中文分词大赛在PKU数据集上最好的分词结果［29］，如表5中数据第一行所示。

用同样的方法可得到其他高校科研核心竞争力的评价结果。经计算，x1，x5，x8这3所高校科研核心竞争力评价结果为“好”；x2，x3，x4，x6，x10这5所学高校科研核心竞争力评价结果为“一般”；x7，x9这2所高校科研核心竞争力评价结果为“差”。

第一部分为基于经典的多层BLSTM网络的中文分词和标点预测(分别单独执行两项任务)。本部分由实验A、实验B和实验C组成，每个实验都对应了不同层数的神经网络。实验结果如表5所示。

改进的多层BLSTM的结构如图3所示，每层次都包含一层正向的LSTM网络和一层反向的LSTM网络，并将双向LSTM网络的输出向量通过加法器进行信息融合，并传递到下一层BLSTM，使得每一层的BLSTM网络都可以同时获得前后两个方向的信息，并且随着模型中层次的增加，双向输出向量能够得到更加深入的融合。不同于改进的网络，虽然传统的多层BLSTM网络最后输出的信息也是经过多层网络抽象得到的，但中间层并无融合双向网络的信息，因此在抽象信息的过程中并无获得足够的上下文信息，改进的网络很好地解决了这个问题。本文在提高测试准确率的基础上，希望能尽可能地降低系统计算的复杂度，因此采用两层次的BLSTM网络。

表5 第一部分实验结果汇总表Tab．5 The first part of experiment results

模型任务随机初始化embedding 预训练字向量0．946 0．953 0．950实验A(1层经典BLSTM)P R F Bakeoff-best中文分词 — — —P R F中文分词0．956 0．951 0．954 0．957 0．949 0．953实验B(2层经典BLSTM)0．931 0．938 0．935 0．946 0．950 0．948标点预测0．957 0．954 0．955 0．962 0．957 0．959中文分词0．957 0．954 0．955 0．961 0．956 0．958实验C(3层经典BLSTM)0．931 0．938 0．935 0．950 0．954 0．952标点预测0．931 0．938 0．935 0．951 0．955 0．953标点预测中文分词

（2）对船员素质包括水平和反应快慢等有所了解，遇特殊天气来临时派熟练船员上岗，加强VHF值班，守听当地VTS通告及它船动态，专人值守VHF。

表6 第二部分实验结果汇总Tab．6 The second part of experiment result

P R F实验D(1层改进BLSTM)模型任务随机初始化embedding 预训练字向量P R F中文分词0．956 0．951 0．954 0．957 0．949 0．953 0．931 0．938 0．935 0．946 0．950 0．948标点预测实验E(2层改进BLSTM)0．939 0．940 0．939 0．954 0．958 0．956标点预测中文分词0．959 0．958 0．959 0．963 0．960 0．961

0．960 0．959 0．960 0．964 0．960 0．962实验F(3层改进BLSTM)0．939 0．940 0．939 0．955 0．959 0．957标点预测中文分词

第三部分为基于改进的多层BLSTM网络的中文分词和标点预测(并行执行)，由实验G(1层)、实验H(2层)和实验I(3层)共3个实验组成，实验结果如表7所示(本表的布局与表5相同。不同的是，本部分实验是联合任务方法，最后的中文分词和标点预测结果是按照表3所述的规则计算得到的)。

由上述三个部分的实验可知:网络模型相同的情况下，采用预训练字向量的初始化策略获得的预测结果优于采用随机向量初始化获得的预测结果;无论是经典的多层BLSTM网络模型进行中文分词，还是利用文本提出的改进的多层BLSTM网络模型进行中文分词，在进行预训练字向量的初始化策略后，其中文分词的预测性能均优于当年Bakeoff评测中最好的结果;更多层的深层网络拥有更好的预测性能，但过多的网络层数势必会增加训练时间，在此不对更多层的网络进行阐述。

表7 第三部分实验结果汇总Tab．7 The third part of experiment results

模型＆任务随机初始化embedding 预训练字向量0．957 0．952 0．955 0．958 0．950 0．954实验H(2层改进BLSTM)P R F实验G(1层BLSTM)P R F 0．932 0．940 0．936 0．947 0．951 0．949标点预测中文分词0．963 0．960 0．961 0．965 0．961 0．963中文分词0．962 0．959 0．960 0．964 0．960 0．962实验I(3层改进BLSTM)0．939 0．944 0．941 0．955 0．959 0．957标点预测0．939 0．945 0．942 0．956 0．960 0．958标点预测中文分词

对比第一部分和第二部分的实验可知，在只有一层神经网络时，经典的多层BLSTM和改进的多层BLSTM都只经过了一次信息融合，所以两种网络模型并无本质区别，实验A和实验D相同的实验结果也验证了此种观点。在相同的神经网络层数下(2层以上的网络)，本文所提出的改进的多层BLSTM网络模型无论是中文分词还是标点预测，其预测性能均优于经典的多层BLSTM网络。

第二部分实验是基于改进的多层BLSTM网络的中文分词和标点预测(分别单独执行两项任务)，本部分由实验D、实验E和实验F组成，每个实验都对应了不同层数的神经网络。实验结果如表6所示。

对比第二部分和第三部分的实验可知，在相同的神经网络层数下，本文提出的基于改进的多层BLSTM的联合任务方法的预测性能不低于甚至优于用该模型执行单个预测任务时的性能。

戏班子其他人正在排练下一个节目，他们在王爷面前大声地舞大声地唱，显得异常热闹。王爷坐在那里，整个人恍惚越来越小，越来越小，已然消弭在过去的时光里。

经典多层BLSTM和改进多层BLSTM执行中文分词和标点预测所需的训练时间和预测时间如表8所示。实验结果表明，不管是经典BLSTM网络还是改进的BLSTM网络在网络层数增加的情况下，均会增加训练时间和预测时间;改进后的多层BLSTM网络减小了最后标签推理层的维数，因此其较经典的多层BSLTM网络可以在一定程度上缩减训练时间和预测时间;在需要执行中文分词和标点预测两项任务时，本文提出的联合任务方法由于可以并行执行中文分词和标点预测，避免了多次模型训练减小了系统复杂度，降低了训练时间和预测时间(分别单独执行中文分词和标点预测需要的时间总和大于联合任务方法)。

表8 多层BLSTM模型所需时间Tab．8 Time consumption of multilayer BLSTM

模型任务训练时间/s(迭代一次) 预测时间/s

pagenumber_ebook=65,pagenumber_book=1282

经典2层BLSTM标点预测104 31经典3层BLSTM 105 32中文分词140 41中文分词标点预测139 40改进2层BLSTM联合任务方法(中文分词＆标点预测)106 31标点预测 104 31中文分词103 30改进3层BLSTM联合任务方法(中文分词＆标点预测)132 40标点预测 139 40中文分词138 39

4 结语

本文提出了一种改进的多层BLSTM网络用于序列标注，并构建了一种整合了分词标注和常用标点标注的联合标注集，进而达到了并行执行中文分词和标点预测的目的。在公开数据集PKU上的实验结果显示，改进的多层BLSTM网络性能优越，和经典的多层BLSTM网络相比，提升了中文分词和标点预测的分类精度;当需要中文分词和标点预测时，联合任务方法可以并行执行中文分词和标点预测，避免了分别单独进行两项标注任务时的多次训练，减小了系统复杂度，减少了训练和预测时间。此改进的多层双向LSTM模型可以很容易地应用于其他序列标注任务，具有很强的通用性。

多层次、分工明确的多元监督体系是确保财务管理合理性的基础，是保证农村经济发展和社会稳定的根本。因此，为了确保相关工作的正常开展，需要建立内部监督制度，对于村民在财务监督工作中主体地位的提升有着极大的促进作用。同时要深化会计监督，强化审计监督。之所以需要开展这方面的工作，主要是因为在实际财务管理工作中，财务管理人员工作量大且工作面相对较为广泛，因此更应注重会计资料的真实性和完整性，尤其要注重对农村工程建设项目和非生产性支出的监督和审计。

参考文献(References)

［1］ XUE N， CONVERSE S P．Combining classifiers for Chinese word segmentation［C］//Proceedings of the 1st SIGHAN Workshop on Chinese Language．Stroudsburg， PA:Association for Computational Linguistics，2002:57 －63．

［2］翟凤文，赫枫龄，左万利．字典与统计相结合的中文分词方法［J］．小型微型计算机系统，2006，27(9):1766－1771．(ZHAI F W，HE F L，ZUO W L．Chinese word segmentation based on dictionary and statistics［J］．MNI-MICRO Systems， 2006， 27(9):1766－1771．)

［3］ KNESER R， NEY H．Improved backing-off for N-gram language modeling［C］//Proceedings of the 1995 IEEE International Conference on Acoustics， Speech and Signal Processing．Washington，DC:IEEE Computer Society，1995:181－184．

［4］ GOLDBERG Y，LEVY O．word2vec explained:deriving Mikolov et al．'s negative-sampling word-embedding method［EB/OL］．［2017-06-20］．http://www．inf．ed．ac．uk/teaching/courses/nlu/reading/skipgram-derivation．pdf．

［5］万建成，杨春花．书面汉语的全切分分词算法模型［J］．小型微型计算机系统，2003，24(7):1247－1251．(WAN J C，YANG C H．An algorithm model of word omni-segmentation for written Chinese［J］．MNI-MICRO Systems， 2003， 24(7):1247 －1251．)

［6］ ZHAO H，HUANG C N，LI M，et al．An improved Chinese word segmentation system with conditional random field［EB/OL］．［2017-06-20］．http://acl．ldc．upenn．edu/W/W06/W06-0127．pdf．

［7］任智慧，徐浩煜，封松林，等．基于LSTM网络的序列标注中文分词法［J］．计算机应用研究，2017，34(5):1321－1324．(REN Z H，XU H Y，FENG S L， et al．Sequence labeling Chinese word segmentation method based on LSTM networks［J］．Application Research of Computers， 2017， 34(5):1321 －1324．)

［8］ RATNAPARKHI A．A maximum entropy part-of-speech tagger［C］//Proceedings of the 1996 Conference on Empirical Methods in Natural Language Processing．Stroudsburg， PA:Association for Computational Linguistics， 1996:133 －142．

［9］ LAFFERTY J D，MCCALLUM A，PEREIRA F C N．Conditional random fields:probabilistic models for segmenting and labeling sequence data［C］//Proceedings of the 18th International Conference on Machine Learning．San Francisco， CA:Morgan Kaufmann，2001:282－289．

［10］ PENG F， FENG F， MCCALLUM A．Chinese segmentation and new word detection using conditional random fields［C］//Proceedings of the 20th International Conference on Computational Linguistics．Stroudsburg， PA:Association for Computational Linguistics， 2004:562 －568．

［11］ ZHENG X，CHEN H，XU T．Deep learning for Chinese word segmentation and POS tagging［C］//Proceedings of the 2013 Conference on Conference on Empirical Methods in Natural Language Processing．Stroudsburg， PA:Association for Computational Linguistics，2013:647－657．

［12］ PEI W，GE T，CHANG B．Max-margin tensor neural network for Chinese word segmentation［C］//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics．Stroudsburg， PA:Association for Computational Linguistics， 2014:293 －303．

［13］ GERS F A， SCHMIDHUBER J．Recurrent nets that time and count［C］//Proceedings of the 2000 IEEE-INNS-ENNS International Joint Conference on Neural Networks．Washington， DC:IEEE Computer Society，2000:189－194．

［14］ CHO K，MERRIENBOER B V，GULCEHRE C， et al．Learning phrase representations using RNN encoder-decoder for statistical machine translation［EB/OL］．［2017-06-20］．http://www．statnlp．org/wp-content/uploads/2016/02/rnn．pdf．

［15］ CHEN X，QIU X，ZHU C，et al．Long short-term memory neural networks for Chinese word segmentation［EB/OL］．［2017-06-20］．http://www． emnlp2015． org/proceedings/EMNLP/pdf/EMNLP141．pdf．

［16］ GREFF K， SRIVASTAVA R K， KOUTNIK J， et al．LSTM:a search space odyssey［J］．IEEE Transactions on Neural Networks＆ Learning Systems，2015，28(10):2222－2232．

［17］ YAO Y，HUANG Z．Bi-directional LSTM recurrent neural network for Chinese word segmentation［C］//Proceedings of the 23rd International Conference on Neural Information Processing．Berlin:Springer， 2016:345 －353．

［18］胡婕，张俊驰．双向循环网络中文分词模型［J］．小型微型计算机系统，2017，38(3):522－526．(HU J， ZHANG J C．Bidirectional recurrent networks for Chinese word segmentation［J］．Journal of Chinese Computer Systems， 2017， 38(3):522 －526．)

［19］黄积杨．基于双向LSTMN神经网络的中文分词研究分析［D］．南京:南京大学，2016．(HUANG J Y．Chinese word segmentation analysis based on bidirectional LSTM recurrent neural network［D］．Nanjing:Nanjing University， 2016．)

［20］ JING H，ZWEIG G．Maximum entropy model for punctuation annotation from speech［C］//Proceedings of the 7th International Conference on Spoken Language Processing．［S．l．］:DBLP，2002:917－920．

［21］ SHRIBERG E，SHRIBERG E，SHRIBERG E，et al．Using conditional random fields for sentence boundary detection in speech［C］//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistic．Stroudsburg， PA:Association for Computational Linguistics， 2005:451 －458．

［22］ ZHANG Y， CLARK S．Joint word segmentation and POS tagging using a single perceptron［C］//Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics．Stroudsburg，PA:Association for Computational Linguistics，2008:888 －896．

［23］ WANG A，KAN M Y．Mining informal language from Chinese microtext:joint word recognition and segmentation［EB/OL］．［2017-06-20］．http://www．comp．nus．edu．sg/～ kanmy/papers/acl2013．pdf．

［24］ WU K， WANG X， ZHOU N， et al． Joint Chinese word segmentation and punctuation prediction using deep recurrent neural network for social media data［C］//Proceedings of the 2015 International Conference on Asian Language Processing．Piscataway，NJ:IEEE，2016:41－44．

［25］ QIAN X，LIU Y．Joint Chinese word segnentation，POS tagging and parsing［C］//Proceedings of the 2012 Joint Conference on EmpiricalMethods in Natural Language Processing and Computational Natural Language Learning． Stroudsburg， PA:Association for Computational Linguistics，2012:501 －511．

［26］ HOCHREITER S，SCHMIDHUBER J．Long short-term memory［J］．Neural Computation，1997，9(8):1735－1780．

［27］ SIGHAN． Second InternationalChinese word segmentation Bakeoff data［EB/OL］．［2005-11-18］．http://sighan．cs．uchicago．edu/bakeoff2005/

［28］并行执行中文分词和标点预测的 Python程序［CP/OL］．［2017-05-06］． https://github． com/camel2000． (Python programs that perform Chinese word segmentation and punctuation prediction in parallel［CP/OL］．［2017-05-06］．https://github．com/camel2000．)

［29］ SIGHAN．Second International Chinese Word Segmentation Bakeoff Result Summary［EB/OL］．［2005-11-18］．http://sighan．cs．uchicago．edu/bakeoff2005/data/results．php．htm．

作者

李雅昆，潘晴，．W

出处

《计算机应用》 2018年第05期

上一篇：结合注意力机制的长文本分类方法

下一篇：面向汉维机器翻译的调序表重构模型

《计算机应用》2018年第05期文献

基于可穿戴传感器的人体活动识别研究综述作者：郑增威，杜俊杰，霍梅梅，吴剑钟

基于Dyna框架的非参数化近似策略迭代增强学习作者：季挺，张华

基于局部远亲差分增强的扰动粒子群优化算法作者：王永贵，胡彩云，李鑫

融合Shapley值和粒子群优化算法的混合特征选择算法作者：邓秀勤，李文洲，武继刚，刘太亨

基于熵权Vague 集的多目标决策方法作者：赵庆庆，黄天民

求解动态优化问题的多种群竞争差分进化算法作者：袁亦川，杨洲，罗廷兴，秦进

考虑用户特征的主题情感联合模型作者：许银洁，孙春华，刘业政

基于聚类分析的微博广告发布者识别作者：赵星宇，赵志宏，王业沛，陈松宇

结合注意力机制的长文本分类方法作者：卢玲，杨武，王远伦，雷子鉴，李莹

基于改进的多层BLSTM 的中文分词和标点预测作者：李雅昆，潘晴，．W

面向汉维机器翻译的调序表重构模型作者：潘一荣，李晓，杨雅婷，米成刚，董瑞

改进的显式形状回归人脸特征点定位算法作者：贾项南，于凤芹，陈莹

基于多标签判别字典学习的图像自动标注作者：杨晓玲，李志清，刘雨桐

复杂环境中基于视觉词袋模型的车辆再识别算法作者：王茜，陈一民，丁友东

基于迁移学习的水产动物图像识别方法作者：王柯力，袁红春

基于多角度多区域特征融合的苹果分类方法作者：刘媛媛，王晖，郭躬德，江楠峰

正负关联规则两级置信度阈值设置方法作者：陈柳，冯山

基于节点中心性和社区相似性的快速标签传播算法作者：顾军华，霍士杰，王守彬，田喆

基于文献信息网络语义特征的相似性搜索作者：邱庆羽，李婧，全兵，童超，张利君，张海仙

基于距离类别的多源兴趣点融合算法作者：徐爽，张谦，李琰，刘嘉勇

基于HBase和Hive 的航班延误平台的存储方法作者：吴仁彪，刘超，屈景怡

基于异方差高斯过程的时间序列数据离群点检测作者：严宏，杨波，杨红雨

密码云中基于熵权评价的虚拟密码机调度方法作者：王泽武，孙磊，郭松辉，孙瑞辰

基于改进单类支持向量机的工业控制网络入侵检测方法作者：刘万军，秦济韬，曲海成

面向分布式网络结构的APT攻击双重博弈模型作者：张为，苏旸，陈文武

抗合谋攻击能力可调的有状态组密钥更新协议作者：敖丽，刘璟，姚绍文，武楠

多属性环境下基于容错学习的全同态加密方案作者：白平，张薇

基于集成学习的口令强度评估模型作者：宋创创，方勇，黄诚，刘亮

海量小文件系统的可移植操作系统接口兼容技术作者：陈博，何连跃，严巍巍，徐照淼，徐俊

高维胖树系统中确定性路由容错策略实现作者：徐佳庆，万文，蔡东京，唐付桥，何杰，张磊

杂志信息网