快捷分类

基于LSA的历史工作票问题分类异常检测∗

更新时间：2009-03-28

1 引言

工作票［1］是企业应用中记录系统服务器运行时产生的一系列问题报告以及维修请求的结构化或非结构化文本，在企业生产中有着广泛的应用。通过实现对这些维修请求的自动分类、准确预测故障信息，能够大大提高系统的可用性，从而降低系统维护成本，减少因系统故障而带来的不可挽回的损失。国内外对于工作票的研究大多集中于工作票的自动分类和智能推荐等方向，对历史工作票问题分类异常检测的研究报道较少。数据异常检测技术［2］是数据挖掘领域的研究热点之一，在工作票领域中其任务是从大量复杂的历史数据集中发现少量分类错误的记录。如果将带有错误分类记录的数据集用于模型学习，将会导致工作票自动分类精度偏低以及推荐不精确等问题。因此，通过对异常数据加以纠正可有效提高训练集质量，进而提高分类和推荐精度。

随着大数据时代的到来，工作票的内容呈现出多元化趋势，使得现有的数据挖掘方法不足以解决现有的问题。文献［3］提出基于聚类的异常数据检测方法，使用PAM算法对数据集进行划分，通过多次迭代实现异常点检测，取得了不错的检测效果，相比于传统基于K-means的异常点检测算法具有更强的鲁棒性，但仅适用于小数据集且处理效率不高。文献［4］提出一种基于LOF的随机化异常检测方法，克服了传统LOF算法在处理高维数据时效果不佳的缺陷，但是方法时间复杂度较大。文献［5］提出基于距离的异常检测方法，定义一个对象的异常点得分为到它的K个最近邻距离的均值，该方法忽略了关键词之间的语义相似性，具有较大的局限性。基于上述分析，我们以基于距离的异常数据检测为背景，研究更加有效的异常分类检测方法来进一步提升历史工作票异常分类检测效果。

本文针对传统基于距离的异常数据检测的局限性以及工作票内容多元性、结构随机性等特点，在比较分析不同异常检测算法和距离度量方法的思想、应用领域的基础上，引入用于知识获取和展示的计算理论和方法潜在语义分析，并将其应用于历史工作票异常分类检测，提出基于潜在语义分析的异常数据挖掘方法。采用潜在语义分析方法度量工作票间的距离和异常程度，能够有效检测出分类异常的历史数据。实验结果证明，所提出的异常检测方法具有较好的准确率。

2 工作票定义

在现代信息技术的快速发展下，各个领域对于IT业务的依赖日益提高。随着应用领域不断扩大，IT系统的复杂性逐渐提高，现代计算机系统的监控和维护变得十分复杂。这些计算机系统由IT服务提供商和维修人员共同管理，他们需要对系统中产生的问题报告进行分析并采取有效方案及时解决。系统故障主要通过两种途径提交给管理者：

1）系统生成：通过对系统中各个部分，如应用程序、CPU、磁盘和网络接口等进行实时监控来检测异常，监测工具将对系统所有异常行为实施捕获，并予以警报。

2）用户生成：当IT系统的用户在使用过程中发现故障，用户会通过聊天或者Email等方式进行问题反馈。

故障无论是系统生成还是用户生成，都以工作票的形式进行提交，形成SGT（系统生成工作票）和UGT（用户生成工作票）。然而，系统的复杂性也决定了工作票的多源性和多样性。SGT中，信息的记录由监测工具完成，这些信息往往都是结构良好的，而具体结构取决于系统管理员如何对检监测工具进行配置，不同的系统配置生成的工作票格式也存在较为明显的差异。UGT中，描述信息由用户组织的自由文本构成，相比于系统生成的工作票，没有良好的结构。

12：初始化 Nk-dis(di)=random(S，k) //随机选取S中k个对象作为di的k近邻

1）在不同工作票中，相同的问题可能以不同的方式予以表达。

2）不同的管理者往往依据各自喜好组织工作票结构。

3）描述信息具有领域相关性且包含特殊领域专有词。例如数据库问题中，会经常出现如数据表、查询语句、文件系统、磁盘以及数据库错误码等特殊成分。

4）UGT是用户组织的自由文本，往往表述模糊不清，而且容易出现拼写及语法错误。

pagenumber_ebook=106,pagenumber_book=951

图1 系统生成工作票及其问题分类

通过之前的分析可以看出大部分传统的分类异常方法都有着各自优势，但也存在明显的不足。因此为了避免使用传统分类异常检测算法的局限性，本文提出一种优化的工作票问题分类异常检测方法，以K-近邻异常检测方法为参考，设计基于LSA的历史工作票异常分类检测方法［6，10］。

各地开展试点工作，应包括自然文明、用水文明、管理文明以及文化文明四个方面的建设内容；其指标体系应以地区自然、人文、经济社会禀赋条件为基础进行设计，并开展水生态文明评价。结合未来区域发展目标，提出符合区域特性的水生态文明建设原则，设计区域水生态文明建设总体方案，以关键技术作为支撑开展区域水生态文明建设工作。

拜占庭将军问题，指的是地理上有一定间隔且可能不诚实的节点如何达成一致的问题。BFT指的是在整个系统中节点共有n个，最终要求诚实节点达成一致的情况下最多允许多少非诚实节点。经典算法下，要求非诚实节点数量t与整个系统节点数量n满足 n≥3t+1。最早在1999年的《Practical Byzantine Fault Tolerant》[6]一文中作者就给出了容错量为1/3的算法。在分布式数据库中，为了避免部分服务器被黑客侵入造成整个网络崩溃的问题，采用了带有容错的公式算法。更进一步地，中本聪在设计区块链网络时提出了创新算法思路，增加了提出议案的经济成本，采用经济惩罚来制约破坏者。

3 基于LSA的历史工作票问题分类异常检测方法

因此，工作票结构及内容的特殊性给历史工作票异常分类检测研究带来了很大的挑战。

3.1 LSA方法及其改进

潜在语义分析是一种用于知识获取和展示的计算理论和方法，其基本假设是，如果两个词多次出现在同一文档中，则这两个词在语义上具有相似性。对于给定的数据集具体算法如下：

1）对文本集进行分析，生成词汇-文本矩阵，如图2所示。其中Ti表示特征集中第i个特征词，dj表示文本集中第 j篇文本，ei，j表示特征权重。

pagenumber_ebook=107,pagenumber_book=952

图2 词汇-文本矩阵

输出：问题分类异常数据集合OS算法过程：

其中∑为奇异值矩阵，r表示语义维数，通常远小于n。

3）提取奇异值矩阵中λ个最大奇异值以及对应的奇异矢量构成新矩阵来近似表示原文本集的词汇-文本矩阵，如式（2）所示，并使用降维后的矩阵构建潜在语义空间或者重建词汇-文本矩阵，实现信息的分解与重构，提取有用信息并消除噪声。

将对象映射到潜在语义空间，通过式（3）得到其对应的语义向量。其中d表示初始文本向量。

4）计算文本间相似度。本文采用向量间的余弦距离来计算文本间的相似度，文本di和文本dj的相似度用如下公式求得：

传统的LSA特征权重计算方法一般采用TF-IDF法，但是该方法只考虑了词汇的词频和逆文档频率，并没有将其他因素加以考虑。然而实际上，不同的词在文档中的作用也不尽相同，对文档的重要程度也有较大的差异。因此在构造词汇-文档矩阵的时候需要考虑给不同的词赋予不同的权重。本文在传统TF-IDF权重计算法基础上，引入信息熵概念［11］，并将其作为权重计算的一部分。熵权重计算方法如式（5）所示。

其中，M表示特征词i的平均熵。基于此，本文提出一种新的权重计算方法，计算公式如下所示：

3.2 算法基本思想

历史工作票问题分类异常检测算法的有效性主要取决于以下因素：工作票表示模型和工作票距离度量算法。传统基于K-近邻的分类异常数据检测方法主要以词袋模型表示工作票，但是此方法忽略了关键词之间的语义关联，且向量维数过大导致算法效率偏低。因此我们对工作票的向量表示模型和距离度量算法进行优化，利用改进的LSA方法将工作票从高维特征空间映射到低维语义空间得到语义向量［7，12］，分别计算每个工作票对应语义向量与其他语义向量的距离值，实现工作票的语义相似性度量。通过距离的测度［8～9］得到当前工作票的K个最近邻，并将K个近邻按类别分开统计，样本数量最多的类别即为当前工作票的预测类别。比较标记类别与预测类别，如果相同则为分类正常数据，反之则标记为异常，最后根据异常标记分离出分类异常的工作票。

3.3 算法的实现

三是随着教师学术道德意识的提高，韩国高校教师学术道德不端行为有所下降。韩国高校教师学术道德教育实际起步于2011年。2011年，韩国教育部公布了《学术道德建设规划》，2015年又颁布了《研究伦理指南2015版》。伴随着这两个政策文件的实施，高校教师学术道德教育被不断强化，学术道德意识也逐年提升，高校教师学术道德不端行为件数发展趋势也于该时期出现变化。

无机化学化合价的学习需要记忆的内容相对较多，教师在教授这部分内容时，可以引用方硕唱的一首《化合价之歌》，方便学生记忆。提高学生学习化合价的效率。

算法名称：基于LSA的历史工作票问题分类异常检测

输入：数据集S，参数K（工作票的邻居数），参数λ（矩阵降维提取的奇异值数）

选取太原市杏花岭区和小店区基层医院的在岗医务工作者为研究对象，于2016年8月1—31日区卫计委集中培训期间采用简单随机抽样法抽取180名进行调查研究。在获取研究对象知情同意后，使用自行设计的问卷进行面对面调查。本研究对象包括：妇女保健、儿童保健、预防保健或计划免疫科室（统称妇幼预防保健）及全科、临床各科、公共卫生、慢病及检验等其他科室就职的人员，不包括保洁、安保人员。在基层医务人员疫苗及安全接种知信行状况未知（P未知）的情况下，选取P=60%，允许误差 d=0.15P，α=0.05，根据公式，计算得到样本量为119人。

2）利用SVD（奇异值分解）分解矩阵，分解过程如式（1）所示。

1：Procedure LSA-KNN（S，K，λ）

2：for each t in S do

在线上问卷发放后大概一个月之后，为了更加详细地了解南京城墙的实际保护与开放情况，我们决定携带改良后的简版纸质问卷，前往南京城墙遗址，亲自进行实地线下问卷发放。综合两次问卷调查结果后，统计分析情况如下：

3：p=DescriptionExtract（t）；//提取工作票中问题描述

4：Stemming（p）； //对公作票词汇进行词干提取

5：Lemmatization（p）； //对词汇进行词形还原

21：End Procedure

6：SpellingCorrection（p）； //对词汇进行拼写纠错

7：//预处理结束

榆阳北部风沙草滩区已初步形成了“林灌固沙－固沙培地－培地种粮－粮农促牧”的林灌农牧复合经营生态农业模式。

8：A=createOrigMatrix（S）； //利用式（6）构建词汇-文本矩阵

9：对矩阵A采用改进的LSA算法构建潜在语义空间；

10：将工作票映射到潜在语义空间得到语义列向量，组合得到矩阵A*；

近年来，网络技术发展也非常的迅速，而在智能电网中的继电保护装置，其实本质上也是一个计算机装置，作用就是对系统进行全面的监控工作，对整个网络的运行进行指导，让智能电网的系统运行能够高效和安全。同时，继电保护装置在对电力信息的数据和故障信息进行获取的时候，会及时反馈信息到系统的网络控制中心。另外，随着我国智能电网的发展越来越迅速，在自动化程度方面，电力系统也做得越来越好，这样就能够保障了电力系统的安全和高效。

11：for eachdi∈ A*do

工作票中包含很细节，如提交时间、故障严重性、故障来源以及故障描述信息或者其他任何有关系统问题的描述，具体如图1所示。从工作票中挖掘出关键信息一直是工作票研究领域较为困难的问题。主要体现在：

13： for eachdj∈A*(i≠j)

14： if distance（di，dj）＜max（Nk-dis(di)）

15： Nk-dis(di).add（dj）；

16： Nk-dis(di).delete（max（ Nk-dis(di)））；

17： predictType=getMostType（ Nk-dis(di)）；

18： if predictType≠di.Type

19： OS.add（di）；

10：Return OS；

根据算法的基本思想，基于LSA的历史工作票问题分类异常检测算法描述如下。

将期望理论运用于沙盘实训课以激发不生的学习热情，一是从效价考虑，即让学生理解沙盘实训课程给学生带来的价值。比如：收获知识、锻炼思维、获得好成绩、参加外出比赛的机会等；二是从期望值来考虑，即以上目标能够实现的可能性大小。

4 实验结果及分析

为了测试本文提出的基于潜在语义分析的历史工作票异常分类检测算法，将其与另外两种典型的异常数据挖掘算法：K-近邻法和K-means法进行了比较。实验中的测试数据通过对某一大型IT服务提供商的IT环境实施监测获得，包括两个较大规模数据集：系统生成工作票数据集（SGT）和用户生成工作票数据集（UGT），总计大约10万条历史工作票。每个测试集包含约5万条记录，分别将其分为五组数据子集 test1，test2，test3，test4，test5。每个测试子集包含1万条记录，其中正确分类的工作票占90%，错误分类的工作票占10%。

采用SPSS19.0软件进行统计分析。计量资料以均数±标准差s）表示，采用单因素方差分析。P＜0.05为差异有统计学意义。

为了比较各种异常分类检测算法的优劣，需要利用相关评价指标体系来衡量。其中检测率和误报率是评价异常分类检测最重要的指标。具体公式可描述为

回到旅店，服务台内，老板娘留神在看办事处制作播放的节目，是办事处请居民商讨对流动摊贩如何管理。迟恒饶有兴趣地驻足观看，电视里争论激烈，老板娘按捺不住地为反对派帮腔，迟恒想一个地方频道能如此吸引当地人，如何做到的，这倒是一篇文章。

pagenumber_ebook=108,pagenumber_book=953

历史工作票数据集中每条历史数据包含四个属性字段，分别是工作票内容、故障父类别（FC1）、故障子类别（FC2）和工作票序号（ID），异常检测的主要目的是对FC1和FC2进行分类标识，检测是否分类正确，以便为后期研究构建高质量的数据集。

为了验证基于LSA问题分类异常检测方法中参数K对方法性能的影响，并确定最佳参数值使得算法具有更好的适用性，分别取K值为1，3，5，7，9，11，13，15，分别在SGT和UGT的每个子集上进行实验，最后取其均值，实验结果如图3和图4所示。

有高度的点状符号是一种体状符号，它是三维数字地形图的重要组成部分。每一种符号对应一个程序和命令，所有带高度的点状符号都需要以调用命令的方式来绘制。绘制该类符号时，需提供一个三维点坐标来确定地物的空间位置，实体高度值可以根据高度点来确定，也可以直接在命令行内手工输入。

图3 检测率随K值变化

图4 误报率随K值变化

从图中可以看出，当K取5时，算法在SGT和UGT上具有较高的检测率和较低的误报率，算法适用性较高。一方面，当K值偏低时，近邻中若存在分类异常的数据，将导致分类不精确，使得检测率降低误报率上升；另一方面，当K值偏高时，可能会将大部分与当前工作票无关的数据划分到近邻中，同样使得算法检测效果变差。因此，在下面的实验中，为了提高算法的适用性，参数K取值为5。

职业培训，除了学习知识外，更重要的是掌握学习方法，培养学员运用知识解决实际问题的能力。职业培训针对性和实用性强，培训内容因社会、企业岗位需要“量身订制”，学员经过培训就能上岗工作，职业培训成为经济发展的助推器。南疆村镇发展中随着电器设备的广泛应用，需要大量的电工，电工培训在一定程度上为贫困人员的就业脱贫提供了机会。根据信息技术辅助电工培训中发挥的作用，可从以下几个方面推广应用到更多的职业培训中。

为了验证本文提出的基于LSA问题分类异常检测算法效果优于传统K-近邻和K-means算法，分别在SGT和UGT的每个测试子集上对基于LSA异常分类检测结果和其他两种传统算法检测结果进行对比。实验过程每个子集进行10次实验以保证实验结果的准确性，实验结果如图5所示。

pagenumber_ebook=109,pagenumber_book=954

图5 LSA、K-NN和K-means算法在SGT和UGT中的检测率和误报率比较

从图中可以看出，基于LSA的异常分类检测算法的检测准确率普遍高于K-近邻算法和K-means算法，且误报率较之偏低，一方面因为该算法挖掘出了词语之间的语义联系，实现了语义相似性的度量，同时也有效地克服了由高维数据引发的“维数灾难问题”，显著提高了异常检测算法的性能。

此外，本文对三种异常检测算法在数据集上的运行时间做了比较，结果如图6所示。图中可以看出，基于LSA分类异常检测算法在测试集的运行时间普遍低于K-NN和K-means算法。其主要原因在于高维矩阵经过降维后，很大程度上缩小了搜索空间，所以本文提出的异常分类检测算法在运行速度上得到了很大的改善。

图6 算法耗时

5 结语

本文将自然语言处理中的潜在语义分析方法以及信息论中的信息熵概念应用于工作票问题分类异常检测领域，提出基于LSA的历史工作票问题分类异常检测算法。该算法充分利用了潜在语义分析在度量语义相似度方面的优势，可以在内容复杂、结构自由的历史数据集中高效地检测出分类异常的工作票。通过对算法的理论分析和实验表明，本文所提出的算法具有可行性和高效性。下一步的工作是研究如何将本体模型融入到工作票模型表示中，优化工作票表示模型，进一步提高工作票问题分类异常检测的精度。

参考文献

［1］Shimpi V，Natu M，Sadaphal V，et al.Problem identification by mining trouble tickets［C］//Proceedings of the 20th International Conference on Management of Data.Computer Society of India，2014：76-86.

［2］Mennatallah Amer，Markus Goldstein.Nearest-neighbor and clustering based anomaly detection algorithms for rapidminer［C］//Proc.of the 3rd RapidMiner Community Meeting and Conference，2012：1-12.

［3］Vijay Kumar，Sunil Kumar，Ajay Kumar Singh，Outlier Detection：A Clustering-Based Approach［J］.International Journal of Science and Modern Engineering（IJISME），2013：16-19.

［4］Markus M.Breunig，Hans-Peter Kriegel，Raymond T.Ng，et al.LOF：Identifying Density-Based Local Outliers［J］.2000：93-104.

［5］RajendraPamula and Jatin.Distance Based Fast Outlier Detection Method［C］//2010 IEEE，India Conference（IN-DICON），2010Annual IEEE.

［6］Chang，T.H.，Sung，et al.Y.T.Evaluating the difficulty of concepts on domain knowledge using latent semantic analysis［C］//In Proceedings of International Conference on Asian Language Processing，2013：193-196.

［7］Nguyen and Minh Quoc.A fast randomized method for local density-based outlier detection in high dimensional data［J］.Data Warehousing and Knowledge Discovery，2010：215-226.

［8］Nguyen Hoang Vu and VivekanandGopalkrishnan.Efficient Pruning Schemes for Distance Based Outlier Detection［J］，W.Buntine et al.（Eds.）：ECML PKDD 2009，Part II，LNAI 5782，2009：160-175.

［9］KanishkaBhaduri and Bryan L.Matthews，Algorithms for speeding up distance-based outlier detection［J］.SIGKDD（special interest group on Knowledge Discovery and Data mining），2011.

［10］杨思春，戴新宇.面向开放域问答的问题分类技术研究进展［J］.电子学报，2015，43：1627-1636.YANG Sichun，DAI Xinyu.Research progress of question classification technology for Open Domain Question Answering ［J］.JournalofElectronics，2015，43：1627-1636.

［11］陈玉明，吴克寿，李向军.一种基于信息熵的异常数据挖掘算法［J］.控制与决策，2013，28：867-872.CHEN Yuming，WU Keshou，LI Xiangjun.An outlier mining algorithm based on information entropy［J］.Control and Decision，2013，28：867-872.

［12］李昕，钱旭，王自强.一种高效的高维异常数据挖掘算法［J］.计算机工程，2010，36：34-36.LI Xin，QIAN Xu，WANG Ziqiang.An efficient algorithm for mining high dimensional outlier data［J］.computer engineering，2010，36：34-36.

作者

张航，徐建

出处

《计算机与数字工程》 2018年第05期

上一篇：用于短文本关键词抽取的TTM_DMM主题翻译模型∗

下一篇：基于无线自组网的边境视频监控系统∗

《计算机与数字工程》2018年第05期文献

强规划的最小期望权值求解算法∗ 作者：袁润，文中华，戴良伟，陈秋茹

基于ELM-AE的迁移学习算法∗ 作者：邓万宇，屈玉涛，张倩

基于改进词包模型的车型识别算法∗ 作者：康珮珮，于凤芹，陈莹

基于人工蜂群算法的数据分类感知研究∗ 作者：王小君

基于Rife算法的跳频信号瞬时频率估计算法研究∗ 作者：孙微涛，张志宝，罗文峰，汪帆

引入主题链接块因子的候选链接搜索策略研究∗ 作者：周雪，刘乃文

预测Motifs算法的改进评价策略∗ 作者：张斐

基于模糊隶属的低消耗航材界定研究∗ 作者：曾翔，徐廷学，安进，李志强，李凯

基于CS-LDP和LCCP特征融合的人脸识别算法∗ 作者：汤啸，张戈，刘增力

GPS标准定位服务偏移误差的预测和改善∗ 作者：张宝军，王亚辉

基于加权非线性最小二乘的无源协同定位∗ 作者：李思奇

基于区间数学的全局优化算法及其应用探讨∗ 作者：王锦瑞

一种改进的双站时频差目标跟踪高斯和滤波算法∗ 作者：曹亚琴，秦宁宁，杨乐

基于模糊综合评价法的“走出去”企业与华人华侨合作稳定性的仿真与评价∗ 作者：梁雨欣，汪群，李卉

基于深度学习的商品评价情感分析与研究∗ 作者：刘智鹏，何中市，何伟东，张航

基于MAS的时序数据集成管理模型设计∗ 作者：李春生，张勇，张可佳，宋佳

基于句法结构分析的中文文本聚类方法研究∗ 作者：尹积栋，谢茶花，彭崧，刘红，曾昭虎

带有边界条件的城市DEM构建方法研究∗ 作者：林春华，万栋平，邵为真

基于序关系分析法的电力市场监管指标体系评价∗ 作者：陈宏，谢国荣，王迟

用于短文本关键词抽取的TTM_DMM主题翻译模型∗ 作者：王瑞，秦永彬，闫盈盈

基于LSA的历史工作票问题分类异常检测∗ 作者：张航，徐建

基于无线自组网的边境视频监控系统∗ 作者：庞泽峰，刘增力

异构云环境下能效优化的任务调度算法∗ 作者：容会

一种针对正规树模式的复杂事件查询方法∗ 作者：郑利强，廖湖声，苏航，高红雨

直觉模糊满意态模型∗ 作者：鱼先锋，万世昌

面向生产过程的异构数据服务描述语言IO-DSDL的设计与实现∗ 作者：陈彦萍，郭超，杨为惠

海量通信数据管理平台的设计与实现∗ 作者：曾伟忠

面向电力大数据的多数据流实时处理技术研究∗ 作者：孟庆强，胡牧，孙立华，郑浩泉

贝叶斯网络参数学习中的连续变量离散化方法研究∗ 作者：刘晓明，李盼池，刘显德，肖红

基于骨架的单幅图像三维建模∗ 作者：张淑军，刘文晓

杂志信息网