快捷分类

预测Motifs算法的改进评价策略∗

更新时间：2009-03-28

1 引言

所谓Motifs（模体）指的是在一组相关的蛋白质或者DNA序列中重复出现的具有生物意义的序列模式，它能够代表一个蛋白质家族，随着计算机技术在生物领域的不断成熟和推广，关于生物序列中Motifs的自动预测技术已经成为一门新兴技术，如何设计出预测算法以更好地对生物信息进行研究就成为了生物信息领域一个重要的研究课题。

一个蛋白质家族所有的或大多数的成员共同拥有的Motifs极可能是该家族执行某些重要功能或组成结构不可或缺的部分。预测出一个蛋白质家族共同的Motifs就能刻画该家族特征，从而可以利用这些特征来进行发掘蛋白家族新成员等有意义的新发现。但是对于通过各种生物信息学方法识别的Motifs，目前没有很好的办法辨别真假和优劣［1］。

本文通过研究对不同Motifs预测算法在同一数据集上测试后的评价策略，针对传统的算法预测问题，采用新的评价方案和评价标准对算法预测的结果进行分析。

4D技术是将模型同施工有效连接起来，利用立体模型对整个施工流程实施模拟操作，将各环节施工模型和施工计划导入到系统中，实行施工进度的模拟分析，这样一方面能够及时调整施工计划，另一方面也便于工作人员掌握施工预算等信息。

2 算法的种类

Motifs预测是将生物序列中的氨基酸或碱基转化成为相应的字符串，在不同字符串序列中寻找最大公共子串，再通过生物学特征将这些字符串提取，与通过实验方法获得的生物信息数据库进行匹配。寻找最大公共子串的算法设计思想和数学模型是Motifs预测的关键。Motifs预测方法分为两类：统计学方法，如Gibbs采样算法、MEME和HMMER 等；确定性方法，如 Pratt、TEIRESIAS、SPLASH以及SPAT等，这些算法均能发现隐藏在序列中的弱模体（weak Motifs），但统计学Motifs预测方法在实际应用更为广泛。

统计学Motifs预测算法遵循了不同的数学方法和原理，但都避免不了自身的不足，例如Gibbs采样算法虽具有简单、计算速度快的优点，但却是局部优化算法，不能保证结果的全局最优性。而EM算法较好解决了具有隐变量模型的估计，但对于较短模体，EM算法极易陷入局部极值，从而得不到最优解［2］。

3 主要算法描述

3.1MEME算法

MEME算法是基于最大期望值（EM）算法来识别Motifs的一种迭代算法，它交替执行两个步骤：期望值步骤E和最大值步骤M［3］。在步骤E中，通过给出的观察数据和W的现有估计值，计算出隐变量的分布。在步骤M中，通过步骤E给出的隐变量的假定分布，计算出参数的最优值。

算法1

2.成为服务群众的主力。成立各种退休职工党员志愿者服务组织，如，社区“夕阳红”医疗队，为社区群众服务。

Begin：

初始化变量：

采用傍河取水的方式开采地下水时，可以采用人工滤料来净化河水，通过研究含水层的淤塞机理、水流状态、滤料渗透性的影响、水质发生改善的机理等，探讨技术可靠，成本较低的净水工艺技术，不仅是净水理论和技术发展的需要，更具有重要的经济价值和社会意义。而针对地表水转化为地下水的净化机理、渗流场特征、渗流场变化规律、天然河床及滤层的淤塞机理、预测及防治等方面缺乏较为系统的研究，需要在逐步应用中得到进一步研究。

LengthM（待处理的Motifs的长度）

NumberM（识别不同的Motifs的数目）

Iterative（设定的迭代次数）

EM（I）（在数据集中所期望每个Motifs出现的算法Algo

rithm（））：

｛

For Motifs=1 to NumberM

｝

何西急了：“出人命可是你的事。”看何北不说话，他语气又缓和了，“以何东的性格，他娶权筝是不是挺合适？”

始位置）；

运行修改后的EM；

共迭代Iterative次；

由同一名对分组不知情的麻醉护士分别于麻醉前(T0)、术后6小时(T1)、术后24小时(T2)、术后48小时(T3)和术后72小时(T4)，超声引导下采集右颈内静脉血标本3 mL，离心(4000 r/min,10 min)分离出血清，置于-80 ℃冰箱保存待测。采用酶联免疫吸附(ELISA)双抗体夹心法检测S100β蛋白含量。所测浓度均经过Hct校正，校正值=[术前Hct×实测值]/采样时Hct。

EndFor

｝

EndFor

给定W和λ(0)选择初始参数值θ(0)；执行EM算法后建立新模型；释放数据；

初始值执行EM

｝

在循环中，EM算法［4］选择随机的起始位点来迭代运行。其中，起始位点所输入的数据集中的子序列得到的，而只有那些能使模型取得最大可能性值的起始位点被选中，EM算法从这个起始位点开始运行并最终迭代若干次后，得到一个相对稳定值后结束。

3.2 基于贪心EM算法的改进预测算法（PKGE算法）

PKGE是基于Kd-树的贪心EM预测算法，Kd-树是通过定义一个递归的二进制的K维数据集，它的根节点包括全部数据，每一层通过检测不同属性（关键字）值以决定选择分支的方向，从而加快查询速度。所以算法的时间复杂度比较高，只适用于寻找短序列的 Motifs［5］。

算法执行的步骤如下。

算法2

学生所面临的是学习状态将发生很大的变化，传统模式下可以什么都不做，听课就可以了，写作业交作业，听力和口语训练也很少。所以只有语言基础很好的同学才会主动去用英语交流，大多数学生都是会写不会说。而新的产出导向法的运用将打破常规，学生需要自主完成既定任务，并且要通过语言综合运用的训练，小组成员讨论并对比，必须有高度集中的精神和自主学习能力，要不然将无法进行课程，所以说学生需要从不适应开始，逐步改变自己的惰性，通过课程的不断培养而发现自己的优势和不足，并努力去完善自己。

Input（输入序列 s={s1，…，sN}）：

设N条序列，长度从数据集中取值。

While（Kd-树结构→保守序列→K值最优）

初始化字符串X={xi}(i=1，…，n)，满足n

｛

For（依次扫描所有序列）

Kd-树来处理数据集X，通过质心C找到一致性序列

EndFor

｝

参数迭代：

设置模型划分度

While（局部EM优化→g划分→似然度最优）

由于各评价因子对建设开发的影响或限制程度不同，如生态红线、优质基本农田对建设开发的限制程度较高；因此将选取的评价因子进行强制性和较强制性因子的筛选，并建立适宜性评价指标体系（见表1）。

总之，历史学科关键能力的培养和训练，应有目的、有计划、有步骤地将学科关键能力的培养贯穿于整个教学过程的始终，应重在教师的启发和引导，将书本上的每一个知识点都涵盖在框架之中。才能达到历史教学全面培养学生学科素养的目的。

｛

For（参数迭代扫描）

集中处理得到的Motifs

g+1划分的混合模型

EndFor

｛

求出Motifs的最大数量

算法描述了在Motifs预测中的一个混合Motifs模型。通过引入Kd-树结构，使数据集中，似然函数单调增加，彻底搜索候选序列部分的参数，从而使得其它Motifs大量存在的可能性大大降低。

废活性炭的再生率是衡量活性炭再生工艺质量的重要指标，在生产过程中废活性炭的含水量被称为炭水比，其中炭水比是对再生率及活性炭再生质量影响最大的生产要素，所以做好炭水比等一系列指标的控制至关重要。表1为活性炭再生工艺试验中常见要素条件。

4 评价策略

算法测试的硬件系统环境为IBMX365服务器、联想PC。软件系统环境为Win7（Matlab 7.1）、Linux red hat 9.0（MEME 3.4.5）。评价中采用的统计软件有SigmaPlot9.0、SPSS22.0。

利用训练数据集和测试数据集验证。在实验中依据经验值将参数λ设置成0.8，并设置K=1来指定一个Motifs的相邻矩阵，参数T的值为T=N/2（序列长度的一半）［5］。

对比使用MEME算法来进行验证。其中在MEME中选择的是anr模式即任意重复数量模式，评价策略见图1。

少一分猜测，多一分实力.有部分同学在学习时，喜欢“耍小聪明”，在学习解题时不求甚解，而倾向于机械地记忆教师提供的方法或者依据经验进行猜测，这样的做法在某些情境下可能会奏效，但是长远来看，这无异于掩耳盗铃，只是自欺欺人罢了，教师应该鼓励学生多总结多思考，找到解决问题的通用方法，了解问题的本质.

图1 评价策略图

4.1 采用训练数据集的实验

从PRINTS数据库下载部分蛋白质家族序列，随机产生10条长度在200bp～250bp之间的蛋白质序列，通过多次比对设定Kd-树划分值为6，叶子节点字符串的长度设定为 5，Motifs长度为 10［5］，由于选定序列源于生物数据库，虽经过人工拼接，但仍有部分片段保留，因而程序执行后仍能找到8个Motifs。

4.2 采用测试数据集的实验

4.2.1 Fingerprints法测试

我们选择的PRINTS数据库［6］包含了大量蛋白质家族，每个家族成员中都有Motifs出现，Fingerprints法已成为数据库中标准的序列分析工具［7］，有网络版可使用。当前最新的PRINTS含有1600家族的9800个Motifs［8］。

在这个实验中评估预测Motifs的准确率采用了信息量 IC（Information Content）［9］。

其中 pagenumber_ebook=36,pagenumber_book=881 表示字符αl在背景序列中出现的频率，IC值越高说明序列越保守，因而可以比较Motifs在不同序列中的数量，实际计算中可通过统计位置权重矩阵得到［10］。

For（数据集中的每个子序列根据从子序列得到的起

我们选用表1中所列的4个PRINTS蛋白质家族作为测试集，考虑到时间复杂度，选定每个家族的各序列长度在150bp～300bp之间，用Fingerprints法找出在每个成员出现一次的Motifs（即单拷贝序列），再将这些Motifs从数据集中删除。我们设定Motifs的长度为W，采用MEME和PKGE算法发现蛋白质家族中最多有20个Motifs。

表1 PRINTS的蛋白质家族

PRINTS fingerprints Motifs数量和长度W 2（15-17）4（14-17）4（10-27）6（12-21）PRINTS蛋白质家族源自Swiss-Prot/TrEMBL 1 pr00035 2 pr00091 3 pr00068 4 pr00080序列的平均长度150（254）157（296）147（180）534（273）

图2柱状图表示在每条序列中Motifs出现的数量。其中黑色柱状图表示MEME在4个蛋白质家族的预测数量，灰色柱代表PKGE算法预测的Motifs数量，由于所有Motifs在序列中有相同的发生率，因此可以用IC值来比较预测效率［11］。其中MEME的IC值可通过运行软件，统计输出的IC值后求平均值得到，而PKGE算法计算IC值，可通过对PWM矩阵中的序列字符的对应值求平均后得到。设定相同长度为W的Motifs的IC的平均值标记在图2柱状图的上方，试验统计数据表明通过PKGE算法测定的IC值较MEME的要高。

4.2.2 MEME-MAST算法测试［12］

实验目的是通过比较MEME和PKGE算法对蛋白质家族的Motifs预测，得到对目标序列的精确性分析，由于以上的实验结果通过IC值证实我们的算法在发现大量更保守的Motifs时有一定的作用，因此下一步中使用MEME-MAST来预测Motifs。

MEME算法的基本思想是把序列集分成Motifs模式和背景模式，利用EM算法计算出每个字母在短序列中每个位置出现的概率，然后算出该短序列分别出现在Motifs模式和背景模式下的概率，最后通过统计方法确定该短序列是不是一个Motifs；MAST算法是计算数据库中每个序列和给定一组Motifs中每个Motifs的匹配值。对于每个序列，匹配值就是各种不同类型的P值，它们被用来决定序列和Motifs集的匹配度和Motifs大概的顺序以及各个Motifs出现在序列中的间隔［13］。

（1）固定资产管理信息系统分散，财务核算部门，资产使用部门和资产管理部门各自有独立的信息系统，信息对接困难。这不仅对财务对账造成困难，也不利于对资产的使用信息进行有效统计与核算，对资产的效益评价与分析造成困难。

选取表2所示4个PROSITE蛋白质家族的数据集［14］，在每个家族被随机的挑选部分序列（10条）作为Motifs预测的数据集。设定W=10，通过算法去除冗余，表3所示为预测的PROSITE蛋白质家族的Motifs的数量，可以看出PKGE算法识别了大量的Motifs。

图2 PKGE算法与MEME算法预测Motifs比较

表2 PRINTS的蛋白质家族

Swiss-Prot PROSITE家族阳性蛋白数共选择14479条序列预测Motifs的平均长度10（353）10（244）10（205）10（101）PS00250 PS00248 PS00247 PS00472 141 44 74 63

表3 预测的PROSITE蛋白质家族Motifs数量对比

PS00250PS00247PS00248PS00472 79 63 79 73 6 11 67 62 PRINTS蛋白质家族的Swiss-Prot/TrEMBL蛋白质总数阳性蛋白数总数已知预测MEME(W=10)PKGE漏掉MEME(W=10)PKGE 156 141 204 141 65 98 78 43 46 44 59 45 24 38 31 7 32 74 75 51 14 39 6 11

MEME-MAST算法计算Motifs的目标序列后统计E值，实验方法如下：利用MAST和PKGE算法处理一段序列，在MAST输入一段已知的Motifs并计算每条序列的E值，并将开始目标序列的E值作为阳性分类的依据。

风扇焊后需热处理消除应力，因母材材料特殊性，焊接工艺评定制定了特殊的热处理工艺，将退火温度控制在550 ℃，避免热处理后降低材料的冲击韧性，具体的热处理参数见图6。

考虑到算法的敏感度和特异性，真阳性的减小降低了敏感度，而假阳性的减小对提高特异度有利。为了提高正确率，需要获得较大的敏感度和较大的特异度，因此选择合适的Motifs长度非常重要，文中选择了如表2所示长度为100bp～360bp的序列。

图3是利用SPSS绘制的算法在四个蛋白质家族数据中执行的ROC曲线，ROC（Receiver Operating Characteristic，接收者工作特征曲线）是利用真阳性和假阳性绘制的曲线［15］。曲线的位置用来判断其所代表算法的优劣，曲线越靠近左上角，或者曲线下方的面积越大，代表算法的分类的精确度越高。从曲线可以清晰看出PKGE算法预测精确度较高。

图3 两种算法预测Motifs的ROC曲线

5 结语

本文采用统计学方法来比较和筛选Motifs预测软件的预测结果，将数据集中已知Motifs作为参考，将Motifs预测算法对数据集的搜索结果作为对数据集中序列的分类。通过测试集来测试Motifs预测算法的精确性。分类效果越好，Motifs模型越能真实反映蛋白质家族的情况。反之，模型就越可能是随机产生的而不具有生物意义。

评价中应用PKGE算法对训练数据集和测试数据集进行了实验，结合同样基于EM算法的MEME算法工具进行了对比实验，应用我们的评测方案在实验中搜集了大量实验参数，无论是在相同长度的Motifs还是在时间复杂度上都较MEME有所优化。通过运用信息量IC等指标对两种算法工具进行了定量检测，最后结合医学检测中常用的ROC曲线进行了特异度和敏感度的比较，进一步验证PKGE算法的改进性。

结合生物实验中总结的经验方法对照通过算法获取的Motifs能够有效地提高预测算法的精确性，筛选后的数据集还需要生物实验来验证才能最终被确定。

本文的评价策略还存在一定的不足，例如本身在一个蛋白质家族的成员序列之间就存在一定的差异，因而通过随机选取的训练集和测试集序列就会有一定的偏差。此外受到实验中软硬件环境的制约，评价策略的效果也会受到一定的影响。因而在后面的研究中还需要对训练集和测试集序列建立更好的数据模型，以提高通过本文评价策略筛选Motifs的精确性。

参考文献

［1］杜春鹃，朱云平，贺福初，等.蛋白质家族模体（motif）的评价策略［J］.北京生物医学工程，2005，24（2）：97-102.DU Chunjuan，ZHU Yunping，HE Fuchu，et al.A New Strategy to Evaluate Protein Motifs［J］.Beijing Biomedical Engineering，2005，24（2）：97-102.

［2］张斐，谭军，谢竞博.基于不同算法的motif预测比较分析与优化［J］.计算机工程，2009，35（22）：94-96.ZHANG Fei，TAN Jun，XIE Jingbo.Comparison，Analysis and Optimization of Motif Finding Based on Different Algorithms［J］.Computer Engineering，2009，35（22）：94-96.

［3］TIMOTHY L B，CHARLES E.The value of prior knowledge in discovering Motifs with MEME.Proceeding of the Third International Conference on intelligent Systems for Molecular Biology，Menlo Park，California，1995［C］.AAAI Press，1995，3：21-29.

［4］王维彬，钟润添.一种基于贪心EM算法学习GMM的聚类算法［J］.计算机仿真，2007，24（2）：65-68.WANG Weibin，ZHONG Runtian.A C lustering A lgorithm Based on G reedy EM A lgorithm Learning GMM［J］.Computer Simulation，2007，24（2）：65-68.

［5］张懿璞.转录因子结合位点识别问题的算法研究［D］.西安：西安电子科技大学，2014：120-121.ZHANG Yipu.Algorithm research on the problem of transcription factor binging sites dentification［D］.Xi'an：Xidian University，2014：120-121.

［6］ T K Attwood，M D R Croning，D R Flower，et al.PRINT-S：the database formerly known as PRINTS［J］.Nucleic Acids Res，2000，28：225-227.

［7］杜耀华，倪青山，王正志.利用序列保守模体和局部构象信息预测转录因子结合位点［J］.生命科学研究，2006，10（3）：215-223.DU Yaohua，NI Qingshan，WANG Zhengzhi.Computerational Prediction of Transcription Factor Binding Sites Based on Conserved Motif and Local Conformational Knowledge in Genomic Sequences［J］.Life Science Research，2006，10（3）：215-223.

［8］G Pavesi，P Mereghetti，F Zambelli，et al.MoD Tools：regulatory Motif discovery in nucleotide sequences from co-regulated or homologous genes［J］.Nucleic Acids Res，2006，34（Web Sever issue）：566-570.

［9］ T K Attwood，M D R Croning，D R Flower，et al.PRINT-S：the database formerly known as PRINTS［J］.Nucleic Acids Res，2000，28：225-227.

［10］王欣.模体的并行聚类算法及在短柄草核心启动子预测的应用研究［D］.青岛：青岛大学，2016.WANG Xin.A parallel clustering algorithm for the model body and its application in the prediction of the core Promoter of the short stalks［D］.Qingdao：Qingdao University，2016.

［11］刘维，陈汉武，陈崚.一种识别基因调控元件的新型优化算法［J］.计算机应用与软件，2013，30（1）：21-28.LIU Wei，CHEN Hanwu，CHEN Ling.A Novel Optimisation Algorithm for Gene Regulatorary Elements Recognition［J］.Computer Applications and Software，2013，30（1）：21-28.

［12］Grundy William N，Bailey TL，Elkan CP，et al.Meta2MEME：Motif2based hidden markov models of biological sequences［J］.Computer Applications in the Biosciences，1997，13（4）：397-406.

［13］霍红卫，郭丹丹，于强，等.（l，d）-模体识别问题的遗传优化算法［J］.计算机学报，2012，35（7）：1429-1439.HUO Hongwei，GUO Dandan，YU Qiang，et al.Genetic Optimization for（l，d）-Motif Discovery［J］.Chinese Journal of Computers，2012，35（7）：1429-1439.

［14］T L Bailey，C Elkan.Unsupervised learning of multiple Motifs in biopolymers using expectation maximization［J］.Machine Learning，1995，21：51-83.

［15］R Durbin，S Eddy，A Igogh，et al.生物序列分析，第三章：蛋白质和核酸的概率论模型［M］.北京：清华大学出版社，2010.R Durbin，S Eddy，A Igogh，et al.Biological sequence analysis，third chapter：the probability theory model of protein and nucleic acid［M］.Beijing：Tsinghua University Press，2010.

作者

张斐

出处

《计算机与数字工程》 2018年第05期

上一篇：引入主题链接块因子的候选链接搜索策略研究∗

下一篇：基于模糊隶属的低消耗航材界定研究∗

《计算机与数字工程》2018年第05期文献

强规划的最小期望权值求解算法∗ 作者：袁润，文中华，戴良伟，陈秋茹

基于ELM-AE的迁移学习算法∗ 作者：邓万宇，屈玉涛，张倩

基于改进词包模型的车型识别算法∗ 作者：康珮珮，于凤芹，陈莹

基于人工蜂群算法的数据分类感知研究∗ 作者：王小君

基于Rife算法的跳频信号瞬时频率估计算法研究∗ 作者：孙微涛，张志宝，罗文峰，汪帆

引入主题链接块因子的候选链接搜索策略研究∗ 作者：周雪，刘乃文

预测Motifs算法的改进评价策略∗ 作者：张斐

基于模糊隶属的低消耗航材界定研究∗ 作者：曾翔，徐廷学，安进，李志强，李凯

基于CS-LDP和LCCP特征融合的人脸识别算法∗ 作者：汤啸，张戈，刘增力

GPS标准定位服务偏移误差的预测和改善∗ 作者：张宝军，王亚辉

基于加权非线性最小二乘的无源协同定位∗ 作者：李思奇

基于区间数学的全局优化算法及其应用探讨∗ 作者：王锦瑞

一种改进的双站时频差目标跟踪高斯和滤波算法∗ 作者：曹亚琴，秦宁宁，杨乐

基于模糊综合评价法的“走出去”企业与华人华侨合作稳定性的仿真与评价∗ 作者：梁雨欣，汪群，李卉

基于深度学习的商品评价情感分析与研究∗ 作者：刘智鹏，何中市，何伟东，张航

基于MAS的时序数据集成管理模型设计∗ 作者：李春生，张勇，张可佳，宋佳

基于句法结构分析的中文文本聚类方法研究∗ 作者：尹积栋，谢茶花，彭崧，刘红，曾昭虎

带有边界条件的城市DEM构建方法研究∗ 作者：林春华，万栋平，邵为真

基于序关系分析法的电力市场监管指标体系评价∗ 作者：陈宏，谢国荣，王迟

用于短文本关键词抽取的TTM_DMM主题翻译模型∗ 作者：王瑞，秦永彬，闫盈盈

基于LSA的历史工作票问题分类异常检测∗ 作者：张航，徐建

基于无线自组网的边境视频监控系统∗ 作者：庞泽峰，刘增力

异构云环境下能效优化的任务调度算法∗ 作者：容会

一种针对正规树模式的复杂事件查询方法∗ 作者：郑利强，廖湖声，苏航，高红雨

直觉模糊满意态模型∗ 作者：鱼先锋，万世昌

面向生产过程的异构数据服务描述语言IO-DSDL的设计与实现∗ 作者：陈彦萍，郭超，杨为惠

海量通信数据管理平台的设计与实现∗ 作者：曾伟忠

面向电力大数据的多数据流实时处理技术研究∗ 作者：孟庆强，胡牧，孙立华，郑浩泉

贝叶斯网络参数学习中的连续变量离散化方法研究∗ 作者：刘晓明，李盼池，刘显德，肖红

基于骨架的单幅图像三维建模∗ 作者：张淑军，刘文晓

杂志信息网

预测Motifs算法的改进评价策略∗

1 引言

2 算法的种类

3 主要算法描述

3.1MEME算法

3.2 基于贪心EM算法的改进预测算法（PKGE算法）

4 评价策略

4.1 采用训练数据集的实验

4.2 采用测试数据集的实验

5 结语