更全的杂志信息网

基于神经网络算法预测水解酶的亚类

更新时间:2016-07-05

引言

新陈代谢是生命活动中最重要的特征之一,是由千千万万化学变化产生的.而这些化学变化都是在催化剂的催化下进行的.酶是生物体中的生物催化剂,同时也是一种蛋白质,它具有较高的催化效率和高度的专一性,又广泛存在于各种细胞中.可以说,酶在各种代谢过程中起了很重要的作用.也可以说没有酶就没有生命现象[1,2].酶的分类研究对于研究生命的新陈代谢至关重要.而对于酶的分类研究同时也是对蛋白质功能的研究.目前,在海量的蛋白质序列数据如何判断该序列的功能及其分类是既耗资又耗时.因此,我们现在迫切需要建立一个分类预测的数学模型来快速的解决以上问题.目前,人们从理论上找到一种比较有效的预测方法,能快速并且较准确的预测出蛋白质的功能和特性等.

近些年,许多研究者通过利用生物信息学建立了相应的酶序列的数据库,并通过分类预测算法及酶序列的相关特征建立数学模型对酶的家族类及其亚类的研究上取得了较好的预测结果.

实践证明,火电厂通过采用新技术、新工艺,加大设备节能技术改造,提升设备能效,加强运行管理,优化机组运行方式,加强设备治理,科学合理开展小指标竞赛等措施可有效降低机组厂用电率,提高全厂的经济性。在当前发电行业不利的经营环境下,行之有效的节能措施既可以提升企业竞争力,又可为企业带来可观的经济效益,为企业今后的发展注入新的活力。

1 数据库和方法

1.1 数据库

本文选取2011年由我们小组构建和整理新数据库,其中水解酶六个亚类共4498条序列.

1.2 氨基酸组分

蛋白质序列都是由20种基本的氨基酸组成的.并反映了序列的全局信息.前人的研究表明,酶与氨基酸组分信息有一定的关联性,不同类的酶序列的氨基酸有一定的差异.因此,本文选用氨基酸组分的信息(A)作为参数,来表示酶的序列信息.我们可以将一条酶序列替换为一个20维的向量:

其中si(i=1,2,3,...,20)代表第i种氨基酸在一条酶序列中出现的频数.

1.3 预测的二级结构

BP神经网络的过程主要分为两个阶段,第一阶段是信号的前向传播,从输入层经过隐含层,最后到达输出层;第二阶段是误差的反向传播,从输出层到隐含层,最后到输入层,依次调节隐含层到输出层的权重和偏置,输入层到隐含层的权重和偏置.

为了可以反映出序列的功能,本文选用已被广泛用于DNA及蛋白质序列中模体搜索的MEME在线搜索器作为搜索工具[4](http://meme.sdsc.edu/meme/cgi-bin/meme.cgi)来搜索各个酶家族类及其亚类中的模体.用该软件在搜索过程中,我们可以限定模体的长度和模体类数,本文限定6-15个氨基酸残基作为模体的长度,并且每类亚类搜索5个模体类数,统计每条酶序列25个模体出现的频数,从而每条酶序列由一个25维向量来表示.

1.4MEME模体

研究表明模体是刻画蛋白质结构和执行功能的重要部分.因此,通过对模体的研究,我们就能得到该序列的功能信息及结构特征.目前,对于模体的搜索工具有很多.比较常用的有PROSITE数据库中的PS_scan模体搜索工具和MEME软件等.其中MEME软件所得到的模体是具有统计学意义的,有此软件得到的模体是通过对比序列得到的片段.

本文所使用的二级结构信息是PSIpred(Position Specific Iterated pred)软件[3]的在线服务器作为二级结构搜索工具http://bioinf.cs.ucl.ac.uk/psipred/.基于上述操作,对于一条酶序列,我们用一个3维的向量来表示二级结构α螺旋、β折叠以及无规卷曲(coil)在该序列中出现的频数.

为了更好的反映酶序列的功能信息,我们选取PROSITE搜索得到功能模体 [5].Prosite数据库收集了大量的具有显著生物学意义的蛋白质序列模式和功能位点.本文将PS_scan模体搜索工具[5]用Perl语言编译实现.用来搜索水解酶的亚类的蛋白质序列中出现的模体.

1.5 功能模体

其中,k值越小时,所计算出的距离越适合运用在高维空间中,并由此提出了分数距离度量,即利用k<1的距离来衡量高维空间中数据间的距离。当k=2时,式(7)代表欧氏距离。

因此,当差分隐私保护参数为ε′(由算法的7~13行计算而得)的相邻评分矩阵上的Laplace噪声之比为

我们对水解酶序列搜索得到的模体进行统计分析后,选取出现最多的5种模体,其预测结果最好.水解酶共选取5种模体.对于每一条酶序列来说,记录模体在序列中出现的次数.即可将序列信息转化为模体频数值.把PROSITE搜索得到的5种模体,再加上由MEME软件搜索得到的统计模体,水解酶共得到30个模体频数值.

2 神经网络算法

人工神经网络[6](Artificial Neural Networks,ANN)系统是20世纪40年代后出现的.它是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点.BP(Back Propagation)算法又称为误差反向传播算法,是人工神经网络中的一种监督式的学习算法.BP神经网络算法在理论上可以逼近任意函数,基本的结构由非线性变化单元组成,具有很强的非线性映射能力.BP神经网络是一种多层的前馈神经网络.具体来说,本文神经网络模型如下:

图1 神经网络模型

对于蛋白质分子来说,它不仅只具有一级结构,还有二级结构等.蛋白质的一级结构只反映其序列信息,而它的二级结构反映其空间结构信息.前面我们只选取了酶蛋白的序列信息,为了更好的反映酶蛋白的特性本文选取预测的二级结构信息(P)作为特征参数.

本文基于前人建立的数据库,以氨基酸组分、预测的二级结构和MEME模体及功能模体频数组成向量来表示序列信息,水解酶共得到53维向量,将得到的向量输入到神经网络算法进行分类预测,在Jack-knife检验下进行预测,总精度依次为96.7%.具体结果如表1.

假设输入层的节点个数为n,隐含层的节点个数为l,输出层的节点个数为m.输入层到隐含层的权重ωij,隐含层到输出层的权重为ωjk,输入层到隐含层的偏置为aj,隐含层到输出层的偏置为bk.学习速率为η,激励函数为g(x).其中激励函数为g(x)取Sigmoid函数.形式为:

〔1〕阎隆飞,孙之荣.蛋白质分子结构[M].北京:清华大学出版社,1999.

权值的更新公式为:

3 结论

实验装置设计:采用陕西维视公司的MV-3000UC COMS数字摄像头1台,其分辨率最大为2 048×1 536,Computer TM公司的定焦镜头(焦距为5mm)。采用Intel Open CV库函数提供的标定方法,对摄像头进行标定。光源采用3W LED灯光源,采用背向照明方式采集鸡蛋正面图像。利用固定尺寸分割,处理单个鸡蛋图像。根据镜头焦距和视觉范围及拍摄要求,计算公式设计暗箱尺寸(572mm×495mm×1 362mm),同时采集25枚鸡蛋的图像信息,如图1所示。

就见古松后走出一个紫衫女子,身材纤纤,步履轻盈,肤光胜雪,眉目如画。乔十二郎一见,瞬间眼泪就流下:“表姐!罗香!是你?”

表1 水解酶的5个亚类结果(%)

AP APMR 1 87.5 84.5 98.4 2 53.5 59.7 96.5 3 0.0 29.2 94.3 4 0.0 24.8 95.0 5 56.5 67.8 96.8 ACC 51.8 61.6 96.7 A

参考文献

其中Yk为期望输出.我们记Yk-Ok=ek.

〔2〕阎隆飞.蛋白质的结构与功能[M].长沙:湖南科学技术出版社,1988.

〔3〕Chou K.C.,CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J].Biochemical and Biophysical Research Communications,2004,325:506~507.

把“子某”之“子”理解为“王子”存在一些问题,卜辞里的“子族”不在“王族”之内。历代卜辞中有一条讲“王族爰(援)多子族”(《南北》明224),即是指卜王族是否要在战事中支援多子族,“可见‘子族’不在‘王族’内。”如果“子”是反映“王子”,有的甚至是时王之子,而王子却不属于王族,显然是说不通的。

〔4〕Bailey T.L.,Mikael B.,Buske F.A.,Frith M.,Grant C.E.,ClementiL.,Ren J.Y.,LiW.W.,NobleW.S.MEME Suite:tools for motif discovery and searching[J].Nucleic Acids Research.2006,3.

〔5〕Castro,D.E.,Sigrist,C.J.,Gattiker,A.,Bulliard.,Langendijk-Genevaux,P.S.,Gasteiger,E.,Bairoch,A.,Hulo,N.ScanProsite:detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins [J].Nucleic Acids Research.2009,37,202~208.

〔6〕许忠能.生物信息学[M].北京:清华大学出版社,2008.

(一)课程结构限制。高中语文课程中关于对主观传统文化的教育主要通过基本课堂教育、语文课内教育、语文选修课及少量语文课活动来实现。“把中华优秀传统文化教育系统融入课程和教材体系”是教育部颁布过的指导纲要中特别提出的,但就对高中生传统文化素养的培育来说显得杯水车薪。由于受课程结构的限制,大部分高中生只能在语文课堂中接触到教材中、考题中出现的传统文化相关内容。

王莹,程薇薇
《赤峰学院学报(自然科学版)》2018年第4期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号