快捷分类

基于遗传算法的蛋白质复合物识别算法*

更新时间：2009-03-28

1 引言

随着人类基因组计划的实施，生物医学进入后基因时代，系统全面地理解蛋白质之间通过相互作用完成生命活动的规律成为研究热点之一[1]。近年来，随着酵母双杂交、微阵列等高通量技术的应用，产生了大量的蛋白质互作用（protein-protein interaction，PPI）数据，这些数据可以表示为蛋白质互作用网络的形式[2]。通常将蛋白质互作用网络看作一个图G=(V,E),其中节点表示蛋白质，边表示蛋白质之间的相互作用。在蛋白质互作用网络中，蛋白质复合物是指在同一时间和空间组成一个多分子机制的一组蛋白质。从大规模蛋白质互作用网络中识别蛋白质复合物对预测蛋白质功能，解释特定的生物进程具有重要作用。蛋白质复合物往往对应于互作用网络图中的一些稠密子图[3]。基于蛋白质互作用网络的图聚类算法是识别网络中复合物[4-6]的有效方法。

2005年，Palla等人[7]提出了派系过滤算法CPM（clique percolation method），并基于此设计了CFinder（clique finder）[8]工具，寻找网络中所有的k-完全子图（k-团），合并具有k-1个公共节点的k-团形成簇，作为参考蛋白质复合物。2012年，Liu等人[9]对CPM算法进行了改进，提出了基于团渗透和距离限制的蛋白质复合物识别算法CPM-DR（clique percolation method based on distance restriction）。然而，寻找一个图的 k-完全子图是NP（non-deterministic polynomial）困难问题。2003年，Bader和Hogue[10]提出了基于局部密度搜索的MCODE（molecular complex detection）算法，以节点邻域的k-核局部网络密度作为PPI网络中节点的权重，并选择权重最大的节点作为种子节点；以种子节点为初始簇中心，迭代向当前簇中加入节点权重大于给定阈值的邻居节点，完成簇扩展过程。MCODE算法时间复杂度为O(n)，被广泛应用于大规模网络，然而它不能保证所发现的簇内连接紧密[11]。2006年，Altaf-Ul-Amin等人[12]提出DPClus（development clustering）算法，认为存在相互作用的两个节点之间的公共邻居数越多，则作用越强烈，以此对PPI网络中的边加权，并定义节点权重为加权度和，选择权重最大的节点作为种子节点；DPClus还考虑了簇边界节点对当前簇的影响，给出了节点的簇边界性值，与簇密度结合进行簇扩展，对PPI网络中稠密区域和稀疏区域加以区分；扩展之后形成的稠密区域作为识别的蛋白质复合物。2008年，李敏等人[11]对DPClus的边界性值进行改进，提出了IPCA（improvement development clustering algorithm）算法，将子图直径和子图密度相结合进行簇扩展，并将子图直径作为蛋白质复合物识别特征之一，可以发现重叠的蛋白质复合物，提高了算法效率。2011年，王建新等人[13]给出了对加权蛋白质互作用网络中的功能模块进行识别的层次聚类算法HC-PIN（hierarchical clustering-protein interaction network）。2012年，Nepusz等人[14]综合考虑簇内紧密度和簇间分离性，提出了ClusterOne（clustering with overlapping neighborhood expansion）算法对蛋白质复合物进行识别。

种子节点的选择对于最终形成的簇有很大影响。以上各种计算方法，一旦选定权重最大的节点作为初始簇中心，在簇扩展过程中种子节点不再改变。然而在蛋白质互作用网络中，一方面，具有最大权重的节点往往不是唯一的；另一方面，尽管被选作簇中心的节点通常权重较大，但仅选择最大权重的节点作为种子节点进行扩展，在一定程度上缩小了簇发现过程的搜索空间。此外，在簇扩展过程中，一个节点一旦被加入到某一个簇中，再不会被调整出簇，这种方法也缩小了簇发现的搜索空间。

以启发式为代表的智能优化算法可以通过种群进化的方式提高簇发现过程的多样性，目前已经逐渐发展为一种有竞争力的复合物发现方法。在文献[15-17]中，蚁群算法被用来进行社区发现和蛋白质功能模块识别。遗传算法作为智能优化算法的一种，近年来已经被用来与聚类算法相融合，进行蛋白质复合物识别。2012年，Mukhopadhyay等人[18]提出了基于多目标进化的复合物识别算法PROCOMOSS（protein complex detection using multi-objective evolutionary approach based on semantic similarity），个体表示复合物（簇），用k-means算法产生初始种群，为了得到内部连通的子网络作为簇，算法仅采用变异方式使种群进化，没有使用交叉操作。2015年，Emad等人[19]用遗传算法对蛋白质互作用网络进行复合物识别，个体表示一种簇划分结果，同样也仅通过变异操作实现种群进化。2015年，Cao等人[20]提出了一种算法MOEPGA（multi-objective evolutionary programming genetic algorithm），在进化过程中抽取非支配子图作为预测簇，通过对两个有公共节点的子图添加边的方式产生变异，调整簇的结构。

以上基于种群进化方法在PPI网络中进行蛋白质复合物发现的算法中，直接进行交叉操作会产生大量的内部不连通的簇，因此大多仅采用了变异的种群进化方式。本文提出一种基于遗传算法的蛋白质复合物识别的图聚类算法GAGC（genetic algorithm based graph clustering），其中个体表示一种聚类结果（类别之间可能存在重叠节点）。首先对IPCA算法[11]进行改进产生初始种群；然后设计了基于网络对齐的交叉进化方式产生下一代种群；以F-measure值作为种群进化的目标函数。与DPClus、MCODE、IPCA、ClusterOne、HC-PIN、CFinder算法进行了对比实验，结果表明GAGC算法能够扩大图聚类算法的搜索空间，提高解的多样性，进而提高蛋白质复合物检测的性能。

2 基本概念

利用式（3），定义算法精准率如式（5）所示。

输入：图G=(V,E)，参数Tin和直径参数d，种群大小k(默认k=50)。

重复以上操作n0次，则产生了n0个个体构成的新的种群，本文取初始种群规模n0=50。

图G的顶点子集S的导出子图G[S]是由顶点集S和G中连接S中节点的边所构成的子图，即V(G[S])=S,E(G[S])={(u,v)|(u,v)∈E,u∈S,v∈S}。在不引起混淆的情况下，简记G[S]为S。

本文采用重叠分数（overlapping score，OS）[21]衡量两个子图G1和G2的相似性，定义见式（2）。显然，两个子图具有的公共节点越多，重叠分数值越高。

输入：父本染色体F和母本染色体M。

如果G1和G2表示两个蛋白质复合物，则式（2）可以用来衡量这两个复合物组成成分的相似性，其中V(Gi)表示组成复合物Gi的蛋白质集合。两个复合物拥有的公共蛋白质越多，则它们越相似。通常会设定一个阈值ω，如果OS(G1,G2)≥ω，则两个复合物是相匹配的。在蛋白质复合物识别问题中通常取ω=0.2[9-13,22]。

3 基于遗传算法的蛋白质复合物识别算法GAGC

在蛋白质互作用（PPI）网络中进行复合物识别，本质上是对PPI网络所对应的图G进行图聚类，最终所得的一个簇对应一种蛋白质复合物。图聚类作为一种NP困难的组合优化方法，使用启发式搜索方法可以保证在允许的时间内给出满意的图聚类结果，它的两个关键环节是种子节点的选择过程和簇扩展过程。遗传算法（genetic algorithm，GA）是一种有效的全局优化计算技术，采用群体搜索对当前种群采用选择、交叉、变异等基本操作，产生新一代种群，通过种群进化达到或接近最优解。本文设计了一种基于遗传算法的图聚类方法GAGC在蛋白质互作用网络中进行复合物发现。文中一条染色体（个体）对应一个可行的图聚类结果，染色体由多个相互之间有重叠的基因组成，每个基因对应一个可能的蛋白质复合物，算法主要包括初始种群优化、选择、交叉、变异等基本过程。

3.1 目标函数-个体适应度

适应度是遗传算法的重要指标，用来衡量种群中个体的优劣程度，其函数值大小影响到种群中每个个体的生存几率的大小，对算法的性能和收敛速度有很大影响。GAGC选用F-measure作为个体的适应度评价函数，其综合了精准率（Precision）和召回率（Recall）两个指标。精准率是算法正确识别的复合物数与算法得到的复合物总数之比，召回率是标准数据库中蛋白质复合物被识别的准确率，如式（3）～（7）所示。其中，重叠分数（OS）[21]计算复合物的匹配情况。通常，对于复合物P1和P2，如果OS(P1,P2)≥0.2，则可以认为两个复合物是相匹配的[9-13,22]。

酶提取法是引入菌种发酵，从酵母中培养出多糖降解酶，如纤维素酶、半纤维素酶以及果胶酶，利用这类降解酶可选择分解植物细胞组织中的复合多糖体，将植物组织中的果胶释放出来。加入合适降解酶，可显著降低提取温度、缩短提取时间，具有提取条件温和、操作安全、无污染等优点[22]。

令P表示算法得到的蛋白质复合物集合，B表示标准数据集中蛋白质复合物的集合。定义：

蛋白质互作用网络可以表示为一个简单无向图G=(V,E)，其中节点集合V表示蛋白质集合，边集E表示蛋白质之间相互作用集合。

利用式（4），定义算法召回率如式（6）所示。

根据式（5）、（6），可以得到某个体的F-measure值。

本文采用F-measure值作为算法GAGC的适应度函数来衡量个体的优劣。

3.2 初始种群产生过程

本文采用算法IPCA[11]产生一组可行的图聚类结果作为初始种群。IPCA算法首先对网络的节点权重进行定义，选择权重最大的节点作为种子节点并扩展成为簇。仅选择最大权重节点作为种子节点进行簇扩展，无法保证初始种群的多样性。因此，本文对IPCA算法进行改进，选择种子节点的过程中加入轮盘赌机制，一个节点权重越大，成为种子节点的概率越大。这样，既可以保证选择的种子节点在概率意义下有较大权重，也可以确保种子节点选择的多样性，并最终扩展得到图聚类的多个可行解作为初始种群。

初始种群的产生过程如算法1所示。

算法1初始种群构造子过程InitialPopulation

节点v的邻域Nv={u|(u,v)∈E}，定义节点v对子图K(v∉V(K))的连接概率为：

输出：初始种群P={P1,P2,…,Pk}。

步骤1 令 t=1，根据式（8）和式（9）分别计算G中边权重EW(u,v)和顶点权重NW(u)，并将顶点按权重值非递增排序。

步骤2令候选种子节点集合HS=V,Pt=∅。

步骤3若HS非空，转步骤4；若节点vi∈HS，则其被选择成为种子节点的概率是

步骤4按照轮盘赌机制选择HS中的一个节点v作为种子节点，令K={v},HS=HS-{v}。

欧阳橘红调离滨湖先到南京，偶然的机会认识了部里一个司长，半年不到就结了婚，婚后就没回南京上班了。她先在化工部当工程师，那年国务院组建石油化工集团公司，从化工部分了一批人到集团公司，她也分到了集团公司，最后在集团副总工程师的位置退休，现在还兼了两所大学客座教授。

1.3 地质背景园区地处强烈隆升的青藏高原内陆腹地、我国一级地貌单元前缘带内。受祁昌、河西系两大构造体系的复合迭加及后期燕山运动、喜马拉雅运动的活跃及其晚近期不均匀振荡运动活动的加剧，尤其是共和运动以来，黄河溯源侵蚀呈近东西向切李家峡、松坝峡而过，构成了园区一定范围内北部为侵蚀切割的黄河峡谷和南部为坎布拉构造侵蚀山地地貌景观。

鲁氏酵母菌(Zygosaccharomyces rouxii)是传统豆酱、酱油生产过程中能够产生风味的微生物，耐盐性强；产醇类、糖醇类及呋喃酮类风味物质，并与乳酸曲的代谢产物发生反应[1]，利于香气的形成；能将谷氨酰胺酶转化为底物生成谷氨酸，增强鲜味，对发酵后熟阶段中香气成分的产生具有至关重要的作用[2]。

步骤6t=t+1,如果t≤k,转步骤2；否则，结束并输出初始种群P。

3.3 选择策略

为了体现遗传算法适者生存的思想，使得优质个体参与进化，从当前种群中选择个体去产生下一代个体，此处选择适应度值较高的个体进行进化并成为下一代种群中的个体。如果单纯按照适应度值从高到低顺序选择，会降低种群的多样性，使得遗传算法早熟，因此此处采用轮盘赌方式，选择成为下一代个体的概率与节点的适应度成正比。设种群大小为n，每个个体的适应度为 fi，则i被选中的概率为。这样优秀个体会以更大概率被选择，选择的方法是：

（1）根据式计算每个个体选择概率；

《山本》作为一部追溯过去再现历史的作品，以一种古老的叙事形式展现在读者面前。而历史总是应该包括时间、空间、事件、人物等基本要素。所以，不考虑空间维度的历史性文学作品从根本上讲不应算是成功的文学作品。而历史叙事的践行从空间维度方面看具有一定的困难，即叙事困境。以叙事空间为基础更容易探寻叙事动机，发现历史叙事的场所——空间、事件和记忆。

（2）根据式依次计算每个体累积概率；

（3）在[0,1]之间产生一个随机数rand，若rand≤prob1，则个体1被选中，若 probi-1＜rand≤ probi，则选择第i个个体。

步骤5在子图K的一阶邻域NK中，如果存在节点 u满足 IN(u,K)＞Tin且 D(G[K⋃{v}])≤ d，则令 K=K⋃{u}和 HS=HS-{u}，转步骤5；若不存在节点 u，令pt=pt⋃{K}，转步骤3。

子图K直径D(K)表示子图K中任意一对节点之间最短路径的最大长度，子图K的一阶邻域定义为

除此之外，为了保留每一代种群中的最优个体，在产生了新的用于进化下一代的种群后，如果当前种群中的最优个体的适应度值低于上一代最优个体的适应度值，则使用上一代中的最优个体替换当前所选种群中的最差个体。

为了适应支持向量机的对数据的要求，减少误差，进而更加准确的进行采购量预测，采用极差变换法分别对数据按照下列步骤进行归一化处理：

3.4 基于染色体对齐的交叉策略

交叉操作是遗传算法中最重要也是最基本的遗传操作。本文算法中，如果直接选择两个染色体进行交叉，可能使得交叉结果中存在大量节点没有簇归属，影响聚类效果。为了更有效地进行交叉操作，本文算法首先根据重叠分数将两个染色体中的基因对齐，使两个等位基因表示的子图有比较多的重复节点。交叉操作应该在等位基因上进行，这样可以尽可能保证基因交叉后产生的新子图是连通的。

3.4.1 染色体对齐机制

GAGC算法中的一个染色体（个体）代表一个图聚类结果，染色体的每个基因代表一个簇，即一个顶点子集。此处采用式（2）定义的重叠分数OS作为两条染色体对齐的依据。

设S=(s1s2…sx)和R=(r1r2…ry)是两个长度分别为x和y的染色体。首先构造S和R的相似矩阵Mx×y,其元素mi,j=OS(si,rj)。

不失一般性，假设x≥y，具体算法描述如下。

染色体对齐算法Alignment(S,R,x,y)：

1.ints1[x],r1[y];//初始化为0

2.For(i=1;i＜=x;i++)

3.{

4.intmaxi=0;

5.For(j=1;j＜=y;j++)

6.{k=0;

7. if(OS(s[i],r[j])＞maxi&&r1[j]==0)

8. {maxi=OS(s[i],r[j]);k=j;}

9.}

10.if(maxi＞=0.8){s1[i]=k;r1[k]=1;}

11.}

12.For(j=1;j＜=x;j++)

农林间作是根据社会与经济可持续发展的需要，应用生态学原理，将农业和林业两种产业的主要栽培物种有机排列进行间作而组成的一种农林复合模式[1]。农林间作不仅能够减少水土流失，降低风速，改善小气候，提高水分利用率，提高生产力，还能够充分利用自然资源，实现农业的可持续发展[2-3]。

13.if(s1[j]!=0)tempr[j]=r[s1[j]];

14.For(j=1;j＜=y;j++)

15.r[j]=tempr[j];

选择两条染色体中长度较长的染色体（假设为染色体s）作为参照染色体，对s的每一个基因si，在染色体r中选择未被使用过的OS(si,rj)≥0.8且重叠分数最大的基因作为si的等位基因。如果等位基因不存在，则用空位表示。

对图1（1）中的染色体1和染色体2执行对齐操作的过程如下。

首先，根据重叠分数定义，构建两个染色体的相似矩阵M：然后，以较长的染色体1为参照，进行对齐。对染色体1的每个基因 pi，遍历相似矩阵，得到与该基因重叠分数值最高且尚未对齐的染色体2中的基因q，称q为 pi的等位基因。将q在染色体2中移动到与pi对应的位置。

如果染色体1中某个基因无法在染色体2中找到等位基因，则将其移动到染色体1的末尾位置。

搭建悬臂式掘进机可视化辅助截割系统试验平台如图7所示。掘进机样机与EBZ160型掘进机尺寸比例为5∶1；16点红外LED标靶固定在掘进机的截割臂上；摄像机采用MV-EM130M工业相机并装有850 nm的窄波滤镜；超声波传感器采用GUC6矿用本安型超声波物位传感器，计算机采用KJD127矿用隔爆兼本安型计算机。

图1（2）给出了两个染色体对齐后的结果图。

汶泗大汶口文化普遍流行成年人拔除左右上侧门齿的习惯，而且墓葬流行陪葬獐牙。傅家遗址聚落群的发掘资料中，仅五村遗址有一例拔除左右上侧门齿。这与汶泗大汶口文化习俗有较大差异。

3.4.2 交叉策略

遗传算法的交叉机制是优化的关键环节。为了扩大可行解的搜索空间，增加个体多样性，GAGC算法主要通过交叉操作改变染色体上的等位基因（复合物）。本文选用传统遗传算法的单点交叉机制，交叉时每次都以种群中具有最高适应度的个体作为父本，从剩余的个体中随机选择母本与其进行交叉。交叉方式为：首先将选择的两个个体染色体对齐，然后随机产生一个交叉位，个体染色体交叉位前后互换染色体片段，即等位基因互换。如图2所示，来自父本的染色体和来自母本的染色体交叉时，产生的交叉点为染色体的位置1，此时将父本与母本的染色体交叉位置之后的染色体片段互换，形成两个新的子代。

交叉算法过程如算法2所示。

例4 (改编题)水银法电解食盐水曾是氯碱工业发展进程中的重要里程碑,以制得碱液纯度高、质量好著称,其生产原理如图4所示。

算法2交叉子过程GAGC-CROSSOVER

水瓶座的男生内心世界极为错综复杂，很难理解。你给人的表象是朴实爽直，但内在心理总是在悖论和矛盾的境界中徘徊。一般地说，你对人热忱，愿意帮助人。但在某些特殊的情况下，你也会表现得异常冷漠和不近人情。

输出：新的染色体son1、son2。

步骤1按照轮盘赌方式选择当前种群个体适应度最高的个体作为父本F，再从当代种群中随机选择另外一个个体作为母本M。

步骤2对M和F执行染色体对齐算法Alignment。

步骤3随机产生一个交叉点T；交换两条染色体T位置之前和之后的基因（复合物）。

图2给出了父本和母本交叉操作示意图。

3.5 变异策略

Fig.1 Schematic diagram of chromosome alignment图1 染色体对齐示意图

交叉操作产生的子代个体除了继承父代个体的信息外，还会按一定的概率发生变异，这体现了生物遗传的多样性。变异操作是以固定概率Pm进行的。变异时，首先随机产生一个变异位，对应于该染色体上的一个基因（簇）C。随机选择该复合物中的一个蛋白质g，考虑g在对应互作用网络中的邻域Ng。若Ng-C≠∅，则随机选择节点v∈Ng-C，将v加入该复合物中；如果Ng-C=∅，则删除g。图3给出了某蛋白质的变异过程示意图。

3-4人组成一个项目开发小组。在项目训练过程中，学生体验、感受、领悟新知识，遇到问题可以和其他项目组学生共同研讨，也可向教师请教，对于学生的共性问题，教师可以统一示范，集体解决。如实际动手制作网线时，学生容易出现剪线不齐导致两端指示灯不亮的问题。教师在回答学生问题时，需要给学生讲解清楚原理，点拨理论知识的同时，引导学生思考，让学生学会举一反三。

Fig.2 Schematic diagram of crossover operation图2 交叉操作示意图

Fig.3 Schematic diagram of variation operation图3 变异操作示意图

3.6 基于遗传算法的图聚类算法GAGC

GAGC算法的流程如下所示。

酱油加工过程中经过蒸煮、发酵、灭菌等工艺，且产品均为高盐高渗透压，个别产品菌落总数污染水平较高，检出金黄色葡萄球菌和沙门氏菌，提示相关企业加工过程的卫生学控制存在问题，尤其是可直接食用(凉拌)的餐桌酱油的污染对人体的健康风险值得关注。

算法3基于遗传算法的蛋白质复合物识别图聚类算法GAGC

输入：G=(V,E),种群规模n0=50,k=100,Pm=0.3(变异率)，最大迭代次数y=50。

输出：复合物集合C。

令t=0;

步骤1使用算法InitialPopulation产生100个初始个体。

步骤2执行3.3节所述的选择策略，选择n0个个体作为当前种群。

步骤3在当前种群中，执行n0次交叉操作GAGC-GROSSCOVER，产生2n0个子代个体。

步骤4对每个子代个体，随机产生（0,1）的数Rf，如果Rf＜Pm,则该个体执行变异操作。

步骤5t=t+1，若 t＜y，则转步骤2。

步骤6输出当前种群最优个体C作为最终聚类结果。

4 实验结果与分析

4.1 实验数据和评价标准

本文互作用网络数据来自于DIP[23]和GAVIN[24]两个酿酒酵母蛋白质互作用网络，在移除自环和重复的互作用后，DIP网络最终包含4 930个节点和17 201条边，GAVIN数据集包括1 430个节点和6 531条边。采用的复合物标准集为CYC2008[25]标准集，其中包含由1 628个蛋白质构成的408个蛋白质复合物。

为了评估算法检测出的蛋白质的性能，本文采用重叠分数OS、精准率、召回率和F-measure指标进行算法评价。其中重叠分数OS是用来衡量两个复合物的匹配效果的度量方式。以上4种评价方式在个体适应度计算模块中均已介绍。除此之外，选用Accuracy作为算法的评价指标。Accuracy由敏感度（Sn）和真阳性预测值（PPV）构成。敏感度（Sn）表示识别的在标准复合物中覆盖蛋白质的多少，真阳性预测值（PPV）表示识别的蛋白质复合物成为真阳性的可能性。其定义如下：

其中，n表示标准集中复合物的个数；m表示算法识别的复合物个数；Tij表示第i个标准复合物与第 j个算法所识别的复合物之间公共蛋白质数目。

4.2 实验结果

为了分析加入遗传算法的GAGC与IPCA的效果。本文分别比较了两个算法在Tin取值0.1至0.9时F-measure和Precision的变化曲线图。从图4和图5中可知，两个算法Tin的变化趋势大致相同，在Tin为0.5时，二者的F-measure均达到最大值，在Tin为0.4时，二者的Precision均达到最大值，但GAGC在不同参数的Precision和F-measure值均高于IPCA的取值，并且在F-measure值上提升近5%，在Precision值上提升近10%。这也就表明了加入遗传算法对IPCA的改进效果是明显的。在GAVIN数据上F-measure值和Precision如图4和图5所示。

Fig.4 F-measurevalues of GAGC and IPCAon GAVIN data图4GAGC与IPCA在GAVIN数据上的F-measure值

Fig.5 Precisionvalues of GAGC and IPCAon GAVIN data图5GAGC与IPCA在GAVIN数据上的Precision值

Table 1 Performance comparison of different methods with GAGC on GAVIN data表1 几种算法与GAGC算法在GAVIN数据上的对比分析

Algorithm GAGC IPCA DPClus MCODE CFinder HC-PIN ClusterOne Complex number 785±5 780 286 66 98 136 232 Ncp Ncb 374±6 336 143 41 63 90 143 187±1 187 152 46 75 120 147 Recall 0.458 33±0.000 6 0.458 33 0.372 54 0.112 74 0.183 82 0.294 11 0.360 29 Precision 0.477 33±0.006 9 0.430 76 0.500 00 0.621 21 0.642 85 0.661 76 0.616 37 F-measure 0.467 52±0.003 3 0.444 12 0.426 96 0.190 85 0.285 89 0.407 24 0.454 76 Sn 0.457 29±0.001 4 0.457 29 0.375 52 0.277 08 0.512 50 0.464 58 0.446 87 PPV 0.564 62±0.005 4 0.555 76 0.652 46 0.512 52 0.342 50 0.544 77 0.632 52 Accuracy 0.506 48±0.002 4 0.503 85 0.494 98 0.376 84 0.418 96 0.503 08 0.531 65

为了分析GAGC算法的性能，本文对比了DPClus、MCODE、IPCA、HC-PIN、ClusterOne、CFinder算法在DIP数据和GAVIN数据上的8个指标 Ncb、Ncp、Precision、Recall、F-measure、Sn、PPV、Accuracy的值。这里GAGC和IPCA的参数Tin=0.5，其他算法的参数根据作者给定的最优参数值。由于遗传算法是一种随机算法，这里GAGC在相同参数下重复进行30次实验，计算每个指标的均值与标准差，与其他算法进行对比，结果如表1和表2所示。从表1、表2可知GAGC在Recall上与IPCA相同，均为最高，并且在F-measure值上GAGC高于IPCA、DPClus、MCODE、CFinder、HC-PIN、ClusterOne算法，但精准率相对较低。其主要原因为GAGC算法在发现蛋白质复合物时并未进行后期的处理，即将所聚类的簇都看作是蛋白质复合物，这样就会导致算法产生的蛋白质复合物数目偏大，从而精确率会低于其他算法。并且在其他3个指标上，GAGC也与其他6种算法效果相当。

Table 2 Performance comparison of different methods with GAGC on DIP data表2 几种算法与GAGC算法在DIP数据上的对比分析

Algorithm GAGC IPCA DPClus MCODE CFinder HC-PIN ClusterOne Complex number 3 875±3 3 688 1 184 58 243 497 599 Ncp Ncb 882±5 803 255 33 94 100 162 341±1 339 261 38 102 116 152 Recall 0.835 29±0.001 0 0.830 88 0.639 70 0.093 13 0.250 00 0.284 31 0.372 54 Precision 0.227 71±0.001 2 0.217 73 0.215 37 0.559 32 0.385 24 0.201 20 0.270 45 F-measure 0.357 87±0.001 5 0.345 04 0.322 25 0.159 68 0.303 22 0.235 64 0.313 39 Sn 0.574 84±0.000 9 0.575 00 0.459 37 0.286 45 0.641 14 0.617 18 0.362 50 PPV 0.523 91±0.003 3 0.516 67 0.659 57 0.301 31 0.293 94 0.354 69 0.716 19 Accuracy 0.548 78±0.001 8 0.545 06 0.550 44 0.293 79 0.434 12 0.467 88 0.509 52

5 结束语

本文提出了一种基于遗传算法的蛋白质复合物识别算法GAGC。为了扩大算法的搜索空间，首先改进了IPCA算法，产生初始种群；为了能够将遗传算法的交叉操作运用到复合物识别中，设计了基于重叠分数OS的染色体对齐方式；然后通过设计交叉方式，扩大簇形成的搜索空间，从而提高算法识别蛋白质复合物的精度。该算法框架也可以扩展到其他聚类算法，通过选择合适的适应度函数，提升聚类算法的性能。

References:

[1]Garrels J I.Yeast genomic databases and the challenge of the post-genomic era[J].Functional&Integrative Genomics,2002,2(4):212-237.

[2]Guo Maozu,Dai Qiguo,Xu Liqiu,et al.On protein complexes identifying algorithm based on the novel modularity function[J].Journal of Computer Research and Development,2014,51(10):2178-2186.

[3]Spirin V,Mirny LA.Protein complexes and functional modules in molecular networks[J].Proceedings of the National Academy of Sciences,2003,100(21):12123-12128.

[4]Yu Liang,Gao Lin,Sun Penggang.Research on algorithms for complexes and functional modules prediction in proteinprotein interaction networks[J].Chinese Journal of Computers,2011,34(7):1239-1251.

[5]Li Xueyong,Wang Jianxin,Zhao Bihai,et al.Identification of protein complexes from multi-relationship protein interaction networks[J].Human Genomics,2016,10(S2):61-70.

[6]Li Min,Wu Xuehong,Wang Jianxin,et al.Towards the identification of protein complexes and functional modules by integrating PPI network and gene expression data[J].BMC Bioinformatics,2012,13(1):1-15.

[7]Palla G,Derényi I,Farkas I,et al.Uncovering the overlapping community structure of complex networks in nature and society[J].Nature,2005,435(7043):814-818.

[8]Adamcsek B,Palla G,Farkas I J,et al.CFinder:locating cliques and overlapping modules in biological networks[J].Bioinformatics,2006,22(8):1021-1023.

[9]Liu Binbin,Li Min,Wang Jianxin,et al.An algorithm for identifying protein complexes based on clique percolation and distance restriction[J].System Engineering-Theory and Practice,2012,32(2):389-397.

[10]Bader G D,Hogue C W V.An automated method for finding molecular complexes in large protein interaction networks[J].BMC Bioinformatics,2003,4(2):20-29.

[11]Li Min,Chen Jian'er,Wang Jianxin,et al.Modifying the DPClus algorithm for identifying protein complexes based on new topological structures[J].BMC Bioinformatics,2008,9(1):1-16.

[12]Altaf-Ul-Amin M,Shinbo Y,Mihara K,et al.Development and implementation of an algorithm for detection of protein complexes in large interaction networks[J].BMC Bioinformatics,2006,7(1):207-219.

[13]Wang Jianxin,Li Min,Chen Jian'er,et al.A fast hierarchical clustering algorithm for functional modules discovery in protein interaction networks[J].IEEE/ACM Transactions on Com-putational Biology&Bioinformatics,2011,8(3):607-620.

[14]Nepusz T,Yu Haiyuan,Paccanaro A.Detecting overlapping protein complexes in protein-protein interaction networks[J].Nature Methods,2012,9(5):471-476.

[15]Liu Yan,Wang Qingxian,Wang Qiang,et al.Email community detection using artificial ant colony clustering[C]//LNCS 4537:Proceedings of the 2007 International Workshops Advances in Web and Network Technologies,and Information Management,Huangshan,Jun 16-18,2007.Berlin,Heidelberg:Springer,2007:287-298.

[16]Ji Junzhong,Liu Zhijun,Zhang Aidong,et al.HAM-FMD:mining functional modules in protein-protein interaction networks using ant colony optimization and multi-agent evolution[J].Neurocomputing,2013,121(18):453-469.

[17]Chang Honghao,Feng Zuren,Ren Zhigang.Community detection using ant colony optimization[C]//Proceedings of the 2013 IEEE Congress on Evolutionary Computation,Cancun,Jun 20-23,2013.Piscataway:IEEE,2013:3072-3078.

[18]Mukhopadhyay A,Ray S,De M.Detecting protein complexes in a PPI network:a gene ontology based multi-objective evolutionary approach[J].Molecular Biosystems,2012,8(11):3036-3048.

[19]Emad R,Ahmed N,Moataz A.Protein complexes predictions within protein interaction networks using genetic algorithms[J].BMC Bioinformatics,2016,17(S7):481-543.

[20]Cao Buwen,Luo Jiawei,Liang Cheng,et al.MOEPGA:a novel method to detect protein complexes in yeast proteinprotein interaction networks based on multiobjective evolutionary programming genetic algorithm[J].Computational Biology&Chemistry,2015,58:173-181.

[21]Brohée S,Helden J V.Evaluation of clustering algorithms for protein-protein interaction networks[J].BMC Bioinformatics,2006,7(1):1-19.

[22]Wang Jianxin,Peng Xiaoqing,Li Min,et al.Construction and application of dynamic protein interaction network based on time course gene expression data[J].Proteomics,2013,13(2):301-312.

[23]Xenarios I,Salwínski L,Duan X J,et al.DIP,the database of interacting proteins:a research tool for studying cellular networks of protein interactions[J].Nucleic Acids Research,2002,30(1):303-305.

[24]Gavin A C,Aloy P,Grandi P,et al.Proteome survey reveals modularity of the yeast cell machinery[J].Nature,2006,440(7084):631-636.

[25]Pu Shuye,Wong J,Turner B,et al.Up-to-date catalogues of yeast protein complexes[J].Nucleic Acids Research,2009,37(3):825-831.

附中文参考文献：

[2]郭茂祖,代启国,徐立秋,等.一种蛋白质复合体模块度函数及其识别算法[J].计算机研究与发展,2014,51(10):2178-2186.

[4]鱼亮,高琳,孙鹏岗.蛋白质网络中复合体和功能模块预测算法研究[J].计算机学报,2011,34(7):1239-1251.

[9]刘彬彬,李敏,王建新,等.基于团渗透和距离限制的蛋白质复合物识别算法[J].系统工程理论与实践,2012,32(2):389-397.

作者

郑文萍，李晋玉，王杰

出处

《计算机科学与探索》 2018年第05期

上一篇：大规模核方法的随机假设空间方法*

下一篇：图联盟结构核的求解算法*

《计算机科学与探索》2018年第05期文献

网络安全日志可视化分析研究进展* 作者：张胜，赵珏，陈荣元

改进的卷积神经网络关系分类方法研究* 作者：李博，赵翔，王帅，葛斌，肖卫东

改进的卷积神经网络在行人检测中的应用* 作者：谢林江，季桂树，彭清，罗恩韬

支持访问目的与信誉度标注的隐私保护方法* 作者：陶灵灵，黄志球，曹彦，张梦娇

在线招聘场景下的简历活跃度预测* 作者：史舒扬，张智鹏，郭龙，邵蓥侠，崔斌

话题感知下的跨社交网络影响力最大化分析* 作者：任思禹，申德荣，寇月，聂铁铮，于戈

单层网络目标控制的多属性决策方法* 作者：杜亚星，鲁富荣，仇智鹏，钱宇华

移动医疗中个性化l-多样性匿名隐私保护模型* 作者：李文，黄丽韶，罗恩韬

2018年全国高性能计算学术年会（HPC CHINA 2018）征文通知 2009/03/28

机会路由算法中层次化的辅助信息获取机制* 作者：宋明阳，袁培燕

基于手机通话网络的人类交互行为分析作者：李凯，张锡哲，申毓佩，陈恩红

大规模核方法的随机假设空间方法* 作者：冯昌，廖士中

基于遗传算法的蛋白质复合物识别算法* 作者：郑文萍，李晋玉，王杰

图联盟结构核的求解算法* 作者：尚传启，刘惊雷

ELM优化的深度自编码分类算法* 作者：徐毅，董晴，戴鑫，宋威

犹豫模糊信息下的协相关度与聚类分析* 作者：汪峰，毛军军，祖璇，邹斌

多重代价多粒度决策粗糙集模型研究* 作者：陈家俊，徐华丽，魏赟

杂志信息网