更全的杂志信息网

应用属性约简构建含有缺失数据的谱系树

更新时间:2009-03-28

1 引言

随着生物信息学的发展,谱系树的构建已成为生物信息学重要的组成部分。通过对谱系演化树的研究,可以推测生物进化模型,进行生物差异性研究。目前国内外常用的运用形态学数据构建谱系树的方法有邻接法[1]、最大简约法与贝叶斯法[2],其中最大简约法是生物进化研究中重要的分析方法,对于处理复杂的生物演化过程有着重要的意义[3]

最大简约法(Maximum parsimony)是基于奥卡姆剃刀原则(Occam’srazor)发展起来的一种谱系树重构方法,基本思想是认为物种之间真实的进化关系应该演化步骤最少[4]。最大简约法首先由Camin&Sokal提出[5],在Hein的研究推广下得到了极大地发展和应用[6-7]。然而,随着生物属性数量的增加,谱系树可能的拓扑结构呈现爆炸式的增长,启发式寻优应运而生[1]。然而简约法启发式搜索可能会产生多棵简约树,此时通常选取一棵能概括这些简约树的一致树作为代表[8],将最大简约法提升到了新的高度。

但是,随着生物属性缺失数据比例的增加,最大简约法中的启发式查找的范围不断扩大,造成谱系树的结构极其不稳定。最大简约法在构建含有缺失数据的谱系树时会出现两个问题:(1)物种中的缺失数据的出现会导致其在谱系树中位置的准确率大大降低;(2)缺失数据物种中的缺失值对谱系树中其他物种的种间关系产生影响[9]。并且生物形态学数据集一般为小样本数据,由于数据量少而无法进行回归分析,对缺失数据的预测填补不具有统计正确性,阻碍着生物类群谱系树构建的研究和发展[10]

谱系树是一种树状结构的层次化分类模型,在谱系树中出现分支时可以把生物物种对应地分类成若干个集合。属性约简是处理分类模型重要的分析方法[11],同时也是一种处理缺失数据的常用方法。属性约简是在保证分类能力不变的情况下,删除其中不相关或不重要的属性,大大提高系统潜在知识的清晰度[12]。从而用最简约的属性保障分类能力,进而在出现缺失数据时保持分类的稳定性。

原文:http://www.dpm.org.cn/collection/ceramic/226720.html?hl=%E8%B1%A1%E8%80%B3%E8%BD%AC%E5%BF%83%E7%93%B6

从图6~8中的结果可以看出,本论文提出的方法相比较最大简约法,得出了更加接近标准谱系树的结果。而进行缺失数据处理运用最大简约法得出的树不仅使得T.marocana物种的种间关系产生紊乱,如图8实线框部分,而且还影响了其他样本的种间关系如图8虚线框部分。

2 应用属性约简构建含有缺失数据的谱系树

为了完成含有大量缺失信息的谱系树构建,基本思路是:首先,将数据集划分为两个部分,一部分为缺失比例较低的物种集,作为初始物种集,运用最大简约法构建可信度较高的初始谱系树。另一部分为缺失比例较高的物种,做为待嫁接的物种,接入谱系树中,最终完成整体谱系树的构建。

2.1 初始谱系树的构建以及节点的建立

首先,本文提出在生物形态学数据集中,将不含缺失数据或者含有少量缺失数据的物种提出来合并成一个数据集,运用最大简约法构建可信度较高的初始谱系树,或根据研究者自己已有的先验知识构建初始谱系树。

两者同样是水资源方面的内容,同样与“规划”二字挂钩,同样需要通过水资源承载能力分析、水资源优化配置提出相应分析结论,在实际操作中,会出现两者概念重叠的“错觉”。

其次,对初始谱系树中出现分支的地方建立节点。如图1中的N1~N4。初始谱系树的末端为参与构建谱系树的物种,如图1中的A~E。每个节点处都有着从属于当前节点的物种集合,并且把从属物种分为几类。

  

图1 初始谱系树分支节点的建立

在图1中,圆表示节点,方框表示物种。根据图中的4个分支分别建立分支节点,标号依次为N1、N2、N3、N4,每个分支节点都有着从属于该节点的物种。在N1节点处,从属物种为A、B、C、D、E,由节点处的分支可把从属物种分为两类,A为一类,B、C、D、E为一类。而N2节点下的从属物种为B、C、D、E,则把从属物种分为B、C以及D、E两类。在N3和N4节点处从属物种分别为B、C和D、E。两个节点亦被分为两类,N3节点为B一类以及C一类,N4节点为D一类和E一类。

2.2 应用属性约简构建先验决策模型

利用构建好的初始谱系树,确定分支节点后,将当前节点的从属物种分类标签和从属物种属性作为一个决策表。决策表是一类特殊而重要的知识表达系统,有着重要的作用[13]。对决策表进行属性约简进而产生属性决策组,多次建立属性决策组完成决策点的建立。通过对谱系树中的每个节点对应决策点的建立,最终建立先验决策模型。基本流程如图2所示。

2.2.1 节点对应决策点的建立

  

图2 基于初始谱系树的先验决策模型构建流程

将节点从属物种属性集合与分类标签看作决策表,进行一次属性约简,并没有充分地利用先验信息。并且单一属性决策组很容易因缺失数据的出现使得当前决策失效。因此多次进行属性约简操作并得到属性决策组集合,以此作为当前决策点的决策判断依据。

算法说明:C={ai,i=1,2,…,m}称为节点从属物种形态学属性集,D={di,i=1,2,…,n}称为节点从属物种类标签属性集。对整个条件属性集进行约简,利用正区域的启发式信息逐步将该集合中不必要的属性约去,但仍满足当前决策点的分类,得到的属性约简组,即属性决策组Reduct1,剔除原来属性集合中参与建立属性决策组的属性,对剩余的条件属性集继续进行属性约简并得到相应的Reducti,直到条件属性集不能再构建属性决策组为止。具体的算法描述如下:

输入:节点从属物种信息系统决策表。

用扫描电子显微镜测试4种喷墨打印纸的表面微观结构,并以纸张的扫描电镜(SEM)图和青色油墨网点的平均直径为质量标准,检验纸张质量的优劣性,并与模型评价结果进行对比,以检验模型的合理性。

输出:属性决策组集合reducti(i=1,2,…,n)。

步骤1计算决策点从属物种分类属性D对于从属物种属性C的正区域POSc(D)。

步骤2对每个当前节点从属物种属性ai计算pos=POSC(D)-POS(c-{ai})(D)。

步骤3令Reduct=C;将属性ai按 pos从小到大的顺序排列,对每个属性执行操作;若POS(Reduct-{ai})(D)=POSC(D),则属性 ai应约简,Reduct=Reduct-{ai};否则ai不能被约简,Reduct不变。

步骤4得到属性决策组Reducti,对参与建立属性决策组的属性进行剔除,即residue=C-Reducti

近年来,CT筛查和体检发现GGN的人越来越多,给患者造成严重的心理负担和经济负担。诊断肺GGN时应遵循指南的建议,以期尽早发现恶性结节使患者早期接受治疗,同时又要尽力避免让良性结节患者接受过度治疗。合理处理肺GGN不仅具有一定医学科学方面的挑战性,也具有社会责任方面的挑战性,同时对患者本身、社会资源及医疗资源的合理利用具有重要的意义。

2.2.4 各年恶性疟变化情况 2007-2017年报告恶性疟1 165例,2007年最多,之后逐年下降,至2017年仅1例,见图2。

步骤6执行步骤1,建立决策点的多属性组reducti(i=1,2,…,n)直到C条件属性集无法构建属性决策组为止。

傣族织锦在长期的历史发展过程中,在纹样的构成上形成了相对固定的形式,并蕴含深厚的文化内涵,而这些纹样构成形式都可以重新提取应用在现代服饰图案设计中。将传统织锦纹样按照新的构思重新组合,或者加入新的时代元素,创造出具有新的内涵的现代图案,以形成全新的视觉效果。其次傣族织锦的创新应用也可以根据自己的意图可结合不同的工艺技法如绣法、针法、线型等装饰工艺进行再整合,或结合不同肌理的面料进行设计,增强服装的层次感,创造出新的服装设计的视觉效果。

通过对节点从属物种决策表进行多次属性约简,进而构建属性决策组集合,得到与节点对应的决策点,最终构建出决策点模型,如图3所示,reduct1到reductn为决策点中的属性决策组集合。

  

图3 决策点模型

2.2.2 基于决策点的先验决策模型构建

从年龄方面来看,年轻人更愿意乘坐飞机,年纪较大的人则更倾向于选择高铁,年纪较大的人可能会有一些身体健康问题,不适合乘坐飞机,乘坐高铁也比较方便。年纪大些的人时间可能比较充足,可以花费一些时间,而不愿意花费更多的金钱。在时间的选择方面,乘坐高铁出行的,大约选择上午这个时间段,而选择民航出行的,大多集中在下午的时间段。

对初始谱系树中的每个节点建立对应决策点,进而获得初始谱系树的决策先验模型,模型的树状拓扑结构与初始谱系树的结构一致,如图4所示,图中的圆表示决策点,方框表示物种。

  

图4 初始谱系树先验决策模型

为了评价生成谱系树的准确性,本文提出一种基于单个物种节点路径的准确率判定方法,以谱系树嫁接物种的种间关系作为评价标准,能充分说明在嫁接物种后谱系树的树形结构变化。以嫁接物种为基准,说明嫁接物种与初始谱系树中物种间的树形结构关系。

2.3 基于先验决策模型的含有缺失数据谱系树构建

先验决策模型的构建利用了初始谱系树中物种间进化关系的先验信息,将初始谱系树转换为了一个层次化结构的分类器。将含有较多缺失数据的嫁接物种带入到先验决策模型分类器中,自根决策点出发,逐层地进行决策点嫁接物种归属的判断。由于缺失数据的出现,在判断的过程中会使当前决策点的某些决策属性组判断失效,则判定其无法判断物种归属,进而依据其他的完整数据进行决策属性组物种归属判断。

这里设属于A树的属性组数为m,属于B树的属性组数为n。

步骤1初始状态令m=0,n=0。

1991年,Anderson[15]根据硫酸盐含量较高的地层水与来自储层的甲烷气体的高温反应,得到式(5)和式(6)。式中,Me为二价金属离子。

步骤2通过对嫁接物种在决策点中的每个属性组的属性比对,如在对应子树出现相同属性组,则判定属于A树或者属于B树,并对归属属性组数进行累加。

步骤3如果既不属于A树也不属于B树,或者因缺失数据而导致无法判断归属,则m、n不进行累加。

步骤4完成每个属性组的归属判断后,最终得出嫁接物种子树归属的属性组数m、n。则嫁接物种决策点归属判断策略为:

 

按照上述决策点判断策略,嫁接物种从先验决策模型的根决策点开始判断归属,认定归属于A子树或者B子树后,针对归属子树的根决策点继续进行归属判断。反复执行此操作直到停止判断。

嫁接物种停止判断后,该物种在先验决策模型中的判断历程结束,进行嫁接物种嫁接过程。将嫁接物种嫁接在最终到达的决策点对应的初始谱系树节点中。嫁接物种嫁接子树过程如图5所示,在P决策点停止判断归属历程,并嫁接在P决策点对应的初始谱系树中的节点N上,成为初始谱系树的新分支。

  

图5 初始谱系树节点建立分支示意图

3 实验结果和分析

对物种T.marocana的形态学数据进行随机缺失处理,数据缺失率为30%,运用本论文提出的方法构建谱系树如图7所示。嫁接点为实心圆处。

听力训练应该循序渐进,在时间上具有延续性,在难度上有梯度性,阶段突破与系统提高相结合。教师应该有个总的系统计划,然后拆分成一个个阶段性的目标。

3.1 实验数据集

实验对象选取了利用形态学构建谱系树的已发表论文中的三个数据集[14-16],数据集中的形态学编码:0为原始性状,1为进化性状。有些性状为多态性状,则连续的编码为2、3。多态性状均为无序性状,在无序性状中任何两个状态的性状距离是相等的,例如0~1和0~2之间的进化距离都为1,为缺失性状,即不明性状。

3.2 单个物种嫁接实验及对比分析

以Palaearctic parasite species of Testudinidae数据集为例来说明实验过程。首先构建用来评价的标准谱系树,结果如图6所示。

  

图6 《Palaearctic parasite species of Testudinidae》标准谱系树

本文采取的实验环境:Windows 7,8 GB内存,编程语言是MATLAB。为了验证本文方法的有效性,实验运用不含缺失数据或者含有少量缺失数据的具有明确谱系的生物形态学数据集作为实验数据集,对其中的物种进行随机数据缺失处理,运用本论文提出的方法与最大简约法谱系树进行实验对比得出结论。

  

图7 《Palaearctic parasite species of Testudinidae》本文方法构建的谱系树

本方法的对比实验是将含有缺失比例为30%的物种T.marocana与其他24个物种运用最大简约法构建谱系树。构建的谱系树如图8所示。

  

图8 《Palaearctic parasite species of Testudinidae》最大简约法构建的谱系树

本文针对含有缺失形态学数据难以建立有效谱系树的问题,提出应用属性约简构建含有缺失数据谱系树的方法。首先,利用相对完整的物种数据运用最大简约法构建出一棵初始谱系树;其次,对初始谱系树构造层次化分类节点,运用属性约简获得属性决策组集合,进而建立基于初始谱系树的先验决策模型;接着,将有缺失信息的物种嫁接到初始谱系树中,完成谱系树的构建。本方法主要特色为:一方面利用了初始谱系树的先验信息,提高了含有缺失数据的物种在谱系树中的准确率;另一方面,避免了缺失数据物种对完整数据构建谱系树的稳定性影响。

3.3 方法可靠性验证及分析

为了进一步说明本方法的优势,选取三个数据集,分别为 Palaearctic parasite species of Testudinidae、菜花露尾甲属和木槿属形态学数据集[14-16]进行实验。提出了一种基于路径的物种准确率计算方法,并对每个物种集中的每个物种进行上述实验,求得当前缺失比例下的平均准确率,缺失率实验点为0%~70%。

脑动脉瘤为一种常见的颅内血管病变疾病,动脉瘤未破裂前大多数患者症状不显著,均在第一次动脉瘤破裂出血后发现。为避免第二次、第三次的破裂出血危及患者生命安全,第一次发现出血后应及时采取手术治疗。由于疾病突然性及患者缺乏对于手术了解使得产生恐惧、抗拒等心理行为,需要给予患者护理干预。现报告如下。

3.3.1 物种准确率计算方法

图2中初始谱系树共有4个节点,对应建立的决策点为图4中的P1、P2、P3、P4。决策模型结构的末端为物种,与图2中物种对应,为A、B、C、D、E。

以嫁接物种为基准,从根节点到嫁接物种的最后一个嫁接节点构建一个物种序列,每次遇到节点时构建的序列为当前节点另一分支的物种编号集合。以图2中的谱系树为标准,建立以E物种为基准的物种序列,节点路径依次为1、2、4,则物种的序列对应为(((A)B,C)D)。

以未经过缺失数据处理的物种运用最大简约法构建的谱系树做为标准,建立该物种的序列,称为标准序列。对该物种进行属性随机缺失处理后,分别运用本论文方法和最大简约法生成新树,并分别建立该物种的序列,并与标准序列进行比对。与标准序列匹配的物种个数称为路径匹配物种数,标准序列物种总数称为路径物种总数。则准确率的计算公式为:

 

3.3.2 验证过程

依次统计本文方法与最大简约法生成树的每个物种的准确率,进而求得两种方法在此缺失率下的所有物种的平均准确率。在此基础上对数据集中的数据继续进行随机缺失处理并逐步提高缺失数据率,数据缺失率实验点分别为0%、10%、20%、30%、40%、50%、60%、70%。

将数据集中的嫁接物种进行随机缺失处理,利用文中提出的方法与最大简约法构建的谱系树进行准确率比较。在图9~11中,横坐标表示物种的缺失数据比例,从0%到70%。纵坐标表示物种的平均准确率。

  

图9 木槿属缺失数据比例与物种平均准确率

  

图10 菜花露尾甲属缺失数据比例与物种平均准确率

  

图11 《Palaearctic parasite species of Testudinidae》缺失数据比例与物种平均准确率

3.3.3 结果分析

从以上实验结果可以看出,相比最大简约法构建的谱系树,本论文提出方法可以更准确地预测含有缺失数据物种所在谱系树中的位置。缺失数据比例超过10%时,本方法构建的谱系树中的样本准确率明显地高于最大简约法。

步骤5把剩余条件属性集residue赋予C,即C=residue。

当缺失数据比例大于10%时,本文提出的方法在实验过程中随着缺失数据比例的不断上升,某些个别物种会出现表现不佳的情况,这时最大简约法的表现也随着降低。最大简约法在某些个别物种上的表现优于本论文提出的方法,但是总体物种的平均准确率却比本论文的方法低。

图9和图11中,缺失数据比例小于10%时,最大简约法的准确率高于本论文提出的方法。而图10则表明缺失数据比例小于10%,本论文方法准确率高于最大简约法,但无缺失时最大简约法的准确率要高于本论文方法。

两种方法在缺失数据比例为10%到50%时,准确率是趋于平稳的;在缺失比例小于10%或大于50%时,两种方法的准确率都会出现比较大的波动。

SSR分子标记研究的必要前提和技术难点是引物开发。本研究基于广西地不容转录组测序数据开发SSR引物,比传统SSR标记开发和从全基因组开发引物成本低、周期短、难度低,又较EST-SSR可提供更多的信息。但是,由于真核生物转录本中存在内含子剪切,导致SSR引物无法结合上全基因组DNA,因而需对引物进行严格的筛选和检验。本研究中从设计的50对引物中最终筛选得到10对多态性较高的引物。

综上所述,在运用生物形态学数据构建谱系树时,单个物种缺失数据比例超过10%时,本论文方法的表现是优于最大简约法的;而在缺失数据比例小于10%时,最大简约法则表现更好。实验结果表明在生物形态学数据缺失值比例大于10%时,运用本论文提出的方法所构建的谱系树有着较高的准确率。

3.4 方法稳定性验证及分析

本论文提出的基于先验决策的谱系树构建方法在判断物种间的进化关系时依赖着判断归属决策点的属性决策组,嫁接物种属性的随机缺失影响着物种归属的判断,对本方法的稳定性产生了一定的影响,为此实验对单一物种的属性进行多次的随机缺失处理,并对本方法的稳定性进行评估。

在稳定性方面,运用Palaearctic parasite species of Testudinidae数据集中的单个物种在每个实验点中进行多次随机缺失处理,并求得准确率方差,来说明本方法在不同缺失率下的稳定性。从0%~70%共8个实验点分别进行多次随机缺失处理,每个实验点随机处理次数为100次,计算相对应的缺失数据物种准确率,并进行方差的计算。则单个物种多次随机缺失处理准确率方差如图12所示。

  

图12 单个物种多次随机缺失准确率方差

从图12中可以看出,缺失数据比例小于50%时,单个物种的准确率方差较低,因此本论文提出的方法有着较好的稳定性。在缺失数据比例较低的情况下,缺失数据的数量还不足以打破决策点多属性组的归属判断,因而在多次随机缺失处理的情况下本方法还保持着较低的准确率方差。而在缺失比例大于50%时,单个物种的准确率方差会出现猛然的上升趋势,本方法的稳定性有所降低。随着缺失数据比例的上升,随机抽取得到的缺失数据导致的多属性组归属判断的稳定性会大大的降低,因此导致了准确率方差的突然提高。综上所述,本方法在缺失比例小于50%时有着较好的稳定性,而在缺失数据比例大于50%稳定性的表现则欠佳。

(2) 试样的疲劳破坏均萌生自表面的晶体滑移,预冷变形处理试样在裂纹扩展阶段表现为穿晶破坏,不含预冷变形处理的试样在裂纹扩展阶段表现为沿晶和穿晶混合破坏模式,疲劳试样的瞬断区域均由大量的韧窝组成。

4 结束语

本文提出方法,充分利用了初始谱系树的先验知识。能在物种含有较多缺失数据的情况下保持良好的准确率。并且由于含有缺失数据物种都是在初始谱系树的基础上进行嫁接,因而在构建进树的过程中都能够保证含有完整数据的谱系树的稳定性。解决了在缺失数据不断上升的情况下而导致的生成谱系树的紊乱的问题。

本论文方法的不足之处:(1)相比最大简约法,本方法需要初始谱系树的先验信息,先验先验信息越多,本方法的预测效果也就越好。(2)本模型只会在当前缺失数据的比例下给出物种在谱系树中的位置,而不是像最大简约法,即使含有缺失数据也会给最终启发式搜索的最终结果。将在后续的工作中继续探索和研究。

参考文献

[1]Mucherino A,Seref O.Modeling and solving real-life global optimization problems with meta-heuristic methods[M]//Advances in Modeling Agricultural Systems.US:Springer,2009:403-419.

[2]Yang Z,Rannala B.Molecular phylogenetics:Principles and practice[J].Nature Reviews Genetics,2012,13(5):303-14.

[3]郑巍,罗阿蓉,史卫峰,等.系统发育分析中的最大简约法及其优化[J].昆虫学报,2013,56(10):1217-1228.

[4]Björklund M.Sober,E.1988.Reconstructing the Past.Parsimony,Evolution,and Inference.MIT Press,Cambridge(Mass),London,265 pp.$37.25[J].Journal of Evolutionary Biology,1990,3(5/6):477.

[5]Camin J H,Sokal R R.A method for deducing branching sequences in phylogeny[J].Evolution,1965,19(3):311-326.

[6]Hein J.Reconstructing evolution of sequences subject to recombination using parsimony[J].Mathematical Biosciences,1990,98(2):185-200.

[7]Hein J.A heuristic method to reconstruct the history of sequences subject to recombination[J].Journal of Molecular Evolution,1993,36(4):396-405.

[8]Taylor M P,Wedel M J,Cifelli R L.A new sauropod dinosaur from the Lower Cretaceous Cedar Mountain Formation,Utah,USA[J].Acta Palaeontologica Polonica,2011,56(1):75-98.

[9]Wiens J J.Missing data and the design of phylogenetic analyses[J].Journal of Biomedical Informatics,2006,39(1):34-42.

[10]Wiens J J.Missing data,incomplete taxa,and phylogenetic accuracy[J].Systematic Biology,2003,52(4):528-538.

[11]Ma X,Wang G,Yu H,et al.Decision region distribution preservation reduction in decision-theoretic rough set model[J].Information Sciences,2014,278:614-640.

[12]张智磊,刘三阳.基于回溯搜索算法的决策粗糙集属性约简[J].计算机工程与应用,2016,52(10):71-74.

[13]张腾飞,肖健梅,王锡淮.粗糙集理论中属性约简算法[J].电子学报,2005,33(11):2080-2083.

[14]Bouamer S,Morand S.Phylogeny of palaearctic pharyngodonidae parasite species of testudinidae:A morphological approach[J].Canadian Journal of Zoology,2003,81(11):1885-1893.

[15]林晓丽.中国菜花露尾甲属分类及系统发育初探(鞘翅目:露尾甲科:访花露尾甲亚科)[D].陕西咸阳:西北农林科技大学,2015.

[16]唐丽丹,原蒙蒙,李妍,等.基于形态学性状的木槿属系统发育分类研究[J].河南农业科学,2014,43(2):105-111.

 
朱锐,冯宏伟,冯筠,王惠亚,刘建妮,韩健
《计算机工程与应用》2018年第10期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号