更全的杂志信息网

油茶基因组SMRT数据的统计分析

更新时间:2009-03-28

山茶属(Camellia)是山茶科(Theaceae)中最大的属,起源于中南半岛和中国云南及广西南部的热带地区,并广泛分布于亚洲东部和东南部[1]。张宏达将山茶属分为20个组280种,其中中国有分布的为238种[2-3];闵天禄将山茶属划分为14个组约125种,其中中国有分布的为104种[4]

油茶,又叫茶子树,泛指山茶属植物中种子油脂含量较高且具有栽培利用价值的植物,一般所指的油茶为普通油茶(Camellia oleifera)。油茶籽油富含油酸、亚油酸等不饱和脂肪酸,可以与橄榄油相媲美,被誉“东方橄榄油”[5]。我国现有油茶林面积约366.67万hm2,江西省种植面积达74.67万hm2

普通油茶为6倍体[5],含3个亚基因组,基因组约为17.47 pg(2C)[6],8.25 Gb。目前,由于既缺乏遗传连锁图谱,也缺乏基因组信息,油茶的分子育种工作进展缓慢。最近,茶树(C.sinensis)基因组的发表[7]为油茶基因组的组装提供了良好的参考基因组。

本研究以通过国家林业局林木品种审定委员会审定的普通油茶良种“赣无1号”(编号:国S-SCCO-007-2007)的叶片为材料,采用美国太平洋生物技术公司的PacBio Sequel测序仪进行测序,获得了大量的基因组序列,并进行了初步的统计分析,为油茶基因组的组装提供参考。

1 材料与方法

项目组于2017年8月,从江西省林业科学院油茶种质基因库采集“赣无1号”油茶叶片,用液氮冷冻,-20℃保存备用。

油茶插入碱基数-茶树插入碱基数=6.82

油茶DNA提取委托北京诺禾致源科技股份有限公司进行,用琼脂糖凝胶电泳分析DNA降解程度以及是否有RNA、蛋白质污染,并对DNA浓度进行精确定量。将基因组DNA经26 G Needle片段化,使用BluePippin选择20 kb以上的片段,经末端修复和A尾后,再在片段两端分别连接接头,制备DNA文库,库检合格后运用PacBio Sequel平台进行测序。

PacBio Sequel测序平台是基于单分子实时(SMRT,Single Molecule Real-time)测序(又称为三代测序)技术,原始测序数据中会包含以0个、1个或2个以上分子为模板测得的数据,但0个或2个以上分子的信息会对后续的信息分析造成很大的干扰。采用软件SMRTlink v5.0对输出进行过滤和处理,使用--minLength=50,--minReadScore=0.8参数,最终得到的数据即为有效数据。测序数据有两种:酶读段(polymerase reads)、亚读段(subreads)。PacBio Sequel测序平台为环状测序,测序过程中单分子产出的高质量测序读段(reads)称为酶读段。测序过程中每个酶读段序列可以被分割成一个或多个子序列,这些子序列称为亚读段。

采用blast软件(版本为blast-2.4.0+-x64-win64)进行DNA序列比对,比对参数设置为-outfmt 6-perc_identity 80-evalue 1e-39,比对结果用自编的perl脚本处理,先选择查询序列两端缺失均不低于5个碱基的比对结果,然后从同一查询序列的比对结果中选择得分最高的比对结果,得分相同时,选择序列相似度最高的比对结果,相似度相同时,随机选择一个比对结果。茶树基因组数据从网站(www.plantkingdomgdb.com/tea_tree/)下载。

2 结果与分析

2.1 酶读段统计

酶读段下机数据如下:酶读段的数据量为40.1 G,共计3 862 324条序列,平均长度为10 382 bp,N50(Polymerase Read N50:将得到的酶读段按照长度从长到短排序,依次累加酶读段的长度直至不小于总长50%时的酶读段的长度)为16 791 bp。

自然风险因素,是指影响项目进度的、不以人的意志改变的、客观存在的因素,主要指项目所在地自然条件可能给项目进度构成的威胁和影响。不利的气象条件、水文条件及地质条件等,可能对工程产生极大的不利影响,从而导致工期延误。因正在实施的项目无法很好的进行抗震分析及设计,所以地震有可能对正在实施的水利工程产生较大的破坏,从而可能导致工期的延误甚至停工。大多数水利工程位于相对偏远的地区,一般会就地开采建筑材料以满足工程要求,但如果勘探天然建筑材料数量和质量与实际不完全一致,也极可能由于重新选址开采及需要外购等影响工程工期。

2.2 亚读段统计

质控后的亚读段统计结果如下(表1):亚读段的数据量为40.06 G,共计4 730 681条序列,平均长度为 8 467 bp,N50(Subreads N50)为 13 434 bp。亚读段最短为50 bp,最长为215 074 bp。

2.3 序列比对分析

在油茶的比对结果中,查询序列缺失碱基25.84个,因此,油茶查询序列中的缺失碱基数(油茶缺失碱基数)与茶树插入碱基数之和等于油茶查询序列缺失碱基数(25.84)与6.82之差,即:

正好有客人来寄存行李,刘莉只得冷着脸起身接待。其实,她最初来上班时,是很热情周到的,但是时间一长,也没了好脸色,看到客人都是冷眉冷眼的。这个客人递上一个包不悦地说:“你们这儿怎么这么臭?”

人胚肾细胞(HEK293细胞)由吉林农业大学动物科学技术学院分子免疫实验室提供。以含10%胎牛血清和1%青霉素、链霉素混合液的DMEM培养液在恒温37℃、5%CO2的培养箱中培养。每2 d换液,待细胞密度达75%~85%用0.25%胰蛋白酶消化并传代。取对数生长期细胞用于实验。

从每条亚读段的两端分别取500 bp的片段作为查询序列(7 853 306条),用blast软件分别与油茶亚读段数据和茶树基因组数据进行DNA序列比对,其中,1 783 560条查询序列在亚读段数据中获得最佳匹配序列,序列平均相似度为83.14%;952 217条查询序列在茶树基因组中获得最佳匹配序列,序列平均相似度为84.75%。

油茶缺失碱基数+茶树插入碱基数=19.02

 

表1 亚读段长度分布Tab.1 Length distribution of subreads

  

长度/bp 数量/条 数据量/bp 平均/bp 50~100 12612 956730 101~200 32320 4908869 201~500 106449 37633030 501~1000 175376 132188286 1001~2000 477781 724630895 2001~5000 1131292 3828711552 5001~10000 1171840 8547003111 10001~20000 1273073 18066661128 20001~50000 349570 8692544971≥50001 368 20781605合计 4730681 40056020177 8467

在油茶与茶树中均获得最佳匹配序列的查询序列有553 658条,序列平均相似度分别为83.84%、85.41%,比对长度分别为524.01 bp、517.19 bp。相同的查询序列,得到不同的比对长度,差值为6.82,表明油茶查询序列中的插入碱基数(油茶插入碱基数)与茶树匹配序列中的插入碱基数(茶树插入碱基数)之差为6.82,即:

赣无1号是由江西省林业科学院选育的良种,树体生长旺盛,树冠紧凑,抗病性强,无明显大小年。果桃形,果皮红色,平均冠幅产果量0.13 kg·m-2,44个鲜果大小为500 g,鲜出籽率56%,干籽出仁率37.7%,干仁含油率54.4%,鲜果含油率13.4%,连续4 a平均产油量达 67.3 kg·667m-2

从普通油茶亚读段的数据中提取长度2 000 bp以上(含2 000 bp)的数据,共计39 156 722 367 bp,包含3 926 653条序列,平均长度为9 972 bp,该亚读段数据用于后续的序列比对分析。

茶树缺失碱基数=茶树插入碱基数

本文将选取《报告》中与China搭配的名词、形容词/副词以及动词这三类词作为量化统计范畴,参照出现频率及重要性,识别出每个范畴的主要词汇项目(见表2);通过《报告》中涉华话语的词汇分析,确立“China”在时间、空间和情态三个轴上的位置,分析和比较“China”在三份报告中的话语空间定位情况。

我国社会发展阶段是以集体利益的增长为目标进行的,个人也要以集体为重,当个人价值观与集体价值观发生碰撞时,个人应当服从集体。西方国家在此方面截然不同,是将个人放在首位,对利益的理解也是先个人,后集体。由于国情不同,交易的思维方式也必然存在差异。跨国贸易顺利开展首先要处理好这两者之间的关系,以双方乐于接受的方式进行翻译。思维方式的差异还表现在对时间的记录形式上,国内习惯的方式是由大到小,依次为年、月、日,以及准确的时间。西方国家则有不同的习惯,在跨文化商务交际中要确保正确使用,以免不必要的误会与争议。

假设茶树基因组中碱基缺失与碱基插入的几率相等,也就是假设茶树匹配序列中的缺失碱基数(茶树缺失碱基数)等于茶树插入碱基数,即:

有些应该保持有限速度。比如说抓改革、谋发展,确实是慢不得也急不得,既要防止错过改革发展的最佳机遇,又要防止因举措失当、发展失衡造成不必要的损失,力争做到蹄疾步稳。再如,中国高铁的“落地”,从“和谐号”到“复兴号”,从时速300到350公里,其速度仅为“高速飞行列车”论证速度的8.75%。这里边既有对规律的尊重,也有对发展的负责,更有对生命的敬畏。□

茶树匹配序列中的空缺碱基数为19.45个,茶树匹配序列导致的错配碱基数相等,则油茶查询序列和匹配序列中的错配碱基数均为16.93个。

茶树的错配碱基数为37.24个,其中油茶查询序列导致的错配碱基数为16.93,则由茶树的匹配序列导致错配碱基数为20.31个。

在油茶的测序数据中,498.17 bp的查询序列包含16.93个错配碱基,插入碱基13.14个,缺失碱基12.7个,最后形成42.77个测序错误,测序正确率为91.41%。

在茶树497.74 bp的匹配序列中,缺失碱基数与插入碱基数均为6.32个,由匹配序列导致错配碱基数为20.31个,共32.95个不一致碱基,普通油茶与茶树基因组序列的相似度为93.38%。

 

表2 序列比对结果Tab.2 Sequence alignment results

  

物种 油茶 茶树最佳匹配序列/条 1783560 952217最佳匹配序列相似度/% 83.14 84.75共同匹配序列/条 553658共同匹配序列相似度/% 83.44 85.41比对长度/bp 524.01 517.19错配碱基/个 33.85 37.24查询序列长度/bp 498.17 498.42匹配序列长度/bp 496.89 497.74查询序列空缺碱基/个 25.84 18.77匹配序列空缺碱基/个 27.11 19.45

3 结论与讨论

在来自普通油茶亚读段数据的7 853 306条查询序列中,只有1 783 560条获得最佳匹配序列,占22.71%,大部分查询序列中没有获得最佳匹配序列,原因在于选择最佳匹配序列的条件设置较高(查询序列两端的碱基缺失不低于5个),导致大量查询序列被淘汰,因此测序正确率(91.41%)的估算有些偏高。

习近平新时代中国特色社会主义思想既是民族的,也是世界的。习近平新时代中国特色社会主义思想深深扎根于党的事业发展的历史进程中,深深扎根于中国发展的时代命题中,深深扎根于中华文明的深厚土壤中,是中国发展的“成功奥秘”,也是中国奇迹的“最佳解说”,具有鲜明的中国特色、中国风格、中国气派。同时,习近平新时代中国特色社会主义思想并不局限于中国一域,而是放眼环球世界,以海纳百川的宽广胸襟和博采众长的宏伟气度,吸收借鉴了人类文明发展的优秀成果,超越了意识形态的分歧和不同文明之间的隔阂,为人类面临的普遍治理问题提供了富有东方智慧的解决方案,展现了鲜明的开放性、包容性、世界性。

笔者曾经对普通油茶与茶树的131对cDNA序列进行比较,序列相似度为94.94%-99.58%,平均为98.28%[8]。通过油茶基因组三代测序数据与茶树基因组序列的比对分析,普通油茶与茶树基因组序列的相似度为93.38%,低于cDNA序列的相似度。在估算过程中,没有单独分析与茶树相比对时普通油茶碱基的缺失与插入,全部归因于测序的错误,这可能引起普通油茶与茶树基因组序列相似度的低估,需要在以后的估算中进一步改进估算方法。此外,估算过程是基于茶树基因组中碱基缺失与碱基插入的几率相等的假设,实际上,基因组中碱基缺失与碱基插入的几率是不相等的,碱基缺失的几率高于碱基插入,因为碱基插入需要消耗更多的磷元素,生物基因组经过加倍后都经历过重新二倍体化的过程,在此过程中,碱基不断丢失,基因组不断缩小。

通过对油茶基因组三代测序数据的初步分析,得到测序正确率为91.41%,油茶与茶树基因组序列的相似度为93.38%,笔者认为测序结果正确可靠,可以用于普通油茶基因组的组装。在进行三代测序的同时,笔者还获得了180 G的二代测序(Illumina PE150)数据,将进行二代与三代数据的混合组装。

参考文献:

[1]闵天禄,张文驹.山茶属植物的进化与分布[J].云南植物研究,1996,18(l):l-13.

[2]张宏达.山茶属植物的系统研究[J].中山大学学报(自然科学版),1981,论丛(1):1-12.

[3]中国科学院中国植物志编辑委员会.中国植物志·第49卷(第3分册)[M].北京:科学出版社,1998.

[4]闵天禄.山茶属的系统大纲[J].云南植物研究,1999,21(2):149-159.

[5]庄瑞林.中国油茶(第2版)[M].北京:中国林业出版社,2008.

[6]Huang H,Tong Y,Zhang QJ,et al.Genome size variation among and within Camellia species by using flow cytometric analysis[J].PloS ONE,2013,8(5):e64981.doi:10.1371/journal.pone.0064981.

[7]Xia EH,Zhang HB,Sheng J,et al.The tea tree genome provides insights into tea flavor and independent evolution of caffeine biosynthesis[J].Mol.Plant.2017,4:1-12.

 
赵松子
《南方林业科学》 2018年第02期
《南方林业科学》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号