• 热线电话:010-56107385

联系方式

地 址:北京市昌平区北清路生命科学园博雅CC -9号楼2层
电 话:010-56107385
传 真:
邮 箱:support@ori-gene.cn

科研动态

您现在的位置:首页 > 公司动态 > 科研动态
客户发表:观赏植物一串红基因组的高质量组装
作者: 来源: 发布于:2018-7-20 14:53:33 点击量:

 

不久前,由源宜基因与北京市园林科学研究院及北京林业大学合作发表的“一串红高质量基因组图谱”文章在GigaScience杂志在线刊登,这标志着我国成为世界上首个绘制出一串红基因组图谱的国家。下面我们一起看看这篇文章的具体研究内容。

 

文章标题:观赏植物一串红基因组的高质量组装

发表期刊:GigaScience(IF 6.871)

文章引用:Dong A X, Xin H B, Li Z J, et al. High quality assembly of the reference genome for scarlet sage, Salvia splendens, an economically important ornamental plant[J]. GigaScience, 2018.

 

1、摘要

一串红(Salvia splendens Ker-Gawler)是一类常见的多年生草本植物。由于缺乏分子标记资源,因此其育种方式主要依赖于表型选择,而表型变异的遗传机制仍然未知。因此,组装得到高质量的参考基因组对于一串红的分子标记、遗传育种、基因编辑或分子遗传学研究具有重要的价值。

本研究基于全基因组测序技术,共得到了66Gb(PacBio SMRT平台)和37Gb(Illumina HiSeq平台)的原始数据。PacBio测序组装得到的一串红基因组大小为808Mb,其中scaffold N50为3.12Mb, contigs N50为2.06Mb,重复序列占比为57.52%,并对基因组中54,008个蛋白编码基因进行了从头和基于同源的基因功能预测分析。一串红和丹参(Salvia miltiorrhiza)之间的分化时间预计可推测到28.21Mya前。此外,在一串红基因组中分析得到了3797个物种特异性基因和1187个扩增基因家族。

 

2、材料方法

物种:一串红(Salvia splendens)(同一品系多轮自交)

材料:基因组测序材料为幼苗的叶片组织;转录组测序材料为根、茎、叶、花萼和花冠组织。

方法:全基因组测序--PacBio SMRT平台和Illumina HiSeq平台;

转录组测序--Illumina HiSeq X Ten平台。

 

3、基因组评估(大小、杂合度及重复度)

三代PacBio测序产出65G(8M reads)数据,约80×;二代Illumina Clean Data 30G(220M reads),约40×。Kmer预估基因组大小~780Mb,测序数据覆盖深度~33×,重复率为47.99%(错误率为0.27%),杂合率为0.06%。

所用软件:Canu (v1.5),Jellyfish (RRID:SCR_005491),gce 1.0.0。

 

4、基因组组装

经过多次优化组装,最终得到一串红基因组长度为808Mb。各轮组装软件与组装结果统计见表1。

表1. 组装的各版本一串红基因组简要信息统计

(1)初步组装

采用不同的软件或策略初步组装PacBio测序数据。通过综合比较不同组装软件得到的基因组的contigs数量与长度、N50、L50以及基因组完整性,得到一串红基因组初步组装的最佳版本v0.1。

所用软件:Canu,MECAT1.1,FALCON (v0.7),SMARTdenovo 1.0.0,BUSCO (v2.0.1)。

(2)Scaffolding组装

利用二代和三代数据对初步组装的contig进行scaffolding,经过多轮优化,得到一串红的基因组最终版本v1.2f。

所用软件:arrow(v2.2.1),SSPACE (RRID:SCR_005056),SOAPdenovo,GapCloser (RRID:SCR_015026),Pilon(RRID:SCR_014731),Bowtie2 (v2.3.0) 。

 

5、组装结果评估

从Kmer分布、组装结果连续性、基因(组)完整度与冗余度、单碱基错误率及杂合率等方面对组装基因组进行了全面评估。整体组装结果比较好,可以为后续的比较基因组学分析研究奠定基础。组装的高质量性主要体现在:

1)基因组组装的大小和kmer估计大小基本一致;

2)二代数据map比例高达98.72%以上,三代数据map比例为99.79%;BUSCO评估的核心基因占比为92.2%;

3)最终版本基因组的contig N50为2.26M,质量比较高(>1M),scaffold N50为3.12M。

所用软件:Bowtie2 (v2.3.0),BUSCO (v2.0.1)。

图1. Kmer分布图

(数据集:三代数据+MECAT校错;可见明显重复峰,无明显杂合峰。红色虚线为理论的泊松分布)

 

6、基因组注释

(1)重复序列鉴定

共鉴定重复序列1113597个,总长~465.44Mb,占比57.52%;其中比例最高的是LTR,共184299个(长度~214.33Mb),占比26.49%。

所用软件:RepeatModeler(v1.0.10),RepeatMasker(v4.0.7)。

(2)转录本组装

采用多种策略对转录本序列进行组装,并去除冗余,共计得到192169条转录本序列,具体统计见表2。

所用软件:HiSat2(v2.1.0),StringTie(v1.3.3b),Trinity(v2.0.6),Cufflinks(v2.1.1),CD-HIT(v4.6)。

表2.一串红转录本组装结果统计

(3)基因预测与注释

基于从头预测、同源比对及RNA-seq数据等对基因进行预测与注释,最终得到54008个基因,基因注释可信度比例达到97%(AED < 0.5)。平均每个基因含6.3个外显子。基因区总长度约353.3M,占基因组的45.8%。外显子总长度87.4M,占基因组的11.3%。转录本的平均长度为1.7K bp,CDS平均长度约为1.3K bp,蛋白质的平均长度为430 aa。

所用软件:MAKER(package v2.31.9),AUGUSTUS(v3.2.3),BLAST(v2.2.28+),Exonerate(v2.4.0)。

 

7、比较基因组分析

(1)同源基因家族分析

选择了丹参(Salvia miltiorrhiza)、欧洲白蜡(Fraxinus excelsior)、油橄榄(Olea europaea)等其他共计15个物种,总共得到35808个同源基因家族,所有物种共有的有4995个,其中单拷贝的有134个;一串红总共有44493个基因归入同源基因家族,特有的基因家族有1306个,单拷贝基因家族有3957个,多拷贝基因家族有12203个(代表40536个基因)。结果详见表7。

所用软件:BLASTP(Blast+ v2.3.056),OrthoMCL(v2.0.9)。

表3.比较基因组分析结果统计

 

(2)基因家族收缩与扩张

利用134个共有的单拷贝基因和35808个同源基因家族在各物种中的基因数量分布情况,构建系统发育物种树并分析基因家族的收缩与扩张,发现三种鼠尾草属植物的系统分化时间大约在28.21Mya,具体结果见图2。

所用软件:MUSCLE (v3.8.31),PhyML(v3.0),r8s(v1.81),CAFE(v4.0)。

图2. 基因家族收缩与扩张的系统进化分析

蓝色:扩张的基因家族数量;红色:收缩的基因家族数量

(3)次级代谢通路分析

在一串红中共鉴定到85个与次级代谢相关的基因簇,主要参与生物碱、糖类、聚酮类、萜类及木脂素类等化合物的生物合成途径。

所用软件和数据库:E2P2 package(v3.1),PMN(v12.5),plantSMASH。

 

8、结论

该研究提供了第一个一串红的基因组参考序列和基因注释信息,这些信息对于进一步研究一串红的分子标记、遗传育种、基因编辑以及相关物种的比较基因组学具有重要意义。

 

相关链接:

http://www.finishedbasementteam.com/html/news/2018-6-25/384.html

http://www.fortuneworld.com.cn/special/forestry/yjzh/201806/t20180621_2989531.shtml?from=singlemessage

https://mp.weixin.qq.com/s/nesbDohqYCU7ERkDbHewgA

https://mp.weixin.qq.com/s/lydKcvn_3EhltFTrGVHg1Q

 

长按二维码识别关注我们

 

 



俺也去我也去五月停停成人网_婷停五月深爱五月激情网