百迈客Hi-C研究大事件 - 卖萌控的博客

DNA在染色体上是高度折叠的，DNA与DNA片段之间不可避免的形成了高强度的交互作用。最先提出的3C（Chromosome Conformation Capture）技术，用于测定染色体特定位点之间的交互作用。之后发展出了4C、5C 技术, 分别用于测定染色体上一点到多点和多点与多点之间的交互作用。在2009年Job Dekker 又开发出了Hi-C 技术实现了全基因组范围内的染色体片段间的相互作用的捕获。Hi-C主要将空间结构临近的DNA片段进行交联，并将交联的DNA片段富集，然后进行高通量测序，对测序数据进行分析即可揭示染色体片段间的交互信息。

目前Hi-C 技术主要的应用方向是辅助基因组组装和染色质互作。辅助基因组组装：在已有二代或三代组装的Draft genome序列和已知染色体数目的前提下，利用Hi-C测序数据将Draft genome序列进行染色体群组的划分，并确定各序列在染色体上的顺序和方向，使基因组组装组装水平提升到染色体水平。染色质互作：利用Hi-C技术揭示基因组的一般结构特征，包括从隔室（A/B Compartments）到拓扑相关结构域（TAD）,最后再到环（loop）的染色质层级结构；还可以与ATAC-seq、ChIP-seq、DNase-seq和RNA-seq等数据进行多组学分析揭示基因组三维结构与表观遗传修饰、基因密度和转录活性之间的关系。

说到Hi-C辅助基因组组装，百迈客还真是硕果累累呢！2018年就有三篇Nature Genetics和一篇Giga Science见刊，2019年才过去短短两个多月，就已经有2篇Molecular Plant见刊了，这成果真是可喜可贺啊！

下面就听小编娓娓道来吧~~

百迈客成功案例一：二倍体亚洲棉Hi-C辅助基因组组装

英文题目：Sequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits.

中文题目：以更新的亚洲棉A基因组为基础的243份二倍体棉花的重要农艺性状的研究

发表期刊：Nature Genetics

发表时间：2018年5月

合作单位：中国农业科学院棉花研究所

研究方法：基因组、遗传进化和全基因组关联分析等

研究背景

棉花是世界上最重要的商业作物之一，同时也是研究植物多倍化的有价值的资源。亚洲棉最可能在马达加斯加或印度河流域文明（巴基斯坦摩亨佐达罗）开始驯化，随后分散到非洲和亚洲一些地区。亚洲棉最初在1000多年前作为观赏植物引入中国。当在地方的农业生态环境适应和人类选择影响的过程中，中国的Gossypium arboreum形成了独特的地理种群，称之为“sinense cotton”。虽然棉花种植者已经基于RFLP和SSR markers构建了各种遗传图谱，但是G. arboreum和G. herbaceum优良农艺和经济性状的基因尚未被鉴定。本研究中，利用了三代PacBio和Hi-C技术，重新组装了高质量的亚洲棉基因组，分析了243份二倍体棉花种质的群体结构和基因组分化趋势，同时确定了一些有助于棉花皮棉产量遗传改良的候选基因位点。

材料选择

基因组测序材料：二倍体G. arboreum栽培品种cultivar Shixiya1（SXY1）；

自然群体材料选择：243份棉花，包含230份亚洲棉G. arboretum和13份草棉G. herbaceum [243份棉花选自国家种质基因库（中国安阳），种植在中国农业科学院棉花研究所（ICR，CAAS）的温室中]，插入片段长度500 bp；测序深度6X；

遗传群体材料选择：亲本（GA0146和GA0149），测序深度20X；2个混池（F2群体，有绒型和无绒型各20个子代），测序深度30X；

测序策略：PacBio RSII和Illumina HiSeq 2500

分析软件：基因组组装（Canu和Falcon；Quiver；Pbjelly）；TEs转座元件注释（RepeatScout，LTR-FINDER，MITE和PILER；Repbase；REPET；RepeatMasker）；基因预测注释（geMoMa；Augustus；PASA；EVidenceModeler；InterProScan）

群体研究：比对注释（BWA，Picard，GATK，ANNOVAR）；群体结构分析（FastTree，PHYLIP，STRUCTURE）；连锁不平衡分析（Haploview）；遗传多样性分析（π，Fst）；全基因组关联分析（EMMAX）；

主要研究结果

1、亚洲棉基因组组装更新

利用三代测序仪PacBio平台共获得142.54Gb的原始数据，组装1.71Gb亚洲棉基因组，Contig N50=1.1 Mb，最长的Contig为12.37 Mb。利用Hi-C技术获得超过20×的reads，将组装的1573Mb的数据定位到13条染色体上，与已经发表的基因组相比，当Hi-C数据比对到更新的基因组后，对角线外的不一致性明显减少（见图1a和b）。

图1，Hi-C数据在两版亚洲棉基因组上的比对

注：a. Hi-C数据与亚洲棉原基因组比对；b. Hi-C数据与亚洲棉更新基因组比对

2、二倍体棉花群体遗传进化分析

共计选择了243份二倍体棉花材料：230份亚洲棉G. arboreum (A2) 和13份草棉G. herbaceum (A1)，来自于中国南部(SC)，长江(YZR)和黄河（YER）。以雷蒙德氏棉（G. raimondii）为外群，构建系统发育树显示，G. herbaceum（草棉）和G. arboretum（亚洲棉）聚类成2个独立的群（见图2a和b）。G. arboretum（亚洲棉）进一步又分为SC，YZR和YER三个群，显示了地理分布模式的差异，进而利用PCA分析支持这一结果（见图2c）。

图2 二倍体棉花的群体分层分析

注：a，243份二倍体棉花系统发育树；b，243份二倍体棉花的群体结构分析c，PCA主成分分析（中国亚洲棉的PCA分析；亚洲棉和草棉的PCA分析）

3、选择性清除分析与GWAS分析

人工选择在农作物的驯化和迁徙的过程中具有重要的作用。群体结构分析显示当K=4时，YER与SC和YZR明显不同（图2b，K=4）。通过两两群体间的选择性清除分析（FST）鉴定出了分别覆盖到59，53和51个显著遗传分化的区域。SC和YZR之间的21个分化的区域（约43.5 Mb 含有915个基因）在群体SC和YER之间是保守的（图3a）。对来自不同环境下的11个重要性状进行全基因组关联分析，在98个显著关联的信号中，其中25信号个来自基因区（外显子或内含子区），包含与形态性状相关的8个信号区，与产量性状相关的6个信号区，与油籽性状相关的3个信号区；剩余73个信号来自非编码区。大部分农艺性状的GWAS关联信号中显示地理差异，如分支数，开花期，铃重和抗病性这些性状定位在保守的基因区（图4b）。

参考文献：Du X, Huang G, He S, et al. Resequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits[J]. Nature genetics, 2018, 50(6): 796.

百迈客成功案例二：异源四倍体陆地棉和海岛棉Hi-C辅助基因组组装

英文题目：Reference genome sequences of two cultivated allotetraploid cottons Gossypium hirsutumandGossypium barbadense.

中文题目：两个异源四倍体陆地棉和海岛棉基因组破译

发表期刊：Nature Genetics

发表时间：2018年12月

合作单位：华中农业大学作物遗传改良国家重点实验室

研究方法：基因组、比较基因组分析、遗传图谱构建及QTL定位等

研究背景

棉花是世界上最大的天然纺织纤维来源，每年纤维产量的90％以上来自异源四倍体棉花（G. hirsutum和G. barbadense），它起源于大约1-2百万年前的异源多样化事件，随后是数千年的不对称亚基因组选择。陆地棉（G. hirsutum）由于其高产而在全世界种植。G. barbadense以其卓越的纤维质量而受赞誉。为了培育产生纤维更长，更细和更强韧的陆地棉（G. hirsutum）品种，一种合理有效的方法是将海岛棉（G. barbadense）的优良纤维性状引入陆地棉。基因组学启动的育种策略需要对基因组组织进行详细而有力的理解。

材料选择

高度纯合陆地棉（TM-1)和海岛棉（3-79），用于基因组测序；由陆地棉Emian22作为受体亲本，海岛棉3-79作为供体亲本构建包含168个个体的CSSLs群体，做重测序，平均深度 > 6×；13份二倍体D型基因组的棉花做重测序，平均深度 > 15×；Xuzhou 142与其自然突变体Xuzhou 142f1杂交，构建F2群体，做混池测序。

测序策略：PacBio RS II、BioNano和Illumina HiSeq

分析软件：

基因组组装：Canu (version 1.3) ，BLASR (version 1.3.1) ，BWA (version 0.7.10-r789) ，Pilon(version 1.22) ；光学图谱纠错：核酸内切酶Nt.BssSI23，AutoDetect，IrysSolve；Hi-C染色体挂载：核酸内切酶HindIII，BWA（version 0.7.10-r789），LACHESIS，HiC-Pro；基因组完整性评估：BUSCO评估；TE注释：PASTEClassifier (version 1.0)；RepeatMasker (version 4.0.6)；基因预测和注释：Genscan，Augustus (version 2.4)，GlimmerHMM (version 3.0.4)，GeneID (version 1.4)和SNAP (version 2006-07-28)；GeMoMa (version 1.3.1)；假基因组预测：GenBlastA (version 1.0.4)，GeneWise (version 2.4.1)；

着丝粒区域鉴定：blastn，SPSS software (version 17.0) ；基因组共线性分析：MUMmer (version 3.23)，GATK(version 3.1.1)，Samtools(version 0.1.19) ，MCScanX package；结构变异检测：MUMmer3 (version 3.23)；二倍体棉重测序SNPs鉴定：Trimmomatic (version 0.32)，BWA；包含168个个体的CSSLs群体SNPs鉴定：BWA，GATK和Samtools；CSSLs群体QTLs定位与表达分析：QTL IciMapping (version 4.0) ；TopHat2 (version 2.0.13) ；Cufflinks (version 2.2.1)；STRUCTURE (version 2.3) ；TASSEL software (version 5.0) ；

主要研究结果

1、陆地棉Gossypium hirsutum和海岛棉Gossypium barbadense基因组组装及注释

本研究利用PacBio RSII、BioNano和Hi-C技术组装出了高质量的异源四倍体陆地棉G. hirsutum acc. TM-1和海岛棉G. barbadense acc. 3-79基因组，最终组装出26条染色体。在陆地棉和海岛棉中分别预测到70,199和71,297个基因，PacBio数据分析显示，在全基因组范围内陆地棉6mA甲基化占所有腺嘌呤的0.21%，海岛棉占0.22%。且6mA甲基化修饰在每条染色体上是均匀分布的，而5mC修饰在染色体臂中分布较少（见图1）。

图1 陆地棉和海岛棉染色体特征（含表观遗传标记）

2、陆地棉和海岛棉染色体结构变异分析

高质量的参考基因组使研究人员直接通过比较基因组就能鉴定大的结构变异成为可能。发现有170.2 Mb的基因组序列被鉴定为G. hirsutum和G. barbadense之间的倒位，包括120.4 Mb的At亚基因组和49.8 Mb的Dt在A06染色体中发现了4个大的倒位变异，包括3个染色体臂内倒位（in1, in3 and in4）和1个染色体臂间倒位（in2），通过Hi-C数据在断点周围离散的染色质相互作用（图2a），突出了Hi-C技术识别大规模染色体重排的优势。光学图（BioNano optical maps）谱数据进一步支持了这些反转断裂位点（图2b）。

图2，陆地棉和海岛棉A06染色体倒位鉴定

注：a，Hi-C互作热图；b，光学图谱鉴定

3、渐渗系的构建及QTLs定位

由陆地棉Emian22作为受体亲本，海岛棉3-79作为供体亲本构建包含168个个体的CSSLs群体，旨在引入有利的变异，如纤维质量。QTL定位分析，共鉴定到5个性状的13个QTLs位点，其中控制纤维长度位点2个，控制纤维强度位点4个，马克隆值位点2个，纤维伸长率位点2个，纤维均匀度位点3个（图3）。在这些QTLs位点中，9个位点之前未被鉴定出，通过检验13个QTLs中的基因表达水平，研究人员检测到了235个在纤维发育过程中高度表达的基因，同时还整合了基因组变异数据来预测候选基因，而这些基因值得进一步进行精细定位以确认对这些性状具有重要影响的基因。

图4，QTL定位结果展示

注：a，陆地棉纤维质量相关QTLs分布（红框）；b，纤维长度相关QTL定位；c，纤维伸长率相关QTL定位

参考文献：Wang M, Tu L, Yuan D, et al. Reference genome sequences of two cultivated allotetraploid cottons, Gossypium hirsutum and Gossypium barbadense[J]. Nature genetics, 2019, 51(2): 224.

百迈客成功案例三：同源多倍体甘蔗Hi-C辅助基因组组装

英文题目：Allele-defined genome of the autopolyploid sugarcane Saccharum spontaneum L.

中文题目：同源多倍体（Saccharum spontaneum L.）基因组等位基因鉴定

发表期刊：Nature Genetics

发表时间：2018年10月

合作单位：福建农林大学基因组与生物技术研究中心

研究方法：基因组、比较基因组、群体遗传进化等

研究背景

栽培甘蔗（Saccharumspp., Poaceae）相比其它主要作物与众不同，因为它是多倍体种间杂种，具有极其复杂的基因组。目前甘蔗是世界上收获量最大的第一作物和第五价值作物（FAO, 2012），甘蔗种植在90多个国家的约2600万公顷土地上，每年收获18.3亿公吨，总产值接近570亿美元，提供80％的糖和40％的乙醇，作为主要的糖和生物燃料原料作物。虽然现代甘蔗栽培种的高含糖量来源于栽培种“S. officinarum”，但是它们的耐寒性，抗病性和再生能力更多的来自于与含糖量低的亲本“S. spontaneum”的回交中。Saccharum officinarum品种（2n= 8x=80），在茎中积累蔗糖达到干重的50％，但是易受生物和非生物胁迫的影响。自然状态记录下染色体数目最少的S. spontaneum种质（2n = 5x = 40）已经不存在了，然而，由另一种八倍体SES208单倍化形成的S.spontaneum“AP85-441”（1n = 4x = 32）为甘蔗染色体的原型的组装提供了基础。本研究阐释了最重要，复杂基因组的基因组作物S. spontaneum遗传蓝图和进化历史。

材料选择

S. spontaneum AP85-441用于基因组测序；64份世界种质资源库材料进行重测序；

测序策略：IlluminaHiSeq 2500和PacbioRSII

分析软件：

基因组组装：BAC文库测序数据初步组装（组装软件：ALLPATH-LG,SPAdes和SOAPdenovo2，保留组装最好结果）；PacBio测序数据纠错组装（CANUv1.5）；Hi-C染色体分群（ALLHIC）。

基因注释：重复序列预测（RepeatModeler），TE转座子序列鉴定（RepeatMaskerversion 4.05；TEclassversion 2.1.3），串联重复序列分析（TRFpackageversion 4.07）；基因注释（MAKER，JBrowse，Trinity，PASA，SNAP，GENEMARK，AUGUSTUS等）；注释完整性评估（BUSCOversion 3）；

等位基因变异及优势表达分析：单倍体基因组构建（nucmer，MUMmerpackage，Assemblytics）；等位基因鉴定（MCScanX，GMAP）；等位基因变异分析（nucmer，Assemblytics）；等位基因的优势表达（Trimmomatic，HiSAT2)。

重测序群体结构分析：序列比对与变异检测（Bowtie2，SAMtools，BWA，GATK，SnpEffv3.6c)；基因组遗传多样性评估（π，Tajima’sD）；PCA分析（VCFtools，PLINK）；系统发育分析（ML trees，PHYLIP package）；群体结构分析（Admixture，STRUCTURE）；基因组重排区遗传多样性与不同多倍体种质的基因组遗传多样性分析（π，SNP density，Tajima’sD）。

主要研究结果

1、基因组测序组装

本研究中利用Illumina、PacBio和Hi-C技术，加之本研究团队研发的最新算法ALLHIC成功的将甘蔗基因组组装到染色体水平，最终组装出32条染色体，锚定了2.9 Gb基因组，涵盖了97%的基因含量。进一步利用998,370 SNPs的高密度遗传图谱来验证Hi-C组装的结果，在两种方法中，89%的contigs的顺序是一致的。32条染色体中包含了8个同源组群和4组单倍型A，B，C和D（见图1）。

图1S. spontaneumAP85-441染色体与高粱染色体的比对

2、基础染色体数目的减少

AP85-441基因组的组装显示了S. spontaneum的染色体数目从10降到8，而这与频繁复制的古复制染色体对相关，通过与高粱的聚类比对，发现高粱祖先5号染色体和8号染色体同源物经历了染色体裂变（见图2）。SbChr05（A12）的祖先染色体断裂分为两个主要部分，即C5S（A12S）和C5L（A12L），分别转移到SbChr06（A2）和SbChr07（A5）的祖先染色体；SbChr8（A11）的祖先染色体断裂为两个主要的部分，即C8S（A11S）和C8L（A11L），分别转移到SbChr09（A6）和SbChr02（A7 + A9）的祖先染色体中。SbChr8和SsChr5之间及SbChr5和SsChr7之间近乎同源的短片段是在高粱与甘蔗分化前，高粱SSA形成于13.4 MYA同源基因的残留物，同时发现，S5中较小的SSA区域和S8中SSA的较大区域在重排的AP85-441基因组中也是保守的。

图2 禾本科染色体数进化（高粱n = 10到甘蔗n = 8）

3、S. spontaneum的起源与遗传多样性分析

研究中对世界种质资源库的64份S. spontaneum材料进行重测序，发现其核苷酸多态性（π）[0.00021±0.000002 ]远远低于其它克隆繁殖的作物，如马铃薯，木薯，葡萄和柑。通过PCA主成分分析及群体结构分析发现64份材料分为3个群，这些群体也受到自然和地理起源推断的64份种质的系统发育关系的支持（见图3），group1来源于菲律宾，印度尼西亚和巴布亚新几内亚；group2和group3来源于印度，巴基斯坦和伊朗。基因组倍性在三组中差异很大（从6x-16x）。通过系统进化分析发现，表明不同的倍性可能是从祖先独立进化而来的。

图3 64份甘蔗的群体结构与进化关系分析

参考文献：Zhang J, Zhang X, Tang H, et al. Allele-defined genome of the autopolyploid sugarcane Saccharum spontaneum L[J]. Nature genetics, 2018, 50(11): 1565.

百迈客成功案例四：异源四倍体野生花生Hi-C辅助基因组组装

英文题目：Genome of an allotetraploid wild peanut Arachis monticola: a de novo assemble.

中文题目：异源四倍体野生花生（Arachis monticola）基因组组装

发表期刊：Giga Science

发表时间：2018年6月

合作单位：河南农业大学

研究方法：基因组

研究背景

花生作为我国重要的经济作物，广泛种植于热带和亚热带地区，是提供重要的蛋白和油料的基础。作为豆科的重要分支之一，花生属一共包括30个二倍体品种，1个异源四倍体野生花生(A.monticola)和1个异源四倍体栽培花生(A.hypogaea)(2n = 4x = 40)。作为栽培花生农艺性状改良的重要野生资源供体，野生四倍体花生的基因组也一直是国内外学者的研究热点。成功破译四倍体野生花生的基因组有助于科学家和育种专家对A.hypogaea起源及驯化过程的理解。

材料选择

野生四倍体花生A.monticola；

测序策略：Illumina X-ten、PacbioRSII和Bionano

分析软件：

基因组组装：Canu v1.5，WTDBG，Pilon（v1.22），LoRDEC v0.5，Falcon v0.7，quickmerge v0.2，Allpath-LG v1.4，IrysView v2.5.1等；Hi-C染色体挂载：HiC-Pro，LACHESIS，Pbjerlly2，GapCloser，Pilon；基因组质量评估：BUSCO pipeline v3.0.2 等。

主要研究结果

在这项研究中，研究人员以野生四倍体花生A.monticola为研究材料，进行测序得到36X SMRT subreads + 76X HiC data + 210X Bionano Irys data + 50XIllumina reads的测序数据，整合多种组装工具的优势，最终获得了参考基因组水平的高质量组装结果。又利用BioNano和Hi-C等方法对基因组进行区分最终A.monticola得到的subgenome与祖先A基因组A.duranensis、祖先B基因组A.ipaensis之间的比较。并利用Hi-C数据对获得的基因组进行准确性评估（见图1）。

图1 四倍体野生花生及两个二倍体祖先热图评估

参考文献：Yin D, Ji C, Ma X, et al. Genome of an allotetraploid wild peanut Arachis monticola: a de novo assembly[J]. GigaScience, 2018, 7(6): giy066.

百迈客成功案例五：杂草稻Hi-C辅助基因组组装

英文题目：Population Genomic Analysis and De novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary Game.

中文题目：群体基因组分析结合从头组装揭示杂草稻作为进化演绎的起源

发表期刊：Molecular Plant

发表时间：2019年1月

合作单位：沈阳农业大学

研究方法：基因组、比较基因组、群体遗传进化

研究背景

作物杂草化一直以来都是作物学领域的一大难题，尤其是杂草稻（Oryza sativa f. spontanea）的起源与演化，至今尚未破解。杂草稻具有很强的生态适应性，但其种群独特的遗传特征是如何被逐渐塑造的还不是十分清楚。在气候快速变化和人口增长的的世界，从杂草植物中分离基因对提高产量和粮食安全至关重要。然而，由于缺乏杂草种的参考基因组，已经极大地限制了优良基因的发现和基因组结构水平上水稻杂草性的遗传基础。由于亚洲高纬度杂草稻（WRAH）分布到水稻种植的北部边界（N50°14′），并且经历了比栽培稻更强的选择压力，因此它强大的生态适应性可以为栽培的遗传优良的水稻提供有利的基因资源。

材料选择

研究中一共使用303个水稻样本用于测序，包括从中国东北和日本北部的亚洲高纬度（WRAH）采样的248种杂草稻中筛选出的48份核心资源；43份现在或已大面积种植的共存栽培稻商业品种（Japonica-C）；26份从粳稻核心种质资源中筛选的温带粳稻地方品种（Japonica-L），在本研究中Japonica-M代表Japonica-C和Japonica-L的混合组。此外，本研究中还使用了145份籼型水稻样本，包括136份地方品种和9份优良品种以及其他3个典型的栽培稻亚群样本（12份tropical japonica、11份aus和3份aromatic）作者还收集了15份来自中国南方的中纬度杂草稻（WRSC）。

测序策略：Illumina Hiseq和PacBio

分析软件：

303份水稻样本的SLAF-seq结果SNP鉴定及系统发育树构建：SOAP，MEGA 7.0；遗传多样性分析：BioPerl；QTL定位：利用亲本WR04-6和Qishanzhan构建F8RIL群体，包含168个子代，通过SLAF-seq技术HighMap软件构建遗传图谱和QTL定位；群体进化推演分析：DIYABC v. 2.0.3

基因组组装：Canu，WTDBG，Pilon（v1.22），bwa；Hi-C染色体挂载：bwa，LACHESIS，Pbjerlly2；重复注释：LTR-FINDER v1.05，MITE-Hunter，Repeat Scout v1.0.5，PILER-DF v2.4，PASTEClassifier，RepeatMasker v4.0.6；蛋白编码基因预测及评估：Genscan，Augustus v2.4，GlimmerHMM v3.0.4，GeneID v1.4，SNAP（version 2006-07-28），GeMoMa v1.3.1，PASA v2.0.2，EVM v1.1.1；非编码RNA预测：tRNAscan-SE v1.3.1；假基因预测：GenBlastA v1.0.4，GeneWise v2.4.1；基因功能和motif注释：BLAST v2.2.31，BLAST2GO，InterProScan；结构变异检测：MUMmer4；共线性分析：MCScanX；选择压力分析：PAML v4；

主要研究结果

1、系统发育分析

本研究利用来自中国和日本的48份WRAH种系，43份与WRAH共存的温带粳稻品种（Japonica-C），26份中国最早的温带粳稻品种（Japonica-L），四个典型的栽培稻亚群（12tropical japonica，145 indica/xian,，11 aus和3 aromatic），15份来自中国南方中纬度杂草稻（WRSC）以及已经发表了全基因组SNP信息的30份野生祖先种，基于SLAF-seq共检测到122,777个高质量SNP，叫做122k-SNP，用于系统发育树的构建（见图1）。系统发育树显示，WRAH在系统发育上不同于Japonica-C，并且与温带粳稻Japonica-L群体形成了明确分群；WRSC种质与籼稻种质划分到一个亚群。

图1 系统发育树分析

2、基因组测序、组装及注释

本研究基于单分子实时测序（SMRT）、高通量NGS和染色质构象捕获（Hi-C）技术组装了高质量的亚洲高纬度杂草稻WR04-6基因组。最终组装出染色体水平的高质量基因组，包含12条染色体，大小为373.93Gb，contigN50位6.09Mb。最后，去除重复序列后通过从头预测、同源预测和RNA-seq分析共获得41,385个基因，有96.32%的基因在NR，KOG,，GO，KEGG，TrEMBL数据库中得到了注释（见图3）。

图3 Hi-C辅助基因组组装热图

图4 杂草稻基因组分布图

3、比较基因组分析

利用OrthoMCL软件检测WR04-6、R498、Nipponbare和W1943（O. rufipogon）间核心的、非必须的和共有的基因家族。在WR04-6中鉴定到了909个扩张的基因家族，并且通过通路分析显示，这些基因在光合作用和呼吸作用中显著富集（p<0.01），例如氧化磷酸化、光合作用和核糖体的KEGG途径，考虑其可以作为遗传改良的信号。以O. barthii作为外群构建的进化树显示WR04-6与粳稻祖先的分化时间估计在3,706ya（1,235ya-6,326ya），见图4。

图4 以O. barthii作为外群构建的最大似然树

参考文献：Sun J, Ma D, Tang L, et al. Population Genomic Analysis and De novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary Game[J]. Molecular plant, 2019.

百迈客成功案例六：构树Hi-C辅助基因组组装

英文题目：A Chromosome-Scale Genome Assembly of Paper Mulberry (Broussonetia papyrifera) Reveals the Genetic Basis of Its Forage and Papermaking Usage.

中文题目：染色体水平的基因组揭示构树饲用和造纸的遗传基础

发表期刊：Molecular Plant

发表时间：2019年2月

合作单位：中国科学院植物研究所北方资源植物重点实验室

研究方法：基因组、比较基因组等

研究背景

构树（Broussonetia papyrifera，2n=2x=26）属于桑科（Moraceae）构属（Broussonetia）多年生乔木，是我国乡土树种和先锋植物，有悠久的历史和文化，因为蔡伦用它造纸而世界闻名。构树的树皮和树干是造纸的优质原料，树叶还可以作为蛋白饲料，其根、茎、叶、果实及种子均可入药，富含黄酮类化合物；还是尾矿处理、生态绿化的理想树种。然而，有关构树的研究主要集中于造纸、药理药化、养殖以及生态绿化等应用方面，基础生物学的研究很少。因此，构树栽培改良的第一步是获得其遗传背景，以便能更好地掌握其特有特征的生物学机制。

材料选择

生长5年的雌性构树用于基因组测序；基因组测序的雌性构树与未知雄性构树杂交，获得包含120个F1个体的CP群体用于构建遗传图谱辅助基因组组装。

测序策略：Illumina Hiseq和PacBio

分析软件：

基因组组装注释：基因组组装：ALLPATHS-LG，SSPACE，GapCloser，BioNano Genomics ，RefAligner，LoRDEC，Pbjelly，MAPS，ALLMAPS；Hi-C辅助基因组组装：Hi-C-Pro，LACHESIS；基因组注释：RepeatMasker (version open-4.0.5)，PILER (version 1.0)，RepeatScout (version 1.0.5)，LTR-finder，MITE，PASTEClassifer，PASA，AUGUSTUS（vertion 3.0.3），SNAP，GlimmerHMM，GeneID，Genescan (version 1.1.0)，），Genewise (version 2.2.0），TopHat2 (version 2.0.7)，Cufflinks (version 2.2.1)，GeneMarkS-T (version 5.1)，Genewise；基因功能注释，InterProScan (version 5)，Hmmscan (HMMER, version 3.0)，BLAST2GO (version 2.5)，BLASTP，Trembl，tRNAscan-SE (version 1.3.1)，Infernal cmscan (version 1.1.1)。

比较基因组分析：直系同源基因鉴定：OrthoMCL (version 2.0)；系统发育树构建与分化时间估算：MUSCLE、Gblocks (version 0.91b)和RaxML（version 8），MCMCTREE评估分化时间；基因家族扩张和收缩分析：CAFE（vertion 3.1）；染色体共线性分析、4DTV检测及Ks值计算：MCscan。

主要研究结果

1、基因组组装与注释

本研究使用Illumina HiSeq和PacBio Sequel测序平台，用Hi-C、光学（BioNano Irys）和遗传图谱辅助，进行雌性构树的基因组组装。获得染色体水平的高质量构树基因组，其大小为386.93Mb，scaffold N50是29.48Mb，有99.25%（357.56Mb）的基因组被锚定在13条染色体上，Hi-C热图评估（见图1）。一共预测了30,512个基因，98.09%与已知基因同源并且得到了功能上的注释。

图1 热图验证Hi-C辅助染色体组装

图2 构树染色体分布图

2、构树的基因组进化

利用14个物种（无油樟、亚麻、毛杨、棉花、拟南芥、黄瓜、苜蓿、桑树、构树、桃树、葡萄、番茄、毛竹和玉米）的单拷贝直系同源基因构建系统发育树，发现构树与桑树在同一分支，在大约3100万年前与桑树分开，与桃子的分化时间在大约7800万年前（见图3），该结果被4DTv的分析结果所证实，通过Ks分析进一步得到证实。

图3 14个物种的系统发育树

根据已报道的双子叶植物祖先和谱系特异性WGD，本研究推测，古六倍化始祖的21条染色体至少经历了11次大的染色体融和（cfus）和2次染色体裂变后产生了桑科中间状态的12条始祖染色体（见图4）。桑科的始祖染色体的数目与葫芦科和杨柳科是相似的，但是与蔷薇科（n = 9）、豆科（n = 6）、锦葵科（n = 16）和茄科（n = 16）是不同的。进化推演分析表明，构树的染色体是从桑科的12条始祖染色体经27次融合和28次裂变重构的，说明构树基因组在进化过程中至少经历了68次的染色体融合和裂变。

图4 构树和其他6种植物基因组重构的进化推演

3、比较基因组分析

在构树基因组中共发现15,254个基因家族，与桑树分化之后，有431个基因家族扩张，230个基因家族收缩，表明在适应进化过程中，构树中更多的基因家族经历了扩张而不是收缩。另外，与苜蓿、毛杨和甜橙相比，转录因子发生明显收缩（58个家族共1,342个转录因子，占蛋白编码基因的4.4%）。肌动蛋白在植物的生长和发育的很多层面扮演着重要的角色，在酵母和很多动物中，肌动蛋白仅被一个单基因编码。在构树中仅发现4个肌动蛋白，少于藻类、小立碗藓和无油樟。

参考文献：Peng X, Liu H, Chen P, et al. A Chromosome-Scale Genome Assembly of Paper Mulberry (Broussonetia papyrifera) Provides New Insights into Its Forage and Papermaking Usage[J]. Molecular plant, 2019.

百迈客HI-C研究优势

百迈客自2016年初以来，利用Hi-C技术进行染色体水平的基因组组装及染色体三维构象的研究，成功开发出六碱基、四碱基酶切方案，组装、互作轻松拿下。在植物Hi-C领域，更是迈进了一大步，在同行还只能处理植物活体样本的时候，我们已经可以轻松“驾驭”离体枝条。迄今为止，保持着近100%的建库成功率，完成近300个物种，近千个文库构建；文库含酶切位点的有效数据比例最高达93%以上，平均比例高达68%。另外百迈客在Hi-C技术方面获得一个专利和两个软著。Nature Genetics、Nature Communications、Molecular Plant等一大波Hi-C的高分文章在审稿或已接收的路上，后续会陆续与大家见面，敬请期待~~