
文| 夙夜玖歌
编辑| 夙夜玖歌
前言
苹果是一种重要的经济果树,广泛生长在世界各地的温带地区。栽培苹果已从野生苹果中驯化,并与苹果杂交。栽培苹果和野生亲缘植物之间的表型差异在果实大小、味道和其他农艺性状方面是巨大的。性状变异的遗传来源主要归因于单核苷酸多态性和拷贝数变异。
然而,迄今为止,揭示与苹果重要性状相关的分子机制的研究主要集中在snp上,而CNV的信息尚未被探索。CNV是一种不平衡的结构变异,表现为长度为[7–9]且大于50 bp的缺失和重复。
CNV可以改变DN*片A**段的剂量,导致不同个体拷贝数的变化,进而可能影响基因表达水平和表型变异]。与SNPs相比,基因组中CNV的数量要少得多,但受CNV影响的碱基对总数明显高于SNPs 。因此,CNV是遗传变异的重要来源,可能影响群体遗传学中缺失的环节。

CNV调用过程和仿真评估
在苹果中进行了CNV鉴定,简单地说,采用了RP、SR和RD方法的策略。共收集了346份材料的1.56 Tb高质量的全基因组测序数据进行分析。将干净的reads与参考基因组“GDDH13第1.1版”进行比对后,平均深度为~7.2X,基因组覆盖率为~92%,表明其适用于CNV检测。
为了保证CNV检测的准确性,在苹果基因组中使用模拟的CNV来评估Speedseq的性能。Te结果表明,它能够在基因组学研究中常用的测序深度水平上检测到模拟的CNV.对于测序深度在5-10X之间,使用的方法可以分别获得~的65%和~的真阳性率。随着测序深度的增加,TPR的改善变得边缘,缺失和重复的~分别为84%和~为80%。
CNV基本总结
利用GDDH13参考基因组,共鉴定出346份材料中的914610个CNVs。每次登录的CNVs平均数量为2643,平均为2423个缺失和220个重复。为了保证识别cnv的可靠性,对读取映射进行了手动检查。在这里选择MdCBF2的5‘UTR中一个630 bp的缺失和一个覆盖MD15G139100的重复作为样本区域,以显示已识别的cnv的可靠性。

CNVR的分布和与SNPs的连锁分析
接下来将不同加入的cnv合并到cnvr中。共鉴定出14,839个CNVRs covering~71.19 Mb。这些CNVRs解释了参考基因组的for~10.03%。10个,他们被分为3种类型:13579个损失,1048个增加和212个两个事件。CNVRs的Te长度从109 bp到847 kb不等,平均为4.80kb。全基因组的CNVRs在各染色体上的分布,以及SNPs、TEs和基因特征如图所示,TEs和CNVRs的基因组分布似乎是一致的。
对于每个CNVR,考虑附近上下游的300个SNPs进行连锁不平衡(LD)分析。然后将cnvr分为低ld、中ld和高ld三类,如方法所示。绝大多数CNVRs(80%)表现出低LD,15%的CNVRs具有中等水平的LD,只有5%表现出高LD,可以被相邻的SNPs标记。预计,更常见的等位基因更常处于高LD状态,显示LD状态与CNVR MAF呈正相关。此外,在三种CNVR类型中,高ld、中ld和低ldCNVRs的比例相似。

CNVR可以准确地推断种群结构
CNVRs的系统发育分析表明,苹果材料可以清晰地分为品种和野生亲缘关系。邻域连接聚类分析表明,该品种位于野生材料附近,而该品种和品种形成了一个较大的分支.然后,我们将苹果材料的主成分分析(PCA)结果与从SNPs中推断出的群体结构进行了比较。虽然CNVs的PC1和PC2解释的方差(6.94%)低于SNPs(26.52%),但两种结果都可以区分品种和野生亲缘关系。
虽然基于snp的结果中的样本更为集中,但基于CNVR的PC1和PC2的样本跨度更宽。
不同品种和野生亲缘关系之间的CN分化基因
为了研究这两个苹果群体中CNVs注入的cn分化基因,计算所有品种与野生亲缘植物(这里仅保留ss和s)之间的Vst基因,并进一步分析位于Vst前1%的基因(图5A,B;附加fle 2:表S7)。在127个cn分化基因中,有17个被注释为R基因,其中大多数在野生亲缘基因中的拷贝数高于不同品种,这与野生材料具有较高的抗病性相一致。

例如,MD03G1049200(编码含有NB-ARC结构域的抗病蛋白,参与病原体识别和随后的先天免疫应答激活)与野生亲缘品种(平均CN=2.03)相比具有更高的CN(平均CN=3.92)。与对病原体的特异性免疫应答相关的典型抗性基因或外部不良刺激,如MD15G13091000也表现出类似的CN趋势。利用一个品种和两个野生材料的表达数据,我们还观察到MD15G1391000的表达水平随着拷贝数的增加而增加。
讨论
在过去的时间中,SNPs已经被广泛用于群体遗传学相关的研究。然而,SNPs研究发现的因果位点只解释了性状变异的部分遗传贡献,这导致了一种被称为“遗传力缺失”的现象。CNVs作为基因组变异的一个重要来源,有可能填补snp在群体遗传学中无法揭示的缺口。
在本研究中初步评估了Speedseq的性能,以确定其在CNV检测中的可用性。虽然没有检测到所有的CNVs,但该方法保持了极低的假阳性率(<1%)。仿真结果表明, 本策略能够以较高的精度检测出本工作数据中的大多数cnv 。据报道,与HFTH1基因组相比,MdCBF2的5‘UTR中有一个625 bp的CNV调控GDDH13参考基因组的冷驯化。

相应地在一些材料中发现一个630 bp的缺失,与金美味材料中的GDDH13基因组相比同时对MdCBF2周围的reads映射和CNV检测进行了人工检查,以确保结果的准确性,说明CNV检测策略是有效和可靠的。
然后将这些CNVs合并生成14,839个CNVRs,占苹果参考基因组的10.03%。首先探讨了CNVRs与TEs之间的关系。CNVRs与TEs之间基因组密度的Pearson相关系数为0.6(明显正相关),95.92%的CNVRs与TEs重叠,表明CNVRs在TEs内有一定程度的富集。
所得到的CNVR图谱也与SNPs进行了比较。与snp在染色体上的高度可变分布相比,CNVR的分布基本平坦,表现出两种变异类型的解耦。全基因组中CNVR和SNP的密度与局部不一致性呈显著正相关(r=0.58;p<2.2e-16)。

为了检验CNVRs与SNPs之间是否存在某种关系,对每个CNVR与附近的600个SNPs进行LD分析。类似于测试结果据其他研究报道,CNVRs通常与SNPs处于低连锁状态(即80%的CNVRs表现出低LD状态)。低LD状态可以归因于两个原因。首先,LD受到等位基因频率的影响,这反映在CNVR MAF与LD状态之间的正相关关系上,而偶联位点的等位基因频率的差异会导致它们之间的LD较低。
但近一半的CNVRs处于低等位基因频率(MAF≤0.05),而SNPs的MAF均大于0.05。CNVRs和snp的不匹配等位基因频率很可能是导致低LD的原因之一。另一方面,局部区域内的SNP密度可以解释低LD,CNVs在基因组的片段复制区域内富集,其中缺乏SNPs 。

Cooper等人和麦卡罗尔等人在他们的人类CNV分析中使用了不同的SNP集,导致CNVs和SNPs之间存在不同的LD状态。
在研究中,SNPs和CNVRs的密度存在轻微的不一致,,这也可能影响低LD状态。需要进行后续研究来彻底阐明CNVs和snp之间的关系。综上所述, 作为一种尚未全面描述的遗传变异,有可能与独立于snp的重要性状发生关联。 只有在至少10个个体中出现的CNVR被用于后续的功能和群体遗传学分析,从而最大限度地减少了序列覆盖深度的一致性和罕见CNVR的影响所造成的偏差。
不同品种和野生亲缘关系之间的CN分化基因
在本分析中只考虑这两个物种的野生亲缘关系。利用Te统计量Vst来鉴定不同品种和野生亲缘植物之间的差异基因。它是专门设计来测量CNV水平上的种群分化,从0到1,分别代表没有分化和完全分化。Vst的计算方法如下:

式中,Vtotal为所有苹果材料中CNVnator测量的拷贝数的总方差,Virvarars为所有品种间的拷贝数方差,Vwild亲缘关系为所有野生亲缘关系间的拷贝数方差。N品种和N野生亲缘关系分别为品种和野生亲缘关系的样本量;Ntotal为总样本量。使用CNVnator获得的CN估计数计算所有基因的Tus Vst。

结论
在本研究中,对野生苹果和栽培苹果进行了全面的CNV分析。共鉴定出14,839个CNVRs,占苹果基因组的10.03%,并基于346份苹果材料构建了CNVs综合图谱。 CNVRs和snp之间的LD较低,表明CNVs在很大程度上是独立的遗传变异资源。
与CNVRs重叠的基因主要在防御反应、繁殖等代谢过程中富集。一些重叠CNVRs的基因在品种和野生亲缘关系之间高度分化,这似乎与它们之间的一些性状差异有关。为了确认它们的遗传关联,需要在后续研究中进行功能验证。这些信息将为全面了解苹果的基因组变异提供重要的资源,并可能为今后对苹果及其近缘物种的基因组研究提供有用的参考。