Discordant and clipped reads

bioinformatics
Author

Shixiang Wang

Published

April 15, 2024

From Kimi, 可靠性自己判断。

Discordant reads 和 clipped reads 是在基因组测序数据分析中用于检测基因组结构变异(Structural Variation, SV)的两种重要类型的读长(reads)。

Discordant reads 指的是那些配对末端读长(paired-end reads)中,一个读长能够正常比对到参考基因组的预期位置,而另一个读长比对到了参考基因组中的非预期位置。这种不一致性通常表明在基因组中存在某种结构变异,如易位(translocation)或倒位(inversion)。例如,当两条同源或非同源染色体之间发生易位时,配对的读长可能会显示一个读长位于易位片段的原始位置,而另一个读长则位于易位后的新位置。

Clipped reads 又称为soft-clipped reads,是指单个读长中有一部分序列能够比对到参考基因组的一个位置,而剩余的序列则比对到了另一个不同的位置。这种读长表明在比对的两个位置之间可能发生了某种结构变异,如插入(insertion)。Clipped reads中的缺口(gap)或不匹配部分可以揭示插入序列的边界,从而帮助确定结构变异的精确位置。

这两种读长类型在结构变异检测中非常关键,因为它们提供了直接的证据来揭示基因组中可能发生的重排、插入或缺失等变异。通过分析这些读长,研究人员能够更准确地识别和表征基因组结构的变化,这对于理解基因功能、疾病机理以及进化过程都有重要意义。

Discordant reads 在双端测序比对中是通过比较配对末端读数(paired-end reads)的比对结果来判断的。在使用 BWA-MEM 算法进行比对时,discordant reads 的判断过程可以概括为以下几个步骤:

  1. 比对读数到参考基因组:BWA-MEM 首先会对每个读数(reads)进行比对,尝试找到最佳的比对位置。这一过程包括使用种子和扩展(seeding and extending)策略来处理较长的读数,以及使用基于Smith-Waterman算法的局部比对来处理可能的重复区域或结构变异区域。

  2. 评估插入大小:对于双端测序数据,BWA-MEM 会估计插入大小(insert size)的均值和方差,并基于此信息评估每个读数对的两个末端是否在预期的插入大小范围内。

  3. 识别不一致的配对:在比对过程中,如果一个读数的两个末端比对到了参考基因组中相距甚远的位置,这可能表明存在结构变异,如插入、缺失或易位。BWA-MEM 会识别这些不一致的配对,即discordant reads。

  4. 使用动态规划优化比对:BWA-MEM 使用动态规划算法来优化比对结果,自动选择局部比对或端到端比对。如果一个读数的末端比对到了一个真实的变异位点,并且比对质量足够好,BWA-MEM 可能会接受这样的局部比对,而不是强制进行端到端比对,这样可以减少参考偏差并避免引入过多的不匹配和间隙。

  5. 输出结果:最终,BWA-MEM 会输出比对结果,包括所有成功的比对以及识别出的 discordant reads。这些 discordant reads 可以用于后续的结构变异分析。

通过上述步骤,BWA-MEM 能够有效地处理双端测序数据,并识别出可能指示结构变异的 discordant reads。这种方法对于发现和研究基因组中的结构变异非常重要,有助于理解基因组多样性和疾病相关变异。

本站总访问量 次(来源不蒜子按域名记录)