Mendelian randomization 和 GWAS

AI
bioinformatics
Author

Shixiang Wang

Published

April 15, 2025

提问

孟德尔随机化与gwas区别

孟德尔随机化与全基因组关联分析

孟德尔随机化(Mendelian Randomization, MR)和全基因组关联分析(Genome-wide association study, GWAS)是两种在遗传流行病学研究中常用的方法,它们在目的、数据来源、分析流程、假设条件、结果解释以及应用场景等方面存在一些区别:

定义与目的

  • GWAS:是一种用于识别与复杂性状(如疾病、性状等)相关的遗传变异的方法。通过对大规模人群进行基因组扫描,GWAS可以发现单核苷酸多态性(SNP)与某一性状的关联。
  • 孟德尔随机化:是一种利用遗传变异作为工具变量来研究因果关系的方法。它的基本思想是利用随机分配的基因型来消除混杂因素的影响,从而评估某一暴露(如生活方式、饮食习惯等)与结果(如疾病)的因果关系。

数据来源

  • GWAS:需要大量的样本数据,通常包括病例组和对照组,通过基因分型技术获取个体的基因型数据,并收集相关的表型信息。
  • 孟德尔随机化:主要依赖于GWAS的结果数据,即已经识别出的与暴露和结果相关的SNP及其关联统计量(如效应大小、P值等)。

分析流程

  • GWAS:首先对原始数据进行质量控制,包括去除缺失率高的 SNP 和样本、排除偏离哈迪-温伯格平衡的 SNP 等;然后进行关联分析,计算每个 SNP 与表型之间的关联 P 值,并绘制曼哈顿图和 QQ 图等进行可视化。
  • 孟德尔随机化:首先从 GWAS 数据中挑选工具变量,即与暴露因素强相关的 SNP;然后进行两样本孟德尔随机化分析,利用工具变量估计暴露与结果之间的因果效应,常用的估计方法有逆方差加权法、MR Egger 回归法等。

假设条件

  • GWAS:主要假设是基因型与表型之间存在关联,且这种关联在统计学上是显著的。
  • 孟德尔随机化:需要满足三大假设,即关联性假设(SNP 与暴露因素之间是强相关的)、独立性假设(SNP 与混杂因素之间是独立的)和排他性假设(SNP 只能通过暴露因素对结局产生作用)。

结果解释

  • GWAS:结果表明某个 SNP 与某个性状存在关联,但这种关联并不一定是因果关系,可能受到混杂因素和反向因果关系的影响。
  • 孟德尔随机化:结果可以推断暴露因素与结果之间是否存在因果关系,以及因果效应的大小和方向,为后续的干预研究和政策制定提供依据。

应用场景

  • GWAS:适用于探索性研究,用于发现与复杂性状相关的遗传变异,为后续的功能研究和机制探讨提供线索。
  • 孟德尔随机化:适用于在观察性研究中评估因果关系,特别是在无法进行随机对照试验的情况下,如评估生活方式、环境暴露等因素对疾病的影响。
提问

能形象地介绍孟德尔随机化并举例么

孟德尔随机化(Mendelian Randomization, MR)是一种利用遗传变异作为工具变量的方法,用于评估暴露因素(如生活方式、环境因素等)与结果(如疾病)之间的因果关系。它的核心思想是利用基因的随机分配特性来减少混杂因素的影响,从而更可靠地推断因果关系。下面通过一个形象的比喻和具体例子来解释。

形象比喻:基因是“天生的随机试验”

想象你正在进行一项研究,想弄清楚“喝咖啡是否会导致高血压”。在传统的观察性研究中,你可能会发现喝咖啡多的人更容易得高血压,但这并不一定是因果关系。也许喝咖啡多的人同时有其他习惯(比如吸烟、熬夜),这些习惯才是高血压的真正原因。

孟德尔随机化就像一个“天生的随机试验”。基因在受精卵形成时是随机分配的,这种随机性类似于随机对照试验(RCT)中的随机分组。如果某个基因与喝咖啡的行为相关(比如这个基因让人更喜欢咖啡的味道),那么这个基因就像一个“标签”,可以帮助我们研究喝咖啡与高血压之间的因果关系,而不受其他混杂因素的干扰。

具体例子:饮酒与心血管疾病

假设你想研究“饮酒是否会导致心血管疾病”。传统的观察性研究可能会发现饮酒多的人更容易得心血管疾病,但这可能是由于饮酒者的生活方式(如吸烟、不运动)或其他因素的影响。

孟德尔随机化的步骤:

  1. 找到工具变量:假设科学家发现了一个基因(比如某个单核苷酸多态性,SNP),这个基因与饮酒行为相关。携带这个基因的人更倾向于饮酒,而这个基因本身与心血管疾病无关(除了通过饮酒间接影响)。
  2. 关联分析
    • 首先,研究这个基因与饮酒行为的关联(工具变量与暴露因素的关联)。
    • 然后,研究这个基因与心血管疾病的关联(工具变量与结果的关联)。
  3. 因果推断:如果基因与饮酒行为强相关,而基因与心血管疾病也有显著关联,那么可以推断饮酒与心血管疾病之间可能存在因果关系。

假设条件:

  • 关联性:基因必须与饮酒行为强相关。
  • 独立性:基因不能与混杂因素(如吸烟、饮食习惯)相关。
  • 排他性:基因只能通过饮酒行为影响心血管疾病,而不能通过其他途径(如直接影响胆固醇水平)。

总结:

孟德尔随机化就像一个“天然的实验设计”,通过利用基因的随机分配特性,帮助我们更准确地评估因果关系,避免传统观察性研究中混杂因素的干扰。它特别适用于那些无法进行随机对照试验的情况(如研究生活方式或环境暴露对健康的影响)。

提问

在你的例子中,开始说 基因本身与心血管疾病无关,但关联分析时又需要发现基因与心血管疾病的关联,怎么区分和理解?

在孟德尔随机化中,基因与结果(如心血管疾病)的关联是间接的,而不是直接的。这种关联是通过暴露因素(如饮酒行为)实现的。为了更好地理解这一点,我们需要明确孟德尔随机化的三大假设,并结合因果推断的逻辑来解释。

1. 基因与结果的关联是间接的

  • 假设条件:在孟德尔随机化中,工具变量(基因)必须满足以下条件:
    1. 关联性:基因必须与暴露因素(如饮酒行为)强相关。
    2. 独立性:基因不能与混杂因素(如吸烟、饮食习惯)相关。
    3. 排他性:基因只能通过暴露因素(饮酒行为)影响结果(心血管疾病),而不能通过其他途径(如直接影响胆固醇水平)。
  • 关键点:基因本身并不直接作用于结果(心血管疾病),而是通过暴露因素(饮酒行为)间接影响结果。因此,基因与结果的关联是间接的,而不是直接的。

2. 如何理解基因与结果的关联

假设我们发现基因 ( G ) 与饮酒行为强相关(关联性假设成立),并且基因 ( G ) 与心血管疾病也有显著关联。这种关联的出现是因为: - 基因 ( G ) → 饮酒行为 → 心血管疾病

如果基因 ( G ) 与心血管疾病的关联是通过饮酒行为实现的,那么我们可以推断饮酒行为与心血管疾病之间存在因果关系。

3. 为什么需要基因与结果的关联

  • 因果推断的逻辑:如果基因 ( G ) 与饮酒行为强相关,并且基因 ( G ) 与心血管疾病也有显著关联,那么这种关联只能通过饮酒行为来解释。因为基因 ( G ) 不能直接作用于心血管疾病(排他性假设成立),所以基因与结果的关联必须是通过饮酒行为实现的。

  • 结论:基因与结果的关联是因果推断的关键证据。如果基因与结果没有关联,那么即使基因与暴露因素强相关,也无法证明暴露因素对有结果因果作用。

4. 总结:基因与结果的关联是间接的

  • 基因本身与结果无关:基因不能直接作用于结果(如心血管疾病),这是排他性假设的核心。
  • 基因与结果的关联是间接的:基因通过暴露因素(如饮酒行为)间接影响结果,因此基因与结果的关联是因果推断的。

具体例子:饮酒与心血管疾病

  • 假设
    • 基因 ( G ) 与饮酒行为强相关(关联性假设成立)。
    • 基因 ( G ) 与心血管疾病有显著关联(基因与结果的关联)。
    • 基因 ( G ) 不能通过其他途径(如直接影响胆固醇水平)作用于心血管疾病(排他性假设成立)。
  • 结论:如果基因 ( G ) 与饮酒行为强相关,并且基因 ( G ) 与心血管疾病也有显著关联,那么可以推断饮酒行为与心血管疾病之间存在因果关系。

形象比喻:桥梁

  • 想象基因 ( G ) 是一座桥梁的起点,饮酒行为是桥梁本身,心血管疾病是桥梁的终点。基因 ( G ) 不能直接到达终点(心血管疾病),但它可以通过桥梁(饮酒行为)间接影响终点。如果桥梁(饮酒行为)被破坏(例如,通过干预减少饮酒),那么基因 ( G ) 与终点(心血管疾病)的关联也会消失。

通过这种方式,孟德尔随机化利用基因的随机分配特性,帮助我们更可靠地评估因果关系,而不受传统观察性研究中混杂因素的干扰。

提问

如何在实际分析中满足排他性:基因只能通过暴露因素(饮酒行为)影响结果(心血管疾病),而不能通过其他途径(如直接影响胆固醇水平)。

在孟德尔随机化中,确保基因(工具变量)只能通过暴露因素(如饮酒行为)影响结果(如心血管疾病),而不能通过其他途径(如直接影响胆固醇水平),是满足排他性假设的关键。以下是实现这一目标的具体方法和注意事项:

1. 选择合适的工具变量

  • 避免多效性:选择的基因变异应仅与暴露因素(如饮酒行为)相关,而不与其他可能影响结果的途径相关。例如,ALDH2基因变异(影响酒精代谢)是一个常用的工具变量,因为它主要通过改变饮酒行为间接影响心血管疾病,而没有其他已知的途径直接影响心血管健康。
  • 文献回顾:通过查阅已有的生物学研究和遗传学文献,确保所选基因变异的生物学机制仅通过暴露因素起作用。

2. 验证排他性假设

  • 分层分析:在某些亚组中验证基因与结果的关联是否仅通过暴露因素实现。例如,在饮酒行为较低的人群(如女性)中,如果基因与结果的关联消失,则说明排他性假设成立。
  • 负向控制分析:在与暴露因素无关的亚组中进行分析。例如,研究饮酒对心血管疾病的影响时,可以分析基因与结果的关联在不饮酒人群中是否显著。如果不显著,则支持排他性假设。

3. 敏感性分析

  • 多效性检测:使用统计方法(如PCMR分析)检测工具变量是否存在水平多效性(即基因通过其他途径影响结果)。如果检测到多效性,可以排除这些变异或调整分析方法。
  • 异质性检验:通过分析工具变量对结果的异质性,判断是否存在其他潜在路径。

4. 结合生物学机制

  • 生物学验证:利用已知的生物学机制验证基因变异是否仅通过暴露因素影响结果。例如,ALDH2基因变异通过影响酒精代谢改变饮酒行为,而不会直接影响胆固醇水平或其他心血管疾病风险因素。

5. 使用多基因评分

  • 增强工具变量的关联性:通过合并多个基因变异(多基因评分),可以增强工具变量与暴露因素的关联性,从而提高分析的统计功效,并减少多效性的影响。

总结

在实际分析中,满足排他性假设需要综合考虑工具变量的选择、验证方法和生物学机制。通过避免多效性、验证基因与结果的关联是否仅通过暴露因素实现,以及结合敏感性分析,可以提高孟德尔随机化分析的可靠性,从而更准确地推断因果关系。

本站总访问量 次(来源不蒜子按域名记录)