听起来很厉害的「全基因组关联分析」，能算命吗？

图片：The Matrix Reloaded

科学算命：测测你什么时候生孩子？

帅世民，多大计算生物学、遗传学博士在读

相信很多人都在学生时代和好基友或闺蜜们探讨过将来谁最先生小孩。在我们的个人体验里，这样的问题和遗传是八竿子打不着的，似乎更应该由社会、家庭以及个人奋斗等因素决定。然而本月的《自然·遗传学》上就发表了一项与之相关的 GWAS（全基因组关联分析）研究（Nature Genetics 2016）。该研究找到了 12 个与初次生育年龄和生孩子的数量相关的遗传位点。研究人员同时还猜测部分位点会影响到性激素的分泌或者与不孕不育有关。

这篇论文的结果并不是本文的关键，我更想介绍的是这篇文章的方法——GWAS。GWAS 是很有争议的一种方法，如果黑粉也算粉的话，GWAS 可以算是最流行的基因组学研究方法之一了。GWAS 的中文名叫全基因组关联分析，可以被用来在全基因组范围内寻找基因型与表型之间的关联。基因型和表型的关系算得上是遗传学的核心问题。小到性别、ABO 血型这些收录在高中课本中的简单性状，大到糖尿病、癌症等复杂性状都算得是表型。简单的基因型与表型的关系可以通过传统的遗传学方法来阐明。而那些很复杂的性状通常都是由多个基因控制，且单个基因的贡献都不是很大，此时 GWAS 就可以派上用场了。已经被 GWAS 研究过的性状多达上千个而且五花八门，开始大家研究的多是复杂疾病或者身高体重这些比较正常的性状，但现在画风已经越来越奇怪了。除了这里提到的初次生育年龄和生孩子的数量外，就在今年还有关于受教育水平（Nature 2016）、初夜年龄（Nature Genetics 2016）等的 GWAS 研究发表在了高水平期刊上。当然也有些研究纯粹是商业公司用来博取用户眼球的，比如 23andMe 这家公司就通过 GWAS 研究过胸的大小（BMC Med. Genet. 2012）、青春痘（J Invest Dermatol. 2015）以及夜猫子（PLoS Genetics 2016）等性状。

GWAS 算是蛮古老的一种方法了，相关概念在 20 世纪 90 年代就被提出了。比如 Leonid Kruglyak 在 1999 年通过模拟实验推算出至少要 50 万个 SNP（突变的一种，单核苷酸多态性）才能做 GWAS。当然，SNP 的数量在 2016 年已经完全不是问题了，现在的 dbSNP 数据库中一共记录了 1.5 亿个突变（包含了稀有的 SNP 和微小插入与缺失突变）。最早的 GWAS 研究发表于 2005 年，不过公认的第一项设计精良的 GWAS 研究是发表于 2007 年的 Wellcome Trust 研究（WTCCC）。这项研究利用不到 2 万人的数据研究了包括糖尿病、类风湿关节炎等在内的七种常见复杂疾病，并且成功找到了不少全新的致病基因。也正是自 2007 年起，GWAS 研究越来越多，人类基因组学正式进入 GWAS 纪元。

说起 GWAS 的原理其实是非常非常简单的。举个简单的例子，假设我们拿到了一笔钱去研究某种很常见却很复杂的疾病，现在我们找来了 2 万人，其中一万人有这个疾病，另一万人没有。假设我们只关注两个不在同一条染色体上的 SNP，并且其中有且仅有一个 SNP 和这个疾病相关。我们通过给这 2 万人测序或者使用基因芯片收集到的数据如下：

1 号 SNP 在这群人中只有两个等位基因，A 或 T。其中在有病的人群里，A 的频率是 0.8（T 就是 1-0.8=0.2），而在没病的人群里，A 的频率是 0.3
2 号 SNP 在这群人中也只有两个等位基因，C 或 G。其中在有病的人群里，C 的频率是 0.9，而在没病的人群里，C 的频率也是 0.9

根据以上数据，如果我问你到底是 1 号还是 2 号 SNP 和这个疾病有关，相信你一定会说是 1 号。因为 2 号 SNP 的基因型频率分布不受疾病状态影响，而 1 号 SNP 的基因型频率则与有无疾病相关。如果你了解统计的话，也可以算算 odd ratio 并通过 chi-squared test 获得 P 值。下图展示的也是同一个意思。

当然实际研究比这些玩具例子要复杂多了。首先是现在的 GWAS 研究常常涉及到几十万人，就实验方法而言，全基因组测序虽然在慢慢变成主流，但目前大多数研究还是在使用基因芯片。基因芯片的问题是不能覆盖到所有的 SNP，所以有可能真正起作用的 SNP 并没有被检测到。当然我们可以利用连锁不平衡的原理来解决这个问题，但由于有重组的存在，这一解决方案并不完美。此外，GWAS 研究还会受到性别、人口组成等混淆因素的影响，因此优良的实验设计是必须的。比如像开篇的关于生孩子数量的 GWAS 研究的对象是欧洲人群，如果换成中国人群可能就没有意义了，因为对于生孩子数量这个性状而言，中国政策的影响可能远大于遗传。另一个问题就是统计上的困难。通常 GWAS 研究会涉及到上百万个 SNP，如果按照我们常用的 P 值

对于 GWAS 的原理，我们再来总结一下。我们先找到一个想研究的性状，然后找到两群人，一群有这个性状，另一组做对照。在考虑到可能的混淆因素的前提下，通过对比上百万个 SNP 在这两群人中的基因型频率分布来找到与该性状相关的遗传位点。GWAS 研究中，每个 SNP 都会有一个 P 值。为了方便可视化，几乎所有 GWAS 研究都会附带一张曼哈顿图，图中每个点对应一个 SNP，x 轴是 SNP 在基因组中的位置，y 轴是 -log10(P)，因此点越高越显著。“曼哈顿图”这个鬼名字的由来是大家觉得高高低低的点很像是曼哈顿的天际线（下图的天际线是多伦多的）。

前面还提到 GWAS 有很多黑粉，最后我们就来谈谈 GWAS 的黑点，一般有三点。首先，相关不代表因果。考过 GRE 的人应该都做过不少逻辑题，很常见的一种逻辑错误就是混淆相关性和因果性，而通过 GWAS 只能找到相关性。如果找到的 SNP 正好影响蛋白质编码还好说，通过额外的实验不难验证因果性。但实际情况是大部分通过 GWAS 找到的 SNP 位于非编码区，至今功能不明。其次，很多找到的 SNP 对实际性状的影响很微弱，平均 odd ratio 仅为 1.3。最后，GWAS 还有一个黑点是所谓的“消失的遗传率”（missing heritability）问题。遗传率是指表型方差中遗传方差的比例。而 GWAS 研究得到的遗传率不到流行病学调查得到的一半。这个问题大家一般都归咎于目前的 GWAS 处理不了稀有 SNP（就是次要等位基因在人群中频率很低的 SNP），以及遗传互作导致的“幻影遗传率”的存在。由于这些黑点的存在，以及全基因组测序越来越便宜，GWAS 的研究数量从 2013 年起停止增长，估计未来也终将沉睡在教科书中。

那么知道这些对普通人有啥用？我觉得很大的作用是防忽悠，有很多没有找到因果关系的、odd ratio 很小的、遗传率很低的 GWAS 或类似研究结果被应用在了商业活动中，比如新闻报道过的某某婚恋网站号称可以通过“基因配对”来寻找伴侣，也有某些商业公司通过基因芯片来预测疾病风险，以及将来可能会出现的通过测序来预测你生孩子的年龄或数目等。现阶段想通过遗传学来算命多少还是很初步和天真的。

查看更多：科学算命：测测你什么时候生孩子？

转载请注明：微图摘 » 听起来很厉害的「全基因组关联分析」，能算命吗？