FINEMAP:使用GWAS摘要数据进行无功能注释数据的精细定位(Fine-mapping)

介绍

全基因组关联分析(GWAS)是非常流行的定位表型或疾病遗传位点方法。不过很多情况下,GWAS 发现的最显著的 SNP(top SNP 或者 index SNP)并不是真正造成影响的causal SNP(因果SNP),而是因为跟 causal SNP 之间存在的 LD 而变得显著。因而,后续还需要对结果进行 fine-mapping(精细定位),把 causal SNP找到。

如果想了解更多 fine-mapping 的知识,推荐看看 Nature Reviews Genetics From genome-wide associations to candidate causal variants by statistical fine-mapping 这篇综述。

方法

常用的 fine-mapping 方法有 PAINTOR、eCAVIAR等。这些方法利用了 Roadmap、ENCODE 或者 GTEx 的功能注释数据,效果不错。然而,这些方法一般需要其他组学注释数据的辅助。如果研究对象是动物或者植物,而没有可以利用的组学数据,那怎么办?

无注释数据时,可以选择 CAVIAR、CAVIARBF、SNPtest等方法。不过,这些方法用了穷举搜索,速度上堪忧。

这里推荐 FINEMAP,它可以用于:

  1. 识别因果SNP(causal SNP)
  2. 估计因果SNP的效应大小
  3. 估计因果SNP的遗传贡献

FINEMAP 的统计模型类似于 CAVIAR 和 CAVIARBF,但算法上有一个很大的区别。FINEMAP 使用shotgun stochastic search(SSS)算法,与 CAVIARBF 的穷举搜索算法相比速度提高了非常多,避免计算量大的穷举搜索。PAINTOR 也可在无注释数据时使用,但相比而言 FINEMAP 的结果会更准确。

另外,FINEMAP 有一个方便的地方是,在设定好最大causal SNPs 数量 k 后,得到的结果包含了 1 到 k 个不同 causal SNPs 的后验概率以及各个 causal SNPs 数量的概率,非常方便进行后续的分析。

下载

可在 http://www.christianbenner.com 根据自己的系统平台选择编译好的文件。以 Linux 为例:

wget http://www.christianbenner.com/finemap_v1.4_x86_64.tgz
tar -xzvf finemap_v1.4_x86_64.tgz

解压后文件夹中的 finemap_v1.4_x86_64 可直接执行。

输入文件

FINEMAP 的输入需要 master 文件,z 文件和 ld 文件。如果有 5 个不同的显著位点,那么需要 1 个 master 文件和 5 个不同的 z文件 和 ld 文件。

Z file

一个用空格分隔的文本文件,包含需要分析区域的 GWAS summary statistics 信息,每行一个SNP。文件必须包含列名,每一列分别是:

rsid:SNP 名字
chromosome:染色体名称,性染色体的名字与  precomputed SNP correlations 文件保持一致即可
position:物理位置
allele1:包含SNP的“第一个”等位基因。对应SNPTEST 中的“ allele_A”,BOLT-LMM 中的“ ALLELE1”,通常是“effect allele”
allele2:reference allele
maf:minor allele 频率
beta:GWAS结果的 effect sizes
se:the standard errors of effect sizes

例子:

rsid chromosome position allele1 allele2 maf beta se
rs1 10 1 T C 0.35 0.0050 0.0208
rs2 10 1 A G 0.04 0.0368 0.0761
rs3 10 1 G A 0.18 0.0228 0.0199

LD file

一个用空格分隔的文本文件,其中包含SNP相关矩阵,可以计算皮尔逊相关系数,也可以用 plink 的 --r square 计算出 r matrix。

例子:

1.00 0.95 0.98
0.95 1.00 0.96
0.97 0.96 1.00

注意,SNP 顺序必须与 Z 文件中的顺序保持一致

Master file

分号分隔的文本文件,不包含空格。这个文件记录的是数据集和配置参考。第一行是列明,后续每一行是一个数据集和对应的参数。文件每一列分别是:

z:Z 文件的名称(输入)
ld:LD 文件的名称(输入)
bcor:BCOR 文件的名称(输入)
snp:结果输出 SNP 文件的名称(输出)
config:结果输出 CONFIG 文件的名称(输出)
cred:结果输出 CRED 文件的名称(输出)
n_samples:GWAS 样本数量
k:K 文件的名称(可选输入,可忽略)
log:LOG文件的名称(可选输出,可忽略)

ld 列和 bcor 列二选一,如果 ld 信息是用纯文本表示的矩阵,填入 ld 文件即可。

举例,分别计算两个数据集的 master 文件如下所示:

z;ld;snp;config;cred;log;n_samples
dataset1.z;dataset1.ld;dataset1.snp;dataset1.config;dataset1.cred;dataset1.log;5363
dataset2.z;dataset2.ld;dataset2.snp;dataset2.config;dataset2.cred;dataset2.log;5363

运行

以程序中的示例数据为例:

运行 shotgun stochastic search 方法的 fine-mapping:

./finemap_v1.4_x86_64 --sss --in-files example/data --dataset 1

–infiles 是 master 文件。 –dataset 接的是 master 文件中的行号,行号从 1 开始,填入 1 代表使用第 1 行的 z 文件、ld 文件和配置参数进行分析。

除了 shotgun stochastic search,还可以使用 stepwise conditional search 方法,它的逐步条件处理过程类似于 GCTA COJO 中的实现:

./finemap_v1.4_x86_64 --cond --in-files example/data --dataset 2

如果想要了解指定 SNP 是否 causal,可以:

./finemap_v1.4_x86_64 --config --in-files example/data --dataset 1 --rsids rs30,rs11

结果解读

输出结果有 .snp.cred.config 三种不同后缀的文件。

.config 记录了分析时选用的参数。

.snp 文件是 model-averaged posterior summaries,每一行是一个 SNP。在假定不同 causal SNPs 数量时会得到不一样的结果,而这个文件包含了所有结果的摘要情况。

.cred 文件最后会带有一个数字,这个数字代表的是 causal SNPs 数量 k。比如,.cred5 是设定 causal SNPs 为5个而得到的计算结果。这个文件中,包含了数量 k 的后验概率和和推断出的 causal SNP 后验概率。

如果对 FINEMAP 的方法不是特别了解,可以只看 .cred 文件中的结果,从中选出 k 值和相应的 causal SNPs。

总结

FINAMAP 的速度非常快。经过实践,在 6000 个样本的情况下,截取 top SNPs 上下游各 3Mb 区域进行分析,设定最大 causal SNPs 数量为 10,每一个区域的计算时间大概 20 分钟,内存占用非常小。在显著位点很多的时候,FINEMAP 的优势体现出来了。


© 版权声明
THE END
喜欢就支持以下吧
点赞0
分享
评论 共5条
    • 赵煮机
    • 郭荣慧0

      请问finemap的输入文件要怎么准备啊?

      7月30日 17:41回复
      • LD用plink这个软件的命令plink –bfile data –r square算就可以。每个人的数据格式都不太一样,转其他文件,需要根据自己的格式写shell、python或者其他语言的脚本转换。

        7月30日 18:10@郭荣慧回复
    • 赵煮机
    • 搬砖民工0

      请问finemap的输入文件要怎么准备啊?

      7月30日 17:42回复
    • 赵煮机
    • 一叶扁舟0

      请问Z file的beta ,maf,se是怎么得来的,我的gwas结果里面没有这个啊, 我的结果有的是这9列,CHR ,SNP, BP ,A1,TEST,NMISS, OR, STAT, P ,后面是需要怎么操作才会有这个?

      7月31日 10:01回复
      • 不同gwas软件输出的内容有些区别,如果是Plink的话2.0版本都可以输出的

        8月27日 10:29@一叶扁舟回复