全基因组关联分析是应用基因组中数以百万计的单核苷酸多态性(single nucleotide polymorphism,SNP)为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。
简介
全
基因组关联分析(Genome-wide association study)是指在人类全基因组范围内找出存在的序列变异,即
单核苷酸多态性(
SNP),从中筛选出与疾病相关的SNPs。
研究历史
2005年,Science杂志报道了第一项具有年龄
相关性的
黄斑变性GWAS研究[1]。
之后陆续出现了有关
冠心病[2]、肥胖[3][4][5]、
2型糖尿病[6][7][8]、
甘油三酯[9]、
精神分裂症以及相关表型[3][4][5]的报道。
Genetic
Epidemiology、Biometrics等杂志也在遗传统计学角度对GWAS进行了数据统计学方向的探讨和研究,以实现低成本、高效益地找到
遗传标记与疾病间的关联,同时解决GWAS
分析过程中出现的假阳性问题。
分析原理
基于无关个体的关联分析
病例对照研究设计:主要用来研究
质量性状,即是否患病。 基于随机人群的关联分析:主要用来研究
数量性状 基于家系的关联研究
在研究基于家系的样本时,采用传递
不平衡检验(TDT)分析
遗传标记与疾病数量表型和质量表型的关联可以排除人群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同
样本量的
病例对照研究有效。
FBAT是运用十分广泛的基于家系的统计分析工具,能够分析
质量性状及
数量性状、调整
混杂因素、分析基因-环境相互作用、分析
单倍型、调整
多重比较等。
单体型分析研究的必要性[11]:多位点单体型分析能够发现单体型-疾病表型之间的关联,这种关联要明显强于单个位点-疾病表型之间的关联。单体型分析能够发现非TagSNPs与疾病之间的
因果关系。
表型选择
1、选择
遗传度较高的疾病或者表型进行检测能够提升遗传学关联研究的把握度[12]。
2、由于有时病症很难测量或是多种病症混杂在一起造成疾病状态的分辨困难,研究疾病相关的数量表型要优于研究疾病状态。
3、由于测量数量表型的难易程度和该表型的遗传度相关,通过控制测量误差、噪音和总体
变异能够加强数量
表型变异与遗传因素的比例关系,因此一般选择测量简单准确并且遗传度相对较高的数量表型。
设计类型
单个阶段研究
单个阶段研究即在有了足够大的病例和对照样本数量后,一次性地对其所有选中的
SNP进行
基因分型,然后分析每个SNP与
目标性状的关联,计算其关联强度和
OR值。由于样本数量
需求量大,单阶段研究基因分型一般耗资巨大。
两个或多个阶段研究
采用
小样本数量进行第一阶段的全
基因组范围
SNP基因分型,
统计分析过后一般能够筛选少量阳性
SNPs,之后的第二阶段再在更大数量的样本中对这些阳性SNPs进行基因分型,最后整合
两个阶段的结果进行分析。这种设计需要保证第一个阶段筛选与目标性状相关SNP的
敏感性与
特异性,尽量减少分析的假阳性或
假阴性,并在第二阶段应用大量样本进行基因分型验证。研究证明DNA pool和
微阵列试剂盒均能够降低基因分型的工作量,能够进行
低成本高效益的
SNP筛选。
多重检验校正
Bonferroni校正法(Bonferroni)
递减
调整法(Step-Down Adjustment)
模拟运算法(Permutation)
控制错误
发现率法(False discovery rate)
重复
由于
GWAS研究的各种研究设计方法以及遗传
统计方法无法从根本上消除人群混杂、多重比较造成的假阳性,我们需要通过重复研究来保证
遗传标记与疾病间的真关联。
1、通过增大样本数量来提高检验效率,增加与疾病相关联的
SNPs的概率。
2、在两个人群中分别对样本中所有的
SNP进行
基因分型,之后再交换
重复测量对方得到的阳性SNPs。这样做首先保证了低
假阴性率,随后在较大样本中重复
阳性结果又最大程度地避免了假阳性的产生。
应用前景
GWAS为人们打开了一扇通往研究复杂疾病的大门,将在患者全基因组范围内检测出的
SNP位点与
对照组进行比较,找出所有的变异
等位基因频率,从而避免了像
候选基因策略一样需要预先假设
致病基因。同时,GWAS研究让我们找到了许多从前未曾发现的基因以及染色体区域,为复杂疾病的
发病机制提供了更多的线索。
存在问题
1、人群混杂(Population Stratification)是在
大样本研究中导致
假阳性、
假阴性结果出现的重要原因之一[14]。使用分层分数法(Stratification-score approach)控制人群分层、运用统计
分析手段控制人群混杂的影响、采用基于家系的关联研究均能够避免人群混杂
对关联结果分析的影响。
2、解释基因-变异-
环境因素之间的相互作用关系需要使用
GWAS对更多微效的与
疾病关联的
基因变异进行研究。
3、
数据共享是使用GWAS得到
遗传标记与疾病确切关联的必要手段,尽管难度很大,但是在研究复杂疾病的
遗传变异中能够发挥重要的作用。
参考文献
[1] ^ Klein RJ, Zeiss C, Chew EY,ect. Complement factor H polymorphism in age-related macular degeneration. Science, 2005, 308(5720): 385−389.
[2] ^ Samani NJ, Erdmann J, Hall AS, ect. Genomewide associationanalysis of coronary artery disease. N Engl J Med, 2007,357(5): 443−453.
[3] ^ 3.0 3.1 Herbert A, Gerry NP, McQueen MB, ect. A common geneticvariant is associated with adult and childhood obesity.Science, 2006, 312(5771): 279−283.
[4] ^ 4.0 4.1 Rosskopf D, Born
horst A, Rimmbach C, ect. Comment on “A common genetic variant is associatedwith adult and childhood obesity”. Science, 2007,315(5809): 187: author reply 187.
[5] ^ 5.0 5.1 Frayling TM, Timpson NJ, Weedon MN, ect. A common variant in the FTO gene is associated with body mass index and predisposes to childhood and adult obesity. Science, 2007,316(5826): 889−894.
[6] ^ Saxena R, Voight BF, Lyssenko V, ect. Genome-wide association analysis identifies loci for type 2 diabetes and
triglyceride levels. Science, 2007, 316(5829): 1331−1336.
[7] ^ Ubeda M, Rukstalis JM, Habener JF. Inhibition of cyclindependent kinase 5 activity protects pancreatic beta cells from glucotoxicity. J Biol Chem, 2006, 281(39): 28858−28864.
[8] ^ Foley AC, Mercola M. Heart induction by Wnt antagonists depends on the homeodomain transcription factor Hex. Genes Dev, 2005, 19(3): 387−396.
[9] ^ Samani NJ, Erdmann J, Hall AS, Hengstenberg C,ect. Genomewide association analysis of coronary artery disease. N Engl J Med, 2007, 357(5): 443−453.
[10] ^ Spielman RS, McGinnis RE, Ewens WJ. Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (
IDDM). Am J Hum Genet, 1993, 52(3): 506−516.
[11] ^ Newton-Cheh C, Hirschhorn JN. Genetic association studies of complex traits: design and analysis issues. Mutat Res, 2005, 573(1-2): 54−69.
[12] ^ Sham PC, Cherny SS, Purcell S, Hewitt JK. Power of linkage versus association analysis of quantitative traits, by use of variance-components models, for sibship data. Am J Hum Genet, 2000, 66(5): 1616−1630.
[13] ^ Chanock SJ, Manolio T, Boehnke M, ect. Replicating genotype-phenotype associations. Nature, 2007, 447(7145): 655−660.
[14] ^ YAN Wei-Li, GU Dong-Feng. Issues on association studies on complex disease. Acta Genetica Sinica, 2004, 31(5): 533−537.