免费JIZZ大全

GWAS模型介紹

GWAS模型介紹

GWAS關聯分析課程推薦:


全基因組關聯分析(Genome wide association study,GWAS)是對多個個體在全基因組范圍的遺傳變異(標記)多態性進行檢測,獲得基因型,進而將基因型與可觀測的性狀,即表型,進行群體水平的統計學分析,根據統計量或顯著性 p 值篩選出最有可能影響該性狀的遺傳變異(標記),挖掘與性狀變異相關的基因。

attachments-2021-11-4AViDLOX6191ecac1b12a.png
GWAS是傳統雙親種群繪圖的替代方法,目前廣泛用于植物、動物、模式物種和人類,與傳統的QTL定位相比,GWAS優點包括更高的分辨率、研究材料來源廣泛,可捕獲的變異豐富,無需構建遺傳群體節省時間。

GWAS是傳統雙親種群繪圖的替代方法,目前廣泛用于植物、動物、模式物種和人類,與傳統的QTL定位相比,GWAS優點包括更高的分辨率、研究材料來源廣泛,可捕獲的變異豐富,無需構建遺傳群體節省時間。

GWAS分析模型介紹

GWAS 分析一般會構建回歸模型檢驗標記與表型之間是否存在關聯。GWAS中的零假設(H0 null hypothesis)是標記的回歸系數為零, 標記對表型沒有影響。備擇假設(H1,也叫對立假設,Alternative Hypothesis)是標記的回歸系數不為零,SNP和表型相關。GWAS中的模型主要分為兩種:

一般線性模型GLM(General Linear Model):y = Xα + Zβ + e
混合線性模型MLM(Mixed Linear Model):y = Xα+ Zβ + Wμ+ e

y: 所要研究的表型性狀;
Xα:固定效應(Fixed Effect),影響y的其他因素,主要指群體結構;
Zβ:標記效應(Marker Effect  SNP);
Wμ:隨機效應(RandomEffect),這里一般指個體的親緣關系。
e: 殘差

GWAS分析一直需要解決兩個問題,一個是隨著測序數據量的不斷增加,計算速度已經是影響GWAS分析的一個重要問題。二是統計的準確率能不能再增加一些。因此發展出了很多其他的模型,請看下面的圖形,圖中的河流代表GWAS分析方法的不斷發展,從由上角的Q模型到最下面的Blink,GWAS分析方法經歷了幾代人的努力。


attachments-2021-11-ldFrxQjM6191ecc4f238c.png

GWAS模型詳細介紹:

一般線性模型GLM:直接將基因型x和表型y做回歸擬合。也可以加入群體結果控制假陽性。


attachments-2021-11-8JSNk7dT6191ecda304ce.png混合線性模型MLM:GLM模型中,如果兩個表型差異很大,但群體本身還含有其他的遺傳差異(如地域等),則那些與該表型無關的遺傳差異也會影響到相關性。MLM模型可以把群體結構的影響設為協方差,把這種位點校正掉。此外,材料間的公共祖先關系也會導致非連鎖相關,可加入親緣關系矩陣作為隨機效應來矯正。


attachments-2021-11-WLekPFOQ6191ece9d6f3c.png

隨著二代測序技術的發展,基因分型變得越來越容易,用于關聯分析的樣本量和標記數不斷增大,原始的MLM模型求解所耗的時間可以用mpn3來表示(m為標記數目,p為求解過程的迭代次數,n為樣本數),可見,隨著樣本量的增加,每迭代一步,計算時間都會以樣本3次方增長,這使得計算的時間變得非常長。為解決這一問題,Zhang等提出了P3D(population parameters previously determined)和壓縮混合線性模型(compressed MLM, CMLM),并將這兩種方法整合到TASSEL軟件中,大大提高了計算效率,檢測功效也得到提高。P3D減少了重復計算方差組分的次數;CMLM通過聚類減少了實際參與計算的樣本數。考慮到8種聚類方法和3種組間親緣關系算法的組合可能得到不同的結果,檢測最優組合的優化壓縮混合線性模型(enriched CMLM, ECMLM)被提出,并整合在GAPIT軟件中。

CMLM壓縮混合線性模型:MLM的矯正過于嚴格,會把一些真實相關的SNP標記也過濾掉,因此CMLM模型目的是重新檢測到那些假陰性SNP標記。attachments-2021-11-8YVP7o1I6191ecf88276a.png




SUPER:CMLM應該選擇哪些SNP來計算親緣關系矩陣,答案是使用所有跟表型相關的SNP(且排除了檢測到的那個SNP)來構建親緣關系矩陣的效果最好,這就是SUPER(Settlement of Kinship Under Progressively Exclusive Relationship, 逐步排他性親緣關系解決方案)。


attachments-2021-11-ni1iQTZt6191ed0748cc2.pngFarmCPU:GWAS的瓶頸一是計算速度,二是統計準確性。FarmCPU能提升速度和準確性,首先把隨機效應的親緣關系矩陣(Kinship)轉換為固定效應的關聯SNP矩陣(S矩陣/QTNs矩陣),使計算速度大大加快;再利用QTN矩陣當做協變量,重新做關聯分析,提升準確率。attachments-2021-11-OGP8J7UV6191ed173c54b.pngBlink:Blink是進階版FarmCPU,也是為提高速度和準確率。先用上方的GLM模型獲得QTNs,然后用右側的GLM以QTNs當做協變量進行SNP檢測,得到的SNP根據LD信息確定QTNs的信息(根據染色體實際位置來選擇對應的bin大小),進而利用左側的GLM以BIC(Bayesianinformation criterion)策略進行QTNs準確性檢測,排除假設錯誤的部分,保留真實的QTNs,不斷循環這一過程,直到檢測到所有關聯SNP(即QTNs)。


attachments-2021-11-uyV5NFIq6191ed29a4370.png

其他模型:
Kang等通過減少需要估計的方差組分的個數和簡化矩陣逆運算的過程,提出了EMMA模型,在此基礎上,通過避免重復估計多基因方差和誤差方差,提出了EMMAX算法,并開發了EMMAX軟件,進一步提高了計算速度,但由于多基因方差和誤差方差的比值固定,EMMA和EMMAX都屬于近似算法,而Zhou等提出的GEMMA算法為EMMA的精確算法。


參考文獻:


Price, A. L., Patterson, N. J., Plenge, R. M., Weinblatt, M. E., Shadick, N. A., et al. (2006). Principal components analysis corrects for stratification in genome-wide association studies. Nat. Genet. 38 (8), 904–909. doi: 10.1038/ng1847

Yu, J., Pressoir, G., Briggs, W. H., Vroh, B. I., Yamasaki, M., Doebley, J. F., et al. (2006). A unifed mixed-model method for association mapping that accounts for multiple levels of relatedness. Nat. Genet. 38, 203–208. doi: 10.1038/ng1702

Zhang, Z., Ersoz, E., Lai, C. Q., Todhunter, R. J., Tiwari, H. K., Gore, M. A., et al. (2010). Mixed linear model approach adapted for genome-wide association studies. Nat. Genet. 42, 355–360. doi: 10.1038/ng.546

Li, M., Liu, X., Bradbury, P., Yu, J., Zhang, Y.-M., Todhunter, R. J., et al. (2014). Enrichment of statistical power for genome-wide association studies. BMC Biol. 12, 73. doi: 10.1186/s12915-014-0073-5

Segura, V., Vilhjálmsson, B. J., Platt, A., Korte, A., Seren, ü., Long, Q., et al. (2012). An efficient multi-locus mixed-model approach for genome-wide association studies in structured populations. Nat. Genet. 44, 825–830. doi: 10.1038/ng.2314

Wang, Q., Tian, F., Pan, Y., Buckler, E. S., Zhang, Z. (2014). A SUPER powerful method for genome wide association study. PLoS ONE 9, e107684. doi: 10.1371/journal.pone.0107684

Liu, X., Huang, M., Fan, B., Buckler, E. S., Zhang, Z. (2016). Iterative usage of fixed and random effect models for powerful and efficient genome-wide association studies. PLoS Genet. 12 (2), e1005767. doi: 10.1371/journal.pgen.1005767


延伸閱讀




  • 發表于 2021-11-15 13:17
  • 閱讀 ( 1590 )
  • 分類:GWAS

0 條評論

請先 登錄 后評論
omicsgene
omicsgene

生物信息

529 篇文章

作家榜 ?

  1. omicsgene 529 文章
  2. 安生水 252 文章
  3. Daitoue 167 文章
  4. 生物女學霸 120 文章
  5. 紅橙子 78 文章
  6. CORNERSTONE 72 文章
  7. 生信老頑童 48 文章
  8. landy 37 文章