題:
如何對單個VCF文件進行血統/混合測試?
gringer
2017-06-06 17:44:58 UTC
view on stackexchange narkive permalink

這是來自 / u / beneficii9關於reddit的問題。原始帖子可以在此處

通過Personal Genome Project,我已經用Veritas對我的整個基因組進行了測序,並在整個基因組的單個VCF文件的形式和每個染色體的一個BAS文件的形式。與VCF文件關聯的參考基因組是hg19。它對健康數據很有幫助;例如,我發現我對非功能性的CYP-2D6基因( rs3892097)是純合的,該基因可能使幾種常用的藥物無效,並幫助解釋了為什麼某些藥物不能真正起作用我。我的醫生髮現此信息非常有幫助。

不幸的是,我找不到任何方法來查看混合物或祖先。我嘗試使用VCFTools,Plink1.9和ADMIXTURE的組合來設置所有內容,但無法正常工作。我認為,對於ADMIXTURE,您必須具有按地理來源分類的一堆基因組才能與您的基因組進行比較,但是我不確定該怎麼做,而且網上的信息對我來說也不是很清楚。

我已經嘗試過將其關閉。

我嘗試將文件轉換為23andme格式(在 / u / psychosomaticism的幫助下,這非常有用)。我做到了(儘管由於VCF文件的設置方式似乎有問題)。但是,獲取數據的網站希望您將其指向您的23andme帳戶,如果僅擁有該文件,那實際上是行不通的。 23andme並未提供對整個基因組進行測序的人。他們希望您像其他所有人一樣給他們提供唾液樣本。

那麼,我該怎麼辦?

五 答案:
Kevin
2017-12-21 18:56:44 UTC
view on stackexchange narkive permalink

Vivek答案的一種修改的實現。

peddy是一個Python軟件包,可在大約25000個站點上對輸入的 .vcf 進行採樣,主成分空間建立在250.4萬個基因組樣本上。作者擁有該工具功能的大量文檔以及預印本的鏈接。

我從Bottle的 ftp中從Genome下載了NA12878樣本的 .vcf .vcf.tbi 。然後,創建一個自定義 .ped 文件 NA12878.ped ,其內容為:

NA12878 HG001 0 0 2 0

在命令行中:

$ peddy --plot --prefix myvcf HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_PGandRTGphasetransfer。 vcf.gz NA12878.ped

所有輸出文件均帶有前綴 myvcf。,這裡是 myvcf.pca_check.png myvcf.pca_check.png

我認為可能值得補充:`peddy`需要`coloredlogs`和`cyvcf2`,後者需要您擁有gcc&g ++以及libbz2`,liblzma`的頭文件(例如ubuntu中的-dev`版本)。和`curl`。這些知識將挽救我一生中的15個寶貴時刻:)
另外,現在它已經安裝了,我似乎得到了錯誤:`AssertionError:加載b'HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_PGandRTGphasetransfer.vcf.gz的Tabix索引時出錯”(也基於我的理解不應該將2設為0還是讓用戶根據自己的性別進行設置?)
Vivek
2017-06-06 18:03:11 UTC
view on stackexchange narkive permalink

英國生物庫質量控制方法白皮書的建議:

  1. 創建一組您的VCF和1000個基因組第3期調用集共有的SNP。
  2. 執行使用特徵碼smartpca的1000個基因組樣本的PCA。您可能必須轉換為二進制plink格式。
  3. 將基因型投影到此預先計算的PCA空間,並使用ggplot進行可視化以查看屬於哪個集群。
  4. ol>
gringer
2017-06-06 18:16:06 UTC
view on stackexchange narkive permalink

祖先測試是一個棘手的主題。我在與此類似的問題上花了很多我的博士項目,但對於如何檢測未建模的祖先並沒有真正找到好的答案。

我試圖確定祖先的方法是創建一個模型集,其中包含定義明確的具有已知特定祖先背景的個體。然後將一個或多個查詢個人添加到該組中,並運行祖先估計程序(特別是 Structure)以計算出未知個人中每個已知組所佔的比例。我希望大多數遺傳祖先測試都採用類似的方法,儘管也許對模型人群的定義不太在意。

當個體被錯誤地分配到特定群體時會出現問題,當模型集中存在的群體比大多數其他群體代表的個體比例更大時,這些群體與其他群體的親緣關係密切,並且測試個體中的祖先歷史與任何其他群體都不匹配時,模型組。而且所有這些都假設用於祖先確定的標記集是完美的:對任何特定群體都沒有偏見,並且沒有系統的基因分型錯誤。

這並不意味著祖先測試將不起作用,但是一個好主意,以大顆粒的鹽來獲得結果。新西蘭有一個良好的榜樣,她被告知儘管她非常了解自己的家族史,但她很有可能成為100%毛利人,這表明她是歐洲的祖先。幾代人回到了她的家庭兩側。​​ p>

Kevin
2019-01-16 08:14:16 UTC
view on stackexchange narkive permalink

添加另一個答案,該答案雖然涉及更多內容,但可以提供靈活性,逐步完成最少的步驟並提供可視化效果。
我創建了一個 Dash應用存儲庫使用已發布的祖先翔實的SNP和1000個基因組計劃數據探索這種類型的分析。

  1. 標識已發布的祖先信息性SNP(AISNP)。
  2. 下載1000個基因組項目基因型 bcf數據
  3. 將基因型數據從(2)限制為AISNP (1)中的基因座。
  4. 一鍵編碼基因型。
  5. 進行降維(PCA,t-SNE或UMAP)
  6. 繪製成分。
  7. ol>

    原始帖子似乎想將其基因組投射到參考樣品上。 tgviz 存儲庫中的 plot_walkthrough.ipynb顯示瞭如何實現此目標。
    從筆記本上以我自己的數據輸出:

    enter image description here

Christopher Chang
2019-01-18 23:39:59 UTC
view on stackexchange narkive permalink

相關:從bam或vcf文件中進行民族檢查

難題的缺失部分是帶有祖先標籤的參考數據集。 1000個基因組第3階段在這里通常可以很好地工作,現在它具有適用於GRCh37和GRCh38的變異調用集。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...