題:
利用測序數據改善參考基因組
Scott Gigante
2017-05-18 08:11:37 UTC
view on stackexchange narkive permalink

我有一個DNA樣品,我知道它不完全符合我的參考基因組-我的培養物來自自創建參考以來發生顯著突變的亞人群。

通過IGV的目視檢查,似乎同時存在大量的SNP和SV,但是完全由我自己的測序數據構建的裝配對於我的目的而言不夠高質量。

我如何利用我的知識來修改該參考基因組,以使我的樣品與新的測序數據相匹配(最好使用牛津納米孔技術公司的長讀本,但如有必要,我也可以將其用於短讀本)現有參考文獻主要是非常好,而不必訪問最初用於構建參考基因組的讀數?

如果輸入數據源隨您說的變化(大量的SNP和結構變體),您將如何真正信任一個裝配體?
有什麼理由不希望創建新參考?一分鐘MinION運行可產生約5Gbp的數據,這意味著即使您對樣品進行條形碼編碼,您也應具有足夠的覆蓋率來構建從頭開始的基因組。該項目的目標是什麼?
我想到的示例是大腸桿菌。我們嘗試使用幾種不同的工具進行組裝,儘管有大量數據,但de-novo組裝的質量不如我們想要的高。從貝葉斯觀點出發,如果我們可以明智地使用它,參考基因組將提供很好的先驗。
這是一個很好的先決條件,但是如果項目的目標是找出已經積累了多少SV,則通過基於參考的裝配,您將使輸出產生偏差。還不清楚什麼是“高質量”。
該項目的目的不是確定SV的位置,我只需要一個可以準確表示樣本的參考,即可將數據用於下游分析(作為機器學習的訓練集。)因此,請使用高質量的參考,我的意思是盡可能代表經測序的樣品。更糟糕的是,如果存在系統性測序錯誤,這可能不是具有最高比對一致性的序列,就像在納米孔測序中一樣!
五 答案:
roblanf
2017-05-18 16:07:14 UTC
view on stackexchange narkive permalink

一種解決方法是使用所需的任何數據來迭代更新參考基因組。您可以沿途保留鏈文件,以便將坐標(例如,在gff文件中)從原始引用轉換為新的偽引用。

一個簡單的方法可能是:

  1. 將新數據與現有參考變量對齊
  2. 調用變量(例如samtools mpileup,GATK或最適合您的變量)
  3. 創建包含2個變量的新引用>漂洗並重複(即轉到1)
  4. ol>

    在執行此操作時,您可以跟踪一些簡單的統計信息-例如隨著上述循環的每次迭代,新變體的數量應減少,映射的讀取數應增加,失配率應減少。偽引用穩定後,您將無法做更多的事情。

Daniel Standage
2017-05-21 12:43:44 UTC
view on stackexchange narkive permalink

根據數據的覆蓋範圍和基因組的複雜性,您可以重新組裝基因組( de novo )或運行參考指導(或參考輔助)組裝。聽起來好像您更傾向於後者。

有兩種可用的參考引導裝配工具: AlignGraph Ragout。根據所關注的生物體和您的數據類型,這些方法可能合適也可能不合適。例如,這些工具不太可能在尚未使用 Nanopolish Canu -correct進行過錯誤校正的牛津納米孔讀取中很好地工作。

我可以添加該工具Ragout:https://www.ncbi.nlm.nih.gov/pubmed/24931998,並且本文中有很多有用的參考資料。即使您的論文標題指出它應該與細菌基因組一起使用,也可以與哺乳動物基因組一起使用
madhu bioinfo
2017-05-18 10:29:39 UTC
view on stackexchange narkive permalink

您可以通過照明讀數使用 nanopolish。也可以看看 pilon

haegglund
2017-05-18 10:38:32 UTC
view on stackexchange narkive permalink

如果它是簡短閱讀的程序集,並且您有長閱讀(ONT或Pacbio),請運行鏈接來支撐基因組,然後迭代運行 Pilon使用短讀本來完善和填補空白。

bedeabc
2017-08-05 00:08:29 UTC
view on stackexchange narkive permalink

Kindel(我寫的)可以推斷出從短讀序列的低質量比對到病毒參考的共識,並將其擴展到可以與單分子讀段和更大的基因組一起使用,是我的待辦事項,儘管我認為這需要重新設計。
在這種情況下,您可能正在處理細菌或真菌基因組?我也有一個基本的C ++版本,但是離用戶友好還有很長的路要走。無論如何,可能值得一看-隨時與您遇到的任何問題取得聯繫。我會如上所述使用Pilon



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...