我有一個DNA樣品,我知道它不完全符合我的參考基因組-我的培養物來自自創建參考以來發生顯著突變的亞人群。
通過IGV的目視檢查,似乎同時存在大量的SNP和SV,但是完全由我自己的測序數據構建的裝配對於我的目的而言不夠高質量。
我如何利用我的知識來修改該參考基因組,以使我的樣品與新的測序數據相匹配(最好使用牛津納米孔技術公司的長讀本,但如有必要,我也可以將其用於短讀本)現有參考文獻主要是非常好,而不必訪問最初用於構建參考基因組的讀數?
我有一個DNA樣品,我知道它不完全符合我的參考基因組-我的培養物來自自創建參考以來發生顯著突變的亞人群。
通過IGV的目視檢查,似乎同時存在大量的SNP和SV,但是完全由我自己的測序數據構建的裝配對於我的目的而言不夠高質量。
我如何利用我的知識來修改該參考基因組,以使我的樣品與新的測序數據相匹配(最好使用牛津納米孔技術公司的長讀本,但如有必要,我也可以將其用於短讀本)現有參考文獻主要是非常好,而不必訪問最初用於構建參考基因組的讀數?
一種解決方法是使用所需的任何數據來迭代更新參考基因組。您可以沿途保留鏈文件,以便將坐標(例如,在gff文件中)從原始引用轉換為新的偽引用。
一個簡單的方法可能是:
在執行此操作時,您可以跟踪一些簡單的統計信息-例如隨著上述循環的每次迭代,新變體的數量應減少,映射的讀取數應增加,失配率應減少。偽引用穩定後,您將無法做更多的事情。
根據數據的覆蓋範圍和基因組的複雜性,您可以重新組裝基因組( de novo )或運行參考指導(或參考輔助)組裝。聽起來好像您更傾向於後者。
有兩種可用的參考引導裝配工具: AlignGraph和 Ragout。根據所關注的生物體和您的數據類型,這些方法可能合適也可能不合適。例如,這些工具不太可能在尚未使用 Nanopolish或 Canu -correct進行過錯誤校正的牛津納米孔讀取中很好地工作。
您可以通過照明讀數使用 nanopolish。也可以看看 pilon。
Kindel(我寫的)可以推斷出從短讀序列的低質量比對到病毒參考的共識,並將其擴展到可以與單分子讀段和更大的基因組一起使用,是我的待辦事項,儘管我認為這需要重新設計。
在這種情況下,您可能正在處理細菌或真菌基因組?我也有一個基本的C ++版本,但是離用戶友好還有很長的路要走。無論如何,可能值得一看-隨時與您遇到的任何問題取得聯繫。我會如上所述使用Pilon