使用並依賴舊的基因組構建仍然有效嗎?
例如 NCBI36 / hg18。基於舊版本的論文的結果是否需要 LiftOver並重新分析才有用?在舊版本上:如何驗證單個樣本ArrayCGH結果?
使用並依賴舊的基因組構建仍然有效嗎?
例如 NCBI36 / hg18。基於舊版本的論文的結果是否需要 LiftOver並重新分析才有用?在舊版本上:如何驗證單個樣本ArrayCGH結果?
我認為這不是很可靠。 LiftOver可以支持的轉換非常有限。 LiftOver Chain格式只能捕獲相同順序的匹配區域。這意味著它可以解決插入缺失的問題,但即使是簡單的結構變異也會成為問題。對齊方式。
我認為,目前唯一值得考慮的人工構建是hg19 / GRCh37,因為gnomAD等許多數據庫仍專門使用此版本。另一方面,hg38 / GRCh8具有許多重要的修復功能以及替代基因座的有用(但尚未充分利用)功能。
較舊版本中的任何內容都應重新映射到較新的版本。
您可以使用liftOver,但這並不總是很好。
每當我遇到此情況時(尤其是SRA上隨時可用的NGS數據),我通常只是獲取原始文件(例如fastqs)並重新對齊/重新映射。
在您的情況下(數組),可能會有些困難。不過,這並非沒有可能,因為我最近獲取了一些舊的酵母DNA / RNA微陣列數據並將其更新為最新的基因組。只需要正確的數據(例如用於標準化的DNA)並充分了解整個過程即可。
最後的選擇/替代方法是將您的新數據與舊的基因組對齊,以便能夠進行比較。這不是理想的選擇,但是在無法升級一個源或花費大量時間/精力的情況下可以使用。我已經完成了一些飛行實驗,所有可用/先前的數據都在dm3中完成。所有舊的基因組通常都可以在 http://archive.ensembl.org上找到。
對於鼠標,即使mm10 / GRCm38發行於5年前(2011年),我仍然看到人們在知名出版物中使用mm9 / NCBI37。我個人認為這不是一個好主意,但是根據同行評審者的觀點,這肯定是有效的。
這也取決於您的應用程序。如果您使用的是編碼區(可能很長一段時間眾所周知)或提取全基因組統計數據(例如,TSS富集),則差異應該可以忽略不計。