Daniel Harris
2017-07-05 19:20:22 UTC
我有446個完整的肺炎克雷伯菌基因組,我希望以此來構建系統發育樹。在閱讀了有關構建系統發育樹的知識之後,似乎對於大量基因組而言,唯一的選擇就是分離出一代又一代變異性低的基因,並使用該基因來構建一棵樹。例如,Lars Jensen建議使用“ 16S rRNA [或]所有核醣體蛋白編碼基因” https://www.biostars.org/p/1930/。有什麼程序可以將這些感興趣的基因從全基因組fasta文件中分離出來,並可以將它們放入多重比對文件中?還是以準備用於多重對準程序(例如Muave)的形式輸出它們?我說一個多重比對文件的原因是因為它是大多數係統進化樹程序所使用的文件類型(例如,clonalframe)。
丹尼爾,您好,我會謹慎地在16s rRNA序列上建立系統發育樹,因為信息變異性基本上為零。我建議串聯MLST基因是一個很好的起點,並從那裡開始工作。您將整個基因組集中在最少可變的基因上似乎是錯誤的。
是。對於遙遠的物種,使用16S有意義,但對於緊密相關的物種則沒有意義。極有可能幾乎沒有可變性。
如果您尚未註釋基因組,請按照其他一些答案中的建議使用Prokka進行註釋。一旦知道了這一點,一旦您確定了一些要用作序列鍵入基礎的序列,就可以使用biopython輕鬆地從基因庫中按名稱提取基因特徵。