題:
如何從整個基因組中分離基因以進行系統樹分析?
Daniel Harris
2017-07-05 19:20:22 UTC
view on stackexchange narkive permalink
我有446個完整的肺炎克雷伯菌基因組,我希望以此來構建系統發育樹。在閱讀了有關構建系統發育樹的知識之後,似乎對於大量基因組而言,唯一的選擇就是分離出一代又一代變異性低的基因,並使用該基因來構建一棵樹。例如,Lars Jensen建議使用“ 16S rRNA [或]所有核醣體蛋白編碼基因” https://www.biostars.org/p/1930/。有什麼程序可以將這些感興趣的基因從全基因組fasta文件中分離出來,並可以將它們放入多重比對文件中?還是以準備用於多重對準程序(例如Muave)的形式輸出它們?我說一個多重比對文件的原因是因為它是大多數係統進化樹程序所使用的文件類型(例如,clonalframe)。
丹尼爾,您好,我會謹慎地在16s rRNA序列上建立系統發育樹,因為信息變異性基本上為零。我建議串聯MLST基因是一個很好的起點,並從那裡開始工作。您將整個基因組集中在最少可變的基因上似乎是錯誤的。
是。對於遙遠的物種,使用16S有意義,但對於緊密相關的物種則沒有意義。極有可能幾乎沒有可變性。
如果您尚未註釋基因組,請按照其他一些答案中的建議使用Prokka進行註釋。一旦知道了這一點,一旦您確定了一些要用作序列鍵入基礎的序列,就可以使用biopython輕鬆地從基因庫中按名稱提取基因特徵。
二 答案:
heathobrien
2017-07-05 19:50:17 UTC
view on stackexchange narkive permalink

有很多方法可以做到這一點。我建議使用Prokka / Roary進行核心基因組比對。 Roary網站上有一個有用的教程:

 用於* do prokka --kingdom Bacteria --outdir“ $ {file %%。*}”中的文件- -genus Listeria --locustag“ $ {file %%。*}”“ $ file” mv“ $ {file %%。*}” / PROKKA_07052017.gff GFF /“ $ {file %%。*}”。gff#使用當前日期值-f Alignment -e -n -v GFF / *。gff  

Alignment / core_gene_alignment.aln可用作系統發育分析的輸入

羅瑞(Roary)是我要去的地方,但您對路線中的結果一無所知。如果您想選擇基因含量,請按照我的建議使用blast。連接輸出並使用對齊軟件。
-1
AudileF
2017-07-05 19:54:52 UTC
view on stackexchange narkive permalink

使用獨立衝擊波

提取所需的基因序列,只需提供具有所需輸出的參考數據庫即可。設置命令,然後離開。您可以使用for循環設置搜索一批序列。 * .fasta中的f的命令可能類似於

 ;做f = $(basename $ f .fasta)blastn \ -outfmt“ 6 sseqid qseq%” \-查詢$ f.fasta \ -subject reference.fna \ > out / $ f.fasdone  

觀察輸出,因為blast將以+或-方向檢測出吐出的基因。如果只想收集正面的感覺,請使用 -strand 選項。我這裡的默認輸出是製表符輸出,它需要一些sed命令才能製成fasta。

  sed -i \ -e's / \ s * $ // g'\ -e 's / ^ / > / g'\ -e's / \ s \ + / \ n / g'\ *。fas  

在線對齊服務器是對齊小尺寸的簡單方法數據集,例如 EBI

可能值得一提的是,這種方法適用於沒有剪接的物種(因此對於OP來說應該沒問題),但對於真核生物不是很有用。另外,為什麼要像這樣循環運行多個爆炸?為什麼不讓multifasta輸入文件爆炸並運行一次?
以我的經驗,爆炸使用參考文獻中的基因名稱。並且不附加原始基因組名稱。我會介紹一些QC /解析位,然後組合序列。
我不確定我的“期望基因序列”應該是什麼。我的查詢是什麼?
您的查詢是您擁有$ f的基因組序列,將在循環中插入每個基因組的名稱。您所需的基因序列將在您的參考文件中。這可能是16s或MLST基因序列。無論您要構建哪種系統發育體。
我的問題是更多如何首先找到那些MLST基因序列?
一個快速的谷歌提出了這個http://bigsdb.pasteur.fr/klebsiella/klebsiella.html。看看通常有一個充滿基因和等位基因的文件。以我的經驗,這7個基因中的一個(等位基因)就足夠了。
@DanielHarris採用一個MLST基因,並將其用作查詢以查找其餘基因。
@AudileF blast可以將multifasta文件作為查詢,輸入文件中每個序列的結果將在單獨的“ Query =”部分中顯示。名稱確實是取自輸入文件的名稱,但是只要它們都是唯一的,那應該不成問題。
因此,請使用這些MLST基因之一,例如從此鏈接http://bigsdb.pasteur.fr/perl/bigsdb/bigsdb.pl?db=pubmlst_klebsiella_seqdef_public&page=downloadAlleles作為查詢。現在有兩個問題...我是否使用了整個軌跡文件,例如gapA有很多> gapA_#,或者只有一個> gapA_1?其次,blast的輸出如何用於構建系統發育樹?我認為Blast輸出與多種對齊格式相差甚遠。
@terdon必須承認我永遠不知道。這在重疊群組裝中是否起作用?
@DanielHarris 1)使用7個基因中的每個基因的一個副本。 2)您的輸出正確無誤。我通常使用-strand選項來收集+和-感測序列。按分類名稱拆分它們。按名稱對每個文件中的順序進行排序。刪除fasta標頭和空間。創建新的文件名的fasta標頭。然後將它們全部串聯。為簡單起見,您可以使用ebi等在線msa服務器。漫長而困惑。我不是計算生物學的資深生物學家,也許有更好的建議。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...