題:
從Pfam獲取具有特定域結構的所有蛋白質序列
Sara
2017-07-03 19:25:40 UTC
view on stackexchange narkive permalink

我想從pfam數據庫此處獲得1kf6鏈A(PDB ID)的對齊。該蛋白質鏈具有兩個主要結構域(FAD_binding_2和Succ_DH_flav_C)。在pfam中,有一個到這些域之一的鏈接,然後在頁面下方的表中單擊提到的域之一,然後在另一頁面的頂部是指向體系結構的鏈接。

例如,如果我們單擊表中的“ FAD_binding_2”,則有220個具有此域的體系結構,然後單擊該按鈕(在頁面頂部),頁面將在此處打開。在此頁面中,7471序列具有以下體系結構:FAD_binding_2,Succ_DH_flav_C與我的鏈最相似(因為它同時具有FAD_binding_2和Succ_DH_flav_C域)。

如果要查看具有該體系結構的所有7471序列,可以單擊該體系結構下的顯示按鈕,最後可以看到所有類似於鏈A序列的7471體系結構。在頁面下方,我們可以看到其他都具有FAD_binding_2的體系結構,但是其中一些體系結構既沒有FAD_binding_2和Succ_DH_flav_C域(或者其中一些還沒有我們不感興趣的其他域),因此我們不需要它們的序列和他們的路線。

當我們想在頁面左側獲取完整序列的比對時,我們可以看到我們只能獲取所有15696個序列的比對,而且似乎沒有辦法獲得所有序列的比對。我們最喜歡的7471序列的比對。我想知道是否有任何方法可以獲取比對或至少獲取我們最喜歡的7471序列的fasta文件(這些序列具有我們最喜歡的兩個域,而不僅僅是它們之一)?

三 答案:
sara el-gebali
2017-07-18 18:01:54 UTC
view on stackexchange narkive permalink

另一種方法是使用Hmmer網站,並使用Pfam登錄(外匯)進行hmmsearch。 (PF02910)。導航到“域”選項卡,找到您感興趣的域體系結構,然後按查看分數。這樣,只有您感興趣的序列才可以在選項卡下載下下載。

分步指南:

1-轉到 http://www.ebi.ac.uk/Tools/hmmer/

2-使用hmmsearch搜索 http://www.ebi.ac.uk/Tools/hmmer/search/hmmsearch

3-使用登錄搜索並輸入在PF02910

4-中導航到Domain

5-在9742序列的右側,具有以下域結構:FAD_binding_2,Succ_DH_flav_C

按查看得分。

6-應該顯示(您的結果已被過濾)和查詢匹配項(9742)

7-導航至下載並以感興趣的格式下載序列。

8-對感興趣的域體系結構重複。

希望對您有所幫助。

親切問候,

薩拉

Imer Muhović
2017-07-05 15:01:28 UTC
view on stackexchange narkive permalink

使用PFAM似乎無法實現。我建議嘗試使用其他數據庫。我設法通過使用SMART( http://smart.embl-heidelberg.de/)通過在“搜索屏幕上的“架構分析”部分,該結果產生了具有這兩個域的9921個蛋白序列,如您在此處所見。

在結果屏幕上,您可以選擇所有序列,在屏幕頂部的“操作”下,選擇“將蛋白質序列下載為FASTA文件”。

這是一個好主意,但問題是它並不具體。我需要僅具有這兩個結構域的蛋白質。在這9921種蛋白質序列中,有些序列具有其他域,這些序列使我的搜索不明確
你給我一個好主意。儘管它是非特定的,但是我可以簡單地使其特定。首先在“動作選擇”部分中,選擇“下載蛋白質序列作為fasta文件”並下載所有序列的fasta文件,然後選擇“生成Newick樹和iTol格式化的數據集”。然後,在“ iTOL蛋白質數據集文件”部分中,我單擊“以製表符分隔的純文本格式下載”,並下載所有蛋白質標識符及其pfam域名稱
然後,我使用python刪除了具有其他域的蛋白質標識符。之後,我可以轉到fasta文件並刪除多餘蛋白質的fasta序列
Iakov Davydov
2017-07-05 17:00:41 UTC
view on stackexchange narkive permalink

我相信您可以使用數據庫的SQL文件來完成此操作。

首先,您需要獲得此體系結構的整數訪問權限。 architecture 包含以下列:

  • auto_architecture (整數ID,這就是我們需要
  • 體系結構(描述體系結構的字符串)
  • type_example (示例序列)
  • no_seqs (序列數)
  • architecture_acc (體系結構的加入)

您需要以下行:

  3900719357 FAD_binding_2〜Succ_DH_flav_C Z9JRB3 7471 PF00890 PF02910  

現在您需要獲取具有此體系結構ID的序列。首先,下載包含所有序列的文件警告,該文件大於7Gb)。有了這一列,您需要第1列(pfam序列權限),第12列(序列本身)和第16列(體系結構整數id)。

如果您不想導入數據庫中的文件,則可以使用 awk 將所有序列導出為 fasta 格式。

  zcat pfamseq.txt。 gz | awk -F \\ t'{if($ 16 ==“ 3900719357”)print“ >” $ 1“ \ n” $ 12}'> sequence.fasta  

當然,如果需要為了執行這樣的多個查詢,將表導入數據庫要容易得多。然後,您可以在單個SQL操作中執行兩個查詢(假設您知道體系結構字符串):

  SELECT pfamseq_acc,從體系結構序列JOIN pfamseq ON pfamseq .auto_architecture = architecture.auto_architecture WHERE architecture =“ FAD_binding_2〜Succ_DH_flav_C”;  

(我沒有嘗試過此SQL查詢,因此也許您需要對其進行一些更正)

我認為不導入7Gb數據庫的想法更好,因為我有很多蛋白質序列要執行類似的任務。我更喜歡嘗試第二個想法,但是我不知道為什麼我無法從“架構表”鏈接上方獲得此架構的整數加入
不確定我是否理解您的評論。在我的示例中,我假設您只有體系結構字符串。如果您已經擁有“ auto_architecture”登錄名,則只需編寫“ SELECT pfamseq_acc,序列從pfamseq WHERE auto_architecture = 3900719357”。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...