從Pfam獲取具有特定域結構的所有蛋白質序列

題:

從Pfam獲取具有特定域結構的所有蛋白質序列

Sara

2017-07-03 19:25:40 UTC

view on stackexchange narkive permalink

我想從pfam數據庫此處獲得1kf6鏈A（PDB ID）的對齊。該蛋白質鏈具有兩個主要結構域（FAD_binding_2和Succ_DH_flav_C）。在pfam中，有一個到這些域之一的鏈接，然後在頁面下方的表中單擊提到的域之一，然後在另一頁面的頂部是指向體系結構的鏈接。

例如，如果我們單擊表中的“ FAD_binding_2”，則有220個具有此域的體系結構，然後單擊該按鈕（在頁面頂部），頁面將在此處打開。在此頁面中，7471序列具有以下體系結構：FAD_binding_2，Succ_DH_flav_C與我的鏈最相似（因為它同時具有FAD_binding_2和Succ_DH_flav_C域）。

如果要查看具有該體系結構的所有7471序列，可以單擊該體系結構下的顯示按鈕，最後可以看到所有類似於鏈A序列的7471體系結構。在頁面下方，我們可以看到其他都具有FAD_binding_2的體系結構，但是其中一些體系結構既沒有FAD_binding_2和Succ_DH_flav_C域（或者其中一些還沒有我們不感興趣的其他域），因此我們不需要它們的序列和他們的路線。

當我們想在頁面左側獲取完整序列的比對時，我們可以看到我們只能獲取所有15696個序列的比對，而且似乎沒有辦法獲得所有序列的比對。我們最喜歡的7471序列的比對。我想知道是否有任何方法可以獲取比對或至少獲取我們最喜歡的7471序列的fasta文件（這些序列具有我們最喜歡的兩個域，而不僅僅是它們之一）？

三答案:

sara el-gebali

2017-07-18 18:01:54 UTC

view on stackexchange narkive permalink

另一種方法是使用Hmmer網站，並使用Pfam登錄（外匯）進行hmmsearch。（PF02910）。導航到“域”選項卡，找到您感興趣的域體系結構，然後按查看分數。這樣，只有您感興趣的序列才可以在選項卡下載下下載。

分步指南：

1-轉到 http://www.ebi.ac.uk/Tools/hmmer/

2-使用hmmsearch搜索 http://www.ebi.ac.uk/Tools/hmmer/search/hmmsearch

3-使用登錄搜索並輸入在PF02910

4-中導航到Domain

5-在9742序列的右側，具有以下域結構：FAD_binding_2，Succ_DH_flav_C

按查看得分。

6-應該顯示（您的結果已被過濾）和查詢匹配項（9742）

7-導航至下載並以感興趣的格式下載序列。

8-對感興趣的域體系結構重複。

希望對您有所幫助。

親切問候，

薩拉

Imer Muhović

2017-07-05 15:01:28 UTC

view on stackexchange narkive permalink

使用PFAM似乎無法實現。我建議嘗試使用其他數據庫。我設法通過使用SMART（ http://smart.embl-heidelberg.de/）通過在“搜索屏幕上的“架構分析”部分，該結果產生了具有這兩個域的9921個蛋白序列，如您在此處所見。

在結果屏幕上，您可以選擇所有序列，在屏幕頂部的“操作”下，選擇“將蛋白質序列下載為FASTA文件”。

這是一個好主意，但問題是它並不具體。我需要僅具有這兩個結構域的蛋白質。在這9921種蛋白質序列中，有些序列具有其他域，這些序列使我的搜索不明確

你給我一個好主意。儘管它是非特定的，但是我可以簡單地使其特定。首先在“動作選擇”部分中，選擇“下載蛋白質序列作為fasta文件”並下載所有序列的fasta文件，然後選擇“生成Newick樹和iTol格式化的數據集”。然後，在“ iTOL蛋白質數據集文件”部分中，我單擊“以製表符分隔的純文本格式下載”，並下載所有蛋白質標識符及其pfam域名稱

然後，我使用python刪除了具有其他域的蛋白質標識符。之後，我可以轉到fasta文件並刪除多餘蛋白質的fasta序列

Iakov Davydov

2017-07-05 17:00:41 UTC

view on stackexchange narkive permalink

我相信您可以使用數據庫的SQL文件來完成此操作。

首先，您需要獲得此體系結構的整數訪問權限。 architecture 表包含以下列：

auto_architecture （整數ID，這就是我們需要）
體系結構（描述體系結構的字符串）
type_example （示例序列）
no_seqs （序列數）
architecture_acc （體系結構的加入）

您需要以下行：

  3900719357 FAD_binding_2〜Succ_DH_flav_C Z9JRB3 7471 PF00890 PF02910

現在您需要獲取具有此體系結構ID的序列。首先，下載包含所有序列的文件（警告，該文件大於7Gb）。有了這一列，您需要第1列（pfam序列權限），第12列（序列本身）和第16列（體系結構整數id）。

如果您不想導入數據庫中的文件，則可以使用 awk 將所有序列導出為 fasta 格式。

  zcat pfamseq.txt。 gz | awk -F \\ t'{if（$ 16 ==“ 3900719357”）print“ >” $ 1“ \ n” $ 12}'> sequence.fasta

當然，如果需要為了執行這樣的多個查詢，將表導入數據庫要容易得多。然後，您可以在單個SQL操作中執行兩個查詢（假設您知道體系結構字符串）：

  SELECT pfamseq_acc，從體系結構序列JOIN pfamseq ON pfamseq .auto_architecture = architecture.auto_architecture WHERE architecture =“ FAD_binding_2〜Succ_DH_flav_C”;

（我沒有嘗試過此SQL查詢，因此也許您需要對其進行一些更正）

我認為不導入7Gb數據庫的想法更好，因為我有很多蛋白質序列要執行類似的任務。我更喜歡嘗試第二個想法，但是我不知道為什麼我無法從“架構表”鏈接上方獲得此架構的整數加入

不確定我是否理解您的評論。在我的示例中，我假設您只有體系結構字符串。如果您已經擁有“ auto_architecture”登錄名，則只需編寫“ SELECT pfamseq_acc，序列從pfamseq WHERE auto_architecture = 3900719357”。

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 3.0許可。

关于 - 法律

Loading...