是否有通用生物信息文件格式模板的數據庫？

Chris_Rands

2017-06-02 19:08:50 UTC

view on stackexchange narkive permalink

我想要一些可以使用不同文件格式的模板來測試腳本並確定代碼中可能存在的錯誤。

例如，考慮核苷酸FASTA（一種簡單但經常被濫用的格式），希望模板捕獲常規格式和不規則格式，就像我已經看到的所有這些一樣：

1）單行序列

  >1ATG

2）多行序列

  >1Atg

3）序列中的大寫和小寫字母

  >1Atg

4）依次包含Ns和Xs（可能還有其他字母）

  >1ANnxX

5）不尋常的標頭（有時是非ASCI字符，需要考慮編碼）

  >ATG >漢字ATG

6）記錄之間的空白

  >1ATG>2ATG

7）標頭重複

  >1ATG>1ATC

8）空標頭或序列（有效的FASTA ？）

>>

9）最後一行沒有新行'\ n'字符（可以弄亂文件）串聯）

  >1A＃<在此處沒有換行符

10）取決於操作系統的不同換行符

  >1A＃\ r \ n與\ n

等。

核苷酸和蛋白質FASTA應該有單獨的模板，對齊的FASTA應該有單獨的模板。

理想情況下，它還將包括其他方面，例如不同的壓縮格式（例如 .gz ， .bzip2 ）和不同的文件擴展名（例如）。 fa ， .fasta ）。

我從未見過提供涵蓋這些內容的模板的資源，但我認為這樣做會很有用。當然，我可以構建自己的模板，但是要花費所有可能的格式變化，尤其是對於更複雜的文件格式，則需要花費時間。

請注意，我不僅對FASTA格式感興趣，還只是一個例子。

另外請注意，我知道應該處理多種格式的工具（例如 BioPython ）很好，但是它們也可能有錯誤。無論如何，在實踐中，有時我最終自己直接解析文件，因為我不希望外部程序包的開銷或依賴性。

編輯：請不要回答這個問題以表示您不這樣做我也不知道任何這樣的資源，因此是個問題。 bli的有用答案顯示，至少有一個測試套件可以用作起點。我知道查找任何特定文件格式的規範通常很容易。

實際上，FASTA格式定義非常簡單。它只有兩個約束，第二個常常被忽略：i）標題行必須以“>”開頭，並且可以包含除“ \ n”之外的任何其他內容。 ii）順序行應為每行60個字符。其他沒有關係，序列號，標題中的字符，擴展名（無論如何在Windows世界中通常都是無關緊要的），對序列可以具有的字符沒有任何限制（因此，蛋白質和核苷酸Fasta規範）。

當然，該規範很簡單，但是正如您在實踐中所說的那樣，並不總是遵循該規範，並且在解析文件時，所有這些變體都變得有意義。我有很多工具可以跳到奇怪的FASTA標頭或序列上，顯然，區分核苷酸和氨基酸的工具很重要。例如，您可以使用僅1個特定後綴的“ glob”文件。

如果這些工具令人窒息，那就是那些忽略標準的工具。 FASTA標準是實際上非常清楚且易於理解的極少數標準之一。它只是一種非常免費的格式。是的，您當然可以瀏覽擴展程序。例如，我傾向於將我的蛋白質文件命名為.pep和nt .fa，但這沒有標準。您所有工具需要做的就是：i）將“>”之後的整行作為序列名稱，並將ii）其他所有內容作為序列。僅此而已，這就是fasta所需要的。

當然，這些工具可能會忽略該標準，這就是為什麼我認為最好使用各種模板來測試這些工具。而且並不總是那麼簡單，例如如果使用FASTA標頭命名後續文件，則特殊字符可能會令人討厭。無論如何，正如我所說的FASTA只是一個例子，邏輯擴展到了其他更複雜的格式

您提到“我不僅對FASTA格式感興趣，還只是一個例子”，但請記住，最好讓問題盡可能具體。