我想要一些可以使用不同文件格式的模板來測試腳本並確定代碼中可能存在的錯誤。
例如,考慮核苷酸FASTA(一種簡單但經常被濫用的格式),希望模板捕獲常規格式和不規則格式,就像我已經看到的所有這些一樣:
1)單行序列
>1ATG
2)多行序列
>1Atg
3)序列中的大寫和小寫字母
>1Atg
4)依次包含Ns和Xs(可能還有其他字母)
>1ANnxX
5)不尋常的標頭(有時是非ASCI字符,需要考慮編碼)
>ATG >漢字ATG
6)記錄之間的空白
>1ATG>2ATG
7)標頭重複
>1ATG>1ATC
8)空標頭或序列(有效的FASTA ?)
>>
9)最後一行沒有新行'\ n'
字符(可以弄亂文件)串聯)
>1A#<在此處沒有換行符
10)取決於操作系統的不同換行符
>1A#\ r \ n與\ n
等。
核苷酸和蛋白質FASTA應該有單獨的模板,對齊的FASTA應該有單獨的模板。
理想情況下,它還將包括其他方面,例如不同的壓縮格式(例如 .gz
, .bzip2
)和不同的文件擴展名(例如)。 fa
, .fasta
)。
我從未見過提供涵蓋這些內容的模板的資源,但我認為這樣做會很有用。當然,我可以構建自己的模板,但是要花費所有可能的格式變化,尤其是對於更複雜的文件格式,則需要花費時間。
請注意,我不僅對FASTA格式感興趣,還只是一個例子。
另外請注意,我知道應該處理多種格式的工具(例如 BioPython
)很好,但是它們也可能有錯誤。無論如何,在實踐中,有時我最終自己直接解析文件,因為我不希望外部程序包的開銷或依賴性。
編輯:請不要回答這個問題以表示您不這樣做我也不知道任何這樣的資源,因此是個問題。 bli的有用答案顯示,至少有一個測試套件可以用作起點。我知道查找任何特定文件格式的規範通常很容易。