題:
是否有通用生物信息文件格式模板的數據庫?
Chris_Rands
2017-06-02 19:08:50 UTC
view on stackexchange narkive permalink

我想要一些可以使用不同文件格式的模板來測試腳本並確定代碼中可能存在的錯誤。

例如,考慮核苷酸FASTA(一種簡單但經常被濫用的格式),希望模板捕獲常規格式和不規則格式,就像我已經看到的所有這些一樣:

1)單行序列

  >1ATG  

2)多行序列

  >1Atg  

3)序列中的大寫和小寫字母

  >1Atg  

4)依次包含Ns和Xs(可能還有其他字母)

  >1ANnxX  

5)不尋常的標頭(有時是非ASCI字符,需要考慮編碼)

  >ATG >漢字ATG  

6)記錄之間的空白

  >1ATG>2ATG  

7)標頭重複

  >1ATG>1ATC  

8)空標頭或序列(有效的FASTA ?)

  >>  

9)最後一行沒有新行'\ n'字符(可以弄亂文件)串聯)

  >1A#<在此處沒有換行符 

10)取決於操作系統的不同換行符

  >1A#\ r \ n與\ n  

等。

核苷酸和蛋白質FASTA應該有單獨的模板,對齊的FASTA應該有單獨的模板。

理想情況下,它還將包括其他方面,例如不同的壓縮格式(例如 .gz .bzip2 )和不同的文件擴展名(例如)。 fa .fasta )。

我從未見過提供涵蓋這些內容的模板的資源,但我認為這樣做會很有用。當然,我可以構建自己的模板,但是要花費所有可能的格式變化,尤其是對於更複雜的文件格式,則需要花費時間。

請注意,我不僅對FASTA格式感興趣,還只是一個例子。

另外請注意,我知道應該處理多種格式的工具(例如 BioPython )很好,但是它們也可能有錯誤。無論如何,在實踐中,有時我最終自己直接解析文件,因為我不希望外部程序包的開銷或依賴性。

編輯:請不要回答這個問題以表示您不這樣做我也不知道任何這樣的資源,因此是個問題。 bli的有用答案顯示,至少有一個測試套件可以用作起點。我知道查找任何特定文件格式的規範通常很容易。

實際上,FASTA格式定義非常簡單。它只有兩個約束,第二個常常被忽略:i)標題行必須以“>”開頭,並且可以包含除“ \ n”之外的任何其他內容。 ii)順序行應為每行60個字符。其他沒有關係,序列號,標題中的字符,擴展名(無論如何在Windows世界中通常都是無關緊要的),對序列可以具有的字符沒有任何限制(因此,蛋白質和核苷酸Fasta規範)。
當然,該規範很簡單,但是正如您在實踐中所說的那樣,並不總是遵循該規範,並且在解析文件時,所有這些變體都變得有意義。我有很多工具可以跳到奇怪的FASTA標頭或序列上,顯然,區分核苷酸和氨基酸的工具很重要。例如,您可以使用僅1個特定後綴的“ glob”文件。
如果這些工具令人窒息,那就是那些忽略標準的工具。 FASTA標準是實際上非常清楚且易於理解的極少數標準之一。它只是一種非常免費的格式。是的,您當然可以瀏覽擴展程序。例如,我傾向於將我的蛋白質文件命名為.pep和nt .fa,但這沒有標準。您所有工具需要做的就是:i)將“>”之後的整行作為序列名稱,並將ii)其他所有內容作為序列。僅此而已,這就是fasta所需要的。
當然,這些工具可能會忽略該標準,這就是為什麼我認為最好使用各種模板來測試這些工具。而且並不總是那麼簡單,例如如果使用FASTA標頭命名後續文件,則特殊字符可能會令人討厭。無論如何,正如我所說的FASTA只是一個例子,邏輯擴展到了其他更複雜的格式
您提到“我不僅對FASTA格式感興趣,還只是一個例子”,但請記住,最好讓問題盡可能具體。
六 答案:
bli
2017-06-02 21:18:49 UTC
view on stackexchange narkive permalink

您提到了Biopython,其中包含測試: https://github.com/biopython/biopython/tree/master/Tests

其中一些測試在於閱讀上面鏈接中列出的文件夾中的文件。這些文件可能是測試文件數據庫的起點。每當有人遇到這些文件未涵蓋的測試用例時,就可以構建一個新的測試文件並將其與測試一起提交給Biopython,或者至少提出問題: https://github.com/biopython / biopython / issues

這是在構建測試文件數據庫時為Biopython做出貢獻的一種方式。

謝謝,我喜歡這個主意。我想知道BioPerl和其他項目是否也包含可以使用的類似測試套件
這裡也是“我也”:我有時將BioPython的示例或測試數據用作其他程序的測試數據。您至少可以保證它是有效的。使用Galaxy工具,您可能會發現一些類似的有用數據。
olga
2017-06-03 00:44:01 UTC
view on stackexchange narkive permalink

不是我知道。編碼時最好遵循格式規範。

另外,最好看看示例文件以及各種執行文件轉換和處理的工具。例如。

woemler
2017-06-02 22:08:55 UTC
view on stackexchange narkive permalink

據我所知,沒有一個單一的存儲庫可以收集生物信息學中使用的所有常見數據格式。通常,您必須轉到源中查找每種格式的規範。不過,在一些地方可以收集文件格式的描述:

  • IGV文件格式,涵蓋了Broad Institute的Integrative Genomics Viewer軟件中可用的所有格式(
  • NCI文件格式,主要是TGCA使用的格式(包括MAF和VCF)。
  • UCSC基因組學,涵蓋了BED,MAF等。
  • GenePattern,涵蓋了與微陣列數據相關的許多文件格式。
  • GSEA,廣泛基因集富集分析文檔。
jgreener
2020-03-31 16:26:12 UTC
view on stackexchange narkive permalink

BioJulia維護 BioFmtSpecimens。從自述文件:

生物信息學中充斥著各種格式和用於這些格式的解析器。這些解析器並不總是就這些格式的定義達成共識,因為許多解析器都缺乏任何形式的標準。測試軟件。針對相同案例進行測試是朝著就格式的細節和邊緣案例達成共識的第一步。

terdon
2017-06-02 19:24:56 UTC
view on stackexchange narkive permalink

不。至少我沒有聽說過,而且我懷疑還會有。沒有用於格式的中央存儲庫,並且每個工具,社區,領域等都有自己的格式。

您能做的最好的就是查找每種格式的官方標準,並希望它們包括示例。對於可怕的 del>複雜格式(如VCF),基本上不可能真正全面地收集所有可能的變體。只需考慮一個簡單的事實,即它允許用戶定義的 INFO 字段具有任意內容。

因此,最好的辦法是確保腳本符合標準,並希望您的輸入也是如此。

儘管可能有一個中央存儲庫,其中包含最常用格式的模板。我不明白為什麼不呢?當然,它不可能完全全面。對我來說,這似乎是個好主意...
一般而言,@Chris_Rands令人遺憾的是,生物學中幾乎沒有任何集中的“任何東西”,這是該領域的普遍問題。就是說,我承認我並沒有真正看到它的用途。您需要的是標準。以不同方式應用該標準的多個示例對我似乎並沒有幫助。至少在標准定義明確的情況下不是這樣(並非總是如此)。想到這一點,我一般都不會想到任何這樣的格式示例存儲庫,而不僅僅是生物學。
謝謝,我同意缺乏標準化/集中化的觀點。對我而言,主要用途是測試用例/單元測試。知道規範是一回事,但是發現所有邊緣情況可能很棘手,而無需進行測試
@Chris_Rands s / tricky / impossible :)我已經在學術界工作了十五年了,現在已經從事行業工作,您不會*相信*我們作為“ vcf文件”發送的廢話。無法覆蓋所有極端情況,有些人會給您一個擴展名為.vcf的excel文件,並希望它可以工作:(
我認為在github倉庫中使用每種格式的極端案例是一個好主意-每當我們中的任何人遇到一種新方法時,有人都會用某種格式做一些雜亂的事情,就可以在倉庫上發布PR。
tweirick
2017-06-02 19:24:46 UTC
view on stackexchange narkive permalink

這些可能與您所尋找的不完全相同,但是它們確實包含各種格式的示例。如果您想要更多,可以嘗試搜索託管其他類型數據庫的其他主要數據庫,例如Uniprot,PDB,NCBI。

https://genome.ucsc.edu/FAQ/FAQformat.html

http://www.ensembl.org/info /website/upload/bed.html

謝謝,我熟悉UCSC和Ensembl及其格式說明,但這並不是模板真正的意思。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...