如何下載可與bowtie2一起使用的參考基因組?特別是HG19。在UCSC上,有很多文件選項。
如何下載可與bowtie2一起使用的參考基因組?特別是HG19。在UCSC上,有很多文件選項。
我想這是一個偏愛的問題,但是我推薦 Ensembl 版本。確定您是要使用頂層程序集還是主程序集,以及要使用軟屏蔽文件,重複屏蔽文件還是非屏蔽文件。命名模式非常簡單;組合在 README
文件中進行了描述,所有文件駐留在一個目錄中。
例如,如果您要使用未屏蔽的主程序集,要下載的文件將是 Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz
。
對於 GoldenPath / UCSC ,無需下載和連接單獨的染色體(與其他答案相反);您可以從 bigZips
目錄下載整個(頂級)引用;來自 README
:
此目錄包含2009年2月人類基因組的程序集(hg19,GRCh37基因組參考協會人類參考37(GCA_000001405.1)),以及重複註釋和GenBank序列。
這里基本上有三個選項:
tl; dr:只需使用 Bowtie2主頁或 Illumina iGenomes上的下載內容。或者只是解壓縮並連接在UCSC goldenpath上找到的 FASTA文件,然後建立索引。
更長的答案:
“讀作圖者的基因組”,例如Bowtie或BWA。
首先,您需要選擇實際的序列(基因組釋放,例如GRCh37 / hg19或GRCh38 / hg38)。有些修補程序版本(例如GRCh37.p3)可能會交換一些鹼基,並且根據發行版的不同,可能會添加一些“未映射”的基因座重疊群,但例如,通常GRCh37.p1與GRCh37.p2大致相同。通常,人們對於每次讀取都同意一些特定的補丁版本,並將其用於讀取映射。
通常,有UCSC風格的hg19 / hg38等以及NCBI / GRC風格的GRCh37,GRCh38等。 (與鼠標類似)。 UCSC除了釋放基因組外沒有版本控制,而且(據我所知)在釋放hg19 FASTA文件後不會更新基因組序列。
第二,您必須為每個基因組建立索引文件。根據您使用的讀取映射器,您可能需要也可能不需要原始FASTA文件進行對齊。對於Bowtie和Bowtie 2,構建索引後不需要原始的FASTA文件,因為Bowtie 1/2可以從索引文件中“動態”重建序列。
HTH