題:
下載Bowtie2的參考基因組
EMiller
2017-06-01 03:56:27 UTC
view on stackexchange narkive permalink

如何下​​載可與bowtie2一起使用的參考基因組?特別是HG19。在UCSC上,有很多文件選項。

二 答案:
Konrad Rudolph
2017-06-01 14:38:53 UTC
view on stackexchange narkive permalink

我想這是一個偏愛的問題,但是我推薦 Ensembl 版本。確定您是要使用頂層程序集還是主程序集,以及要使用軟屏蔽文件,重複屏蔽文件還是非屏蔽文件。命名模式非常簡單;組合在 README 文件中進行了描述,所有文件駐留在一個目錄中

例如,如果您要使用未屏蔽的主程序集,要下載的文件將是 Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz

對於 GoldenPath / UCSC ,無需下載和連接單獨的染色體(與其他答案相反);您可以從 bigZips 目錄下載整個(頂級)引用;來自 README

此目錄包含2009年2月人類基因組的程序集(hg19,GRCh37基因組參考協會人類參考37(GCA_000001405.1)),以及重複註釋和GenBank序列。

這里基本上有三個選項:

  1. chromFa.tar.gz
  2. chromFaMasked.tar.gz ,它的整個基因組包含在一個染色體中;
  3. 與帶有 N 的重複序列相同;
  4. hg19.2bit ,它是一個文件中的整個基因組,但是需要使用實用程序 twoBitToFa 進行提取,該程序需要單獨下載
  5. ol>

    無論如何,我總是下載參考並建立自己的索引進行映射,因為這可以讓我更好地控制;並不是每個人都需要這麼多的控制權,但是無論如何建立一次索引還是相當快的。

我認為這引發了另一個問題“同一基因組構建的不同版本之間有什麼區別?”。問題的答案應該包括DNA和RNA-seq /功能基因組學分析之間的差異。在DNA /變異世界中,人們通常會堅持使用大型測序項目/ Heng Li認為是“最佳”的方法。在RNA-seq /功能基因組學世界中,謹慎地管理基因組非常重要,這取決於讀取的作圖儀以及下游工具的支持(更多的工具集意味著特有需求的較少使用的工具的尾巴更長)。
Manuel
2017-06-01 04:21:54 UTC
view on stackexchange narkive permalink

tl; dr:只需使用 Bowtie2主頁 Illumina iGenomes上的下載內容。或者只是解壓縮並連接在UCSC goldenpath上找到的 FASTA文件,然後建立索引。

更長的答案:

“讀作圖者的基因組”,例如Bowtie或BWA。

首先,您需要選擇實際的序列(基因組釋放,例如GRCh37 / hg19或GRCh38 / hg38)。有些修補程序版本(例如GRCh37.p3)可能會交換一些鹼基,並且根據發行版的不同,可能會添加一些“未映射”的基因座重疊群,但例如,通常GRCh37.p1與GRCh37.p2大致相同。通常,人們對於每次讀取都同意一些特定的補丁版本,並將其用於讀取映射。

通常,有UCSC風格的hg19 / hg38等以及NCBI / GRC風格的GRCh37,GRCh38等。 (與鼠標類似)。 UCSC除了釋放基因組外沒有版本控制,而且(據我所知)在釋放hg19 FASTA文件後不會更新基因組序列。

第二,您必須為每個基因組建立索引文件。根據您使用的讀取映射器,您可能需要也可能不需要原始FASTA文件進行對齊。對於Bowtie和Bowtie 2,構建索引後不需要原始的FASTA文件,因為Bowtie 1/2可以從索引文件中“動態”重建序列。

HTH

我不知道我是如何設法錯過領結主頁上的下載的。希望這對別人有幫助!


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...