在很多情況下,我想將BAM子集化以創建一個小文件以便進行處理(例如算法測試,調試等)。
通常,我會執行以下操作子集BAM file.bam
,並保留標題
samtools視圖-H file.bam > header.samsamtools視圖file.bam |頭-n 5000 | cat header.sam-| samtools視圖-Sb-> file.unique.bam
在這種情況下,我希望1號染色體上有5000行,2號染色體上有5000行。
我可以先嘗試按單個染色體進行grepping,然後結合兩個SAM
例如這是帶有grepped的chr1和(錯誤但完整的)標題的完整BAM
samtools視圖-H file.bam > header.samsamtools視圖file.bam | grep“ chr1” | cat header.sam-| samtools視圖-Sb-> file.unique.bam
,但是然後我遇到兩個問題:
(1)我可能沒有將對2號染色體的比對重新定位-可能存在包含'chr2'但不對齊的BAM行。
(2)我認為必須手動編輯標題。可能無法解決此問題。
生物信息學有一種簡單的方法嗎?