從BWA mem對齊獲取唯一映射的讀取

gringer

2017-06-07 03:23:31 UTC

view on stackexchange narkive permalink

這是基於BioStars上 betsy.s.collins的問題。您可以在此處

找到原始帖子。有人對BWA生成的BAM文件中的其他標籤或過濾步驟有任何建議嗎？映射到一個位置？一個示例應用程序是為 TULIP彙編器/腳手架找到種子，該種子最適合映射到獨特基因組位置的讀段。

“唯一映射讀段”的概念是負載術語，大多數資料來源都建議通過MAPQ進行過濾。但是，將BWA用作讀取映射器時，這種方法似乎不起作用。

我對這篇文章有些不滿意，主要是為了評估社區是否認為這樣做是個好主意。這是一個新用戶剛剛在BioStars上提出的問題。這個問題非常具體，背後有很多很好的故事，因此我認為它非常適合Stack Exchange模型。

當進行依賴於讀數定量而不是僅僅覆蓋範圍（例如RNASeq）的分析時，有時首選唯一映射的讀數（即映射到基因組中單個位置的讀數）。重複的讀取需要在分析方面進行額外的過濾或規範化，並且大多數下游程序不會考慮諸如“染色體5某處*此處*的五分之一的讀取映射，以及染色體5某處*此處*的五分之四的讀取映射的概念。第14號染色體。”

發問者指的是基因組唯一的比對，它不同於單個位置上的多個可能的比對。如果唯一的多個比對在相同的基因組位置，則這些比對在基因組意義上仍然是唯一的。無法找到準確，正確的比對是一個眾所周知的問題，並且有一些下游方法（例如左歸一化）來確保多個局部比對和/或測序錯誤的影響減小。

謝謝。如果確實想從其他地方逐字複製文本，則應始終將其放在引號塊中（使用編輯器或在行的開頭添加“>”）以清楚地表明該文本已被引用。如果不是這樣，即使您（確實如此）引用了來源，您也極有可能因抄襲而刪除您的帖子。

原始海報現在已經回復了生物明星，並提到她將使用MAPQ過濾（以及刪除補充序列）。

她還提到她的“實際”問題是關於Geneious和BWA映射不一樣的（如果有人讀到發布的“文本牆”，這是可以理解的）。即使排除乘法映射讀取也無法解決此問題。

ERR063640.7 16 tig00019544 79974 21 21M2I56M1I20M * 0 0 TATCACATATCATCCGACTCAGCTCGACGAGTACAATGCTAATTTAACACTTAGAATGCCCGGCAATGAAATTCGTTTTCCGTCAATTCTTGAAAATTTC <AABBEGABFJKKKIM7GHKKJK>JLKLDGMHLIMIHHCGIJKKLJKLNJGLLLKLILKLMFNDLKGHJEKMKKMIJHGLOJLLLKIJLKKJEJLIGG>D NM：ⅰ ：4 MD：Z：83A13 AS：i：77 XS：i：67 XA：Z：tig00019544，-78808,21M2I56M1I20M，6; tig00019544，-84624,79M1I20M，6; tig00019544，-79312,33M4I42M1I20M，8; 代碼>

$ samtools視圖-x XA output.bam |的grep'^ ERR063640 \ 0.7 [[：空間：]]'ERR063640.7 16 tig00019544 79974 21 21M2I56M1I20M * 0 0 TATCACATATCATCCGACTCAGCTCGACGAGTACAATGCTAATTTAACACTTAGAATGCCCGGCAATGAAATTCGTTTTCCGTCAATTCTTGAAAATTTC <AABBEGABFJKKKIM7GHKKJK>JLKLDGMHLIMIHHCGIJKKLJKLNJGLLLKLILKLMFNDLKGHJEKMKKMIJHGLOJLLLKIJLKKJEJLIGG>D NM：I：4 MD：Z：83A13為：I：77 XS：I：67 代碼>

$ samtools視圖output_filtered.bam | awk'{print $ 1}'|排序Uniq -dERR063640.1194ERR063640.1429ERR063640.1761ERR063640.2336ERR063640.2825ERR063640.3458ERR063640.4421ERR063640.4474ERR063640.4888ERRERR640640.49ERR063640.4974ERR063640.5070ERR063640.5130ERR063640.5300ERR063640.5868ERRERR640.6116ERR063640.6063ERR063640.606306306306306306306306306306306306306306363 7900ERR063640.8115ERR063640.8405ERR063640.911ERR063640.9206ERR063640.9765ERR063640.9986

$ samtools視圖output_filtered.bam |的grep'^ ERR063640.3458 [[：空間：]]'ERR063640.3458 16 tig00002961 5402 60 58S38M * 0 0 AGGTACCATTCGATAGAGGGAGAAAGGCACTACTAAAGATTTTGCCACATTTGCTATATCCGTATCGCGAAGATCAGGACTTACTCCGCAGAAGAA DD6HFFJBKFH = KDILKLGLJEKLKGFJIH8IKHLLMJEK：L：HBGJIHJKFLLKIHJDHLNKCK; KMKGMFKJILIIIMKI9JLKKHEJFII CC NM：I：0 MD：Z：38 AS：ⅰ ：38 XS：I：0 SA：Z：tig00002377,202353， - ，14M3I5M1I35M38S，19,5; ERR063640.3458 2064 tig00002377 202353 19 14M3I5M1I35M38H * 0 0 AGGTACCATTCGATAGAGGGAGAAAGGCACTACTAAAGATTTTGCCACATTTGCTATA DD6HFFJBKFH = KDILKLGLJEKLKGFJIH8IKHLLMJEK：L：HBGJIHJKFLLKIHJ NM：I：5 MD位：Z ：5G48 AS：i：35 XS：i：27 SA：Z：tig00002961,5402，-，58S38M，60,0;

sambamba視圖-t 12 -h -f bam -F “ mapping_quality > = 1，而不是（未映射或secondary_alignment），並且不是（[XA]！= null或[SA]！= null）”。test.bwa-mem.bam -o test-uniq.bam 有關進一步使用的詳細信息，請參見手冊和 sambamba synatx。

$：除了 grep 緩慢的搜索，可能會返回錯誤的~~正 del>否定命中（上面@gringer的回复）。我也不認為基於 awk 的方法可靠，因為XA，SA等字段是 SAM格式的可選字段，而不是按位置固定的字段。~~