題:
在ChIP-seq數據分析中何時考慮列入黑名單的基因組區域?
olga
2017-06-05 22:15:40 UTC
view on stackexchange narkive permalink

我們在小組中聽說,在分析功能基因組學實驗(尤其是ChIP-seq)中的數據時,跟踪和過濾偽影區域非常重要。

在這裡,我們看到了以下管線:在互相關QC之前,ii)在互相關QC之後但在峰值調用之前和iii)在峰值調用之後刪除了ENCODE磁道。

我們已經註意到,刪除音軌不會顯著影響互相關和與峰值無關的QC。但是,我們不確定是否應該在過濾後的音軌上進行峰值調用?

一 回答:
Devon Ryan
2017-06-05 22:41:43 UTC
view on stackexchange narkive permalink

此外:互相關在很大程度上沒有意義,無論某些ENCODE人士可能會爭論什麼。在處理DEEP樣本時,我們甚至不會查看該值。

無論如何,如果您使用SPP / phantomPeakQual進行互相關,請注意,它已經從數據集中刪除了最高峰,計算互相關(實際上,它也可以刪除大多數實際峰值,這使人們進一步懷疑它實際上在告訴您什麼)。我不知道它實際上在任何地方都有記錄,這是我在仔細考慮是否在deepTools中實現它的過程中註意到的。但至少它已經忽略了這些區域:)

通常,最簡單的方法是刪除與黑名單區域重疊的峰。在理想情況下,您會在高峰調用之前過濾掉列入黑名單的讀數,但是(1)這確實很不方便(需要更多時間和磁盤),並且(2)我從未見過高峰調用性能顯著提高的情況。從理論上講,如果您不刪除重複的黑名單區域,至少應該在黑名單區域附近失去敏感性,但是您必須問問自己是否仍然要相信這樣的峰。對於其他質量控制步驟,至少使用deepTools,我們為每個工具提供一個參數,以指定要跳過的黑名單區域的BED文件。

此外,在最近的基因組構建中,黑名單區域的數量要少得多(至少是GRCh38和GRCm38),因此對於它們來說,這通常不是一個大問題。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...