scRNA-seq數據的上四分位數歸一化的缺點

gc5

2018-01-06 03:59:49 UTC

view on stackexchange narkive permalink

我想對定義為：

上四分位數（UQ）的scRNA-seq數據使用上四分位數歸一化方法（Bullard et al。2010）。在此，每列除以每個庫的計數的75％分位數。通常，計算出的分位數由跨細胞的中位數來縮放，以保持表達的絕對水平相對一致。該方法的缺點是，對於低深度的scRNASeq實驗，大量未檢測到的基因可能導致75％的分位數為零（或接近零）。可以通過泛化該想法並使用較高的分位數（例如，scater中的默認位數為99％）或在計算75％的分位數之前排除零來克服此限制。

特別是，我將使用99％的分位數來避免以小數或零歸一化。在scRNA-seq數據上使用它還有其他缺點嗎？

Bullard，James H，Elizabeth Purdom，Kasper D Hansen和Sandrine Dudoit。 2010年。“ mRNA-Seq實驗中歸一化和差異表達統計方法的評估。” BMC生物信息學11（1）。 Springer Nature：94. doi：10.1186 / 1471-2105-11-94。

表達整體轉移的問題

表達整體轉移的概念並不是scRNAseq獨有的，事實上，最常見的例子是與癌症有關的Myc上/下調節。為了解釋這個問題，讓我們假設您具有以下（非常小的）計數矩陣：

sample1 sample2gene1 1 2gene2 10 20gene3 15 32gene4 100 198

正如您所看到的，sample2每個基因的讀取數大約是sample1的兩倍，因此任何規範化都將其所有計數減半（或相反，sample1或兩者的混合。）。取決於方法）。這通常很好，因為所有常見歸一化方法的假設都是這樣的差異僅僅是由於樣本之間的測序深度差異所致。但是，如果sample2的RNA實際是sample1的兩倍，會發生什麼？好吧，那麼您就已經標準化了樣本之間的所有差異（我鼓勵讀者閱讀有關Myc的文獻，因為這是一個很好的例子，在這種情況下，表達的普遍變化導致了明顯的下降，恆定表達基因的調控）。這種情況在批量RNAseq中並不常見，但是在這種情況下，您需要使用諸如刺突（與細胞數量或DNA數量匹配）的方法來維持全局差異。

如果這只是散裝RNAseq的一個罕有問題，那麼為什麼它在scRNAseq中更可能成為一個問題？答案是，大量RNAseq得益於許多不同細胞類型的平均數，因此整體平均數/中位數不會因治療而發生太大變化……但是單株情況並非如此-細胞水平，因為細胞的大小可能相差很大（比較精子和卵母細胞...它們之間的每個RNA都應差異表達）。不同細胞類型之間鹼基RNA含量的這種差異將通過常見的標準化方法消除，這可能導致丟失差異或在不應該存在的基因中產生差異（再次參見Myc文獻中的示例）。這是否真的成為問題，將取決於您的數據目標是什麼，以及您實際具有多少全局表達式差異以及您要執行的分析類型。

最後，請記住，常用的RNAseq歸一化方法假設（A）樣本之間沒有全局表達變化，並且（B）如果有很多DE基因的變化方向沒有嚴重偏斜在一個方向上。如果違反了這些假設之一，那麼您可能會遇到問題。