我在上限分位數歸一化中使用最高約1%的主要問題是,它很容易遇到RPKM / FPKM所遇到的相同的魯棒性問題。也就是說,如果出於任何技術原因,您必須在幾個非常高表達的基因(通常是rRNA,但可以想像其他基因)中具有一定的變異性,並且進入UQ標準化的一組基因主要由那些那麼歸一化結果將僅反映不相關的技術可變性。
當然,所有這些都假定使用這樣的標準方法對scRNAseq數據進行歸一化甚至是合適的。在某些情況下是這樣的(例如,在比較對照和治療情況下,使用大致均一的細胞群),但是如果您要處理的細胞類型非常不同,那麼我擔心標準方法會沖走諸如體積差異之類的東西細胞類型之間的RNA含量。假設存在尖峰插入,則應對其應用相同的歸一化,然後進行檢查以確保沒有大的毛病。話雖如此,如果您將要進行tSNE並想尋找細胞類型,那麼您仍然可以看到大多數細胞(畢竟,RNA數量不可能是兩者之間的唯一區別)
表達整體轉移的問題
表達整體轉移的概念並不是scRNAseq獨有的,事實上,最常見的例子是與癌症有關的Myc上/下調節。為了解釋這個問題,讓我們假設您具有以下(非常小的)計數矩陣:
sample1 sample2gene1 1 2gene2 10 20gene3 15 32gene4 100 198
正如您所看到的,sample2每個基因的讀取數大約是sample1的兩倍,因此任何規範化都將其所有計數減半(或相反,sample1或兩者的混合。) 。取決於方法)。這通常很好,因為所有常見歸一化方法的假設都是這樣的差異僅僅是由於樣本之間的測序深度差異所致。但是,如果sample2的RNA實際是sample1的兩倍,會發生什麼?好吧,那麼您就已經標準化了樣本之間的所有差異(我鼓勵讀者閱讀有關Myc的文獻,因為這是一個很好的例子,在這種情況下,表達的普遍變化導致了明顯的下降,恆定表達基因的調控)。這種情況在批量RNAseq中並不常見,但是在這種情況下,您需要使用諸如刺突(與細胞數量或DNA數量匹配)的方法來維持全局差異。
如果這只是散裝RNAseq的一個罕有問題,那麼為什麼它在scRNAseq中更可能成為一個問題?答案是,大量RNAseq得益於許多不同細胞類型的平均數,因此整體平均數/中位數不會因治療而發生太大變化……但是單株情況並非如此-細胞水平,因為細胞的大小可能相差很大(比較精子和卵母細胞...它們之間的每個RNA都應差異表達)。不同細胞類型之間鹼基RNA含量的這種差異將通過常見的標準化方法消除,這可能導致丟失差異或在不應該存在的基因中產生差異(再次參見Myc文獻中的示例)。這是否真的成為問題,將取決於您的數據目標是什麼,以及您實際具有多少全局表達式差異以及您要執行的分析類型。
最後,請記住,常用的RNAseq歸一化方法假設(A)樣本之間沒有全局表達變化,並且(B)如果有很多DE基因的變化方向沒有嚴重偏斜在一個方向上。如果違反了這些假設之一,那麼您可能會遇到問題。