題:
scRNA-seq數據的上四分位數歸一化的缺點
gc5
2018-01-06 03:59:49 UTC
view on stackexchange narkive permalink

我想對定義為:

上四分位數(UQ)的scRNA-seq數據使用上四分位數歸一化方法(Bullard et al。2010)。在此,每列除以每個庫的計數的75%分位數。通常,計算出的分位數由跨細胞的中位數來縮放,以保持表達的絕對水平相對一致。該方法的缺點是,對於低深度的scRNASeq實驗,大量未檢測到的基因可能導致75%的分位數為零(或接近零)。可以通過泛化該想法並使用較高的分位數(例如,scater中的默認位數為99%)或在計算75%的分位數之前排除零來克服此限制。

特別是,我將使用99%的分位數來避免以小數或零歸一化。在scRNA-seq數據上使用它還有其他缺點嗎?

  • Bullard,James H,Elizabeth Purdom,Kasper D Hansen和Sandrine Dudoit。 2010年。“ mRNA-Seq實驗中歸一化和差異表達統計方法的評估。” BMC生物信息學11(1)。 Springer Nature:94. doi:10.1186 / 1471-2105-11-94。
一 回答:
Devon Ryan
2018-01-06 05:06:50 UTC
view on stackexchange narkive permalink

我在上限分位數歸一化中使用最高約1%的主要問題是,它很容易遇到RPKM / FPKM所遇到的相同的魯棒性問題。也就是說,如果出於任何技術原因,您必須在幾個非常高表達的基因(通常是rRNA,但可以想像其他基因)中具有一定的變異性,並且進入UQ標準化的一組基因主要由那些那麼歸一化結果將僅反映不相關的技術可變性。

當然,所有這些都假定使用這樣的標準方法對scRNAseq數據進行歸一化甚至是合適的。在某些情況下是這樣的(例如,在比較對照和治療情況下,使用大致均一的細胞群),但是如果您要處理的細胞類型非常不同,那麼我擔心標準方法會沖走諸如體積差異之類的東西細胞類型之間的RNA含量。假設存在尖峰插入,則應對其應用相同的歸一化,然後進行檢查以確保沒有大的毛病。話雖如此,如果您將要進行tSNE並想尋找細胞類型,那麼您仍然可以看到大多數細胞(畢竟,RNA數量不可能是兩者之間的唯一區別)

表達整體轉移的問題

表達整體轉移的概念並不是scRNAseq獨有的,事實上,最常見的例子是與癌症有關的Myc上/下調節。為了解釋這個問題,讓我們假設您具有以下(非常小的)計數矩陣:

  sample1 sample2gene1 1 2gene2 10 20gene3 15 32gene4 100 198  

正如您所看到的,sample2每個基因的讀取數大約是sample1的兩倍,因此任何規範化都將其所有計數減半(或相反,sample1或兩者的混合。) 。取決於方法)。這通常很好,因為所有常見歸一化方法的假設都是這樣的差異僅僅是由於樣本之間的測序深度差異所致。但是,如果sample2的RNA實際是sample1的兩倍,會發生什麼?好吧,那麼您就已經標準化了樣本之間的所有差異(我鼓勵讀者閱讀有關Myc的文獻,因為這是一個很好的例子,在這種情況下,表達的普遍變化導致了明顯的下降,恆定表達基因的調控)。這種情況在批量RNAseq中並不常見,但是在這種情況下,您需要使用諸如刺突(與細胞數量或DNA數量匹配)的方法來維持全局差異。

如果這只是散裝RNAseq的一個罕有問題,那麼為什麼它在scRNAseq中更可能成為一個問題?答案是,大量RNAseq得益於許多不同細胞類型的平均數,因此整體平均數/中位數不會因治療而發生太大變化……但是單株情況並非如此-細胞水平,因為細胞的大小可能相差很大(比較精子和卵母細胞...它們之間的每個RNA都應差異表達)。不同細胞類型之間鹼基RNA含量的這種差異將通過常見的標準化方法消除,這可能導致丟失差異或在不應該存在的基因中產生差異(再次參見Myc文獻中的示例)。這是否真的成為問題,將取決於您的數據目標是什麼,以及您實際具有多少全局表達式差異以及您要執行的分析類型。

最後,請記住,常用的RNAseq歸一化方法假設(A)樣本之間沒有全局表達變化,並且(B)如果有很多DE基因的變化方向沒有嚴重偏斜在一個方向上。如果違反了這些假設之一,那麼您可能會遇到問題。

謝謝。通過使用較低的分位數(例如90%)可以消除主要問題嗎?在UQ標準化之前刪除rRNA是否可以緩解此問題?關於刺入,我在按刺入/內源RNA比率過濾後除去了它們(僅保留比率低的細胞)。從理論上講,我正在使用的數據集應由基本上均一的細胞群體組成,您能否詳細說明這種方法將如何清除諸如細胞類型之間的大量RNA含量差異之類的東西?
您使用的基因越多,它就會越健壯,是的,這很有幫助。我將更新答案,以提及發生全局更改時的規範化問題。
謝謝,現在很清楚。我想我會使用釘刺標準化。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...