題:
為什麼總RNA序列通常產生較低的定位率?
kaka01
2017-11-21 16:54:44 UTC
view on stackexchange narkive permalink

也許這是一個愚蠢的問題,但我真的很想知道,如果我們繪製總RNA-seq而不繪製富含poly(A)的RNA(特別是對於人類,小鼠和斑馬魚的圖表),為什麼通常會得到較低的映射率數據集)?

fasta基因組文件中是否也不包含核醣體RNA(在總RNA-seq文庫中有很高的期望)?

我沒有正確的數字現在,但我記得以前對人類數據的映射率也很低。此刻觸發我的實際上是當我映射斑馬魚數據時。我使用一個數據集將大約60%映射到基因組,將45%映射到轉錄組,使用另一個數據集將其繪製為36%-35%(請注意,這些是來自2個不同的研究,並且都是總RNA序列,使用STAR和三文魚,有自己的方法)。

如果您定位到轉錄組序列而不是基因組序列,也會發生這種情況,因為未加工的mRNA和未註釋的非編碼RNA可能有很多內含子序列
四 答案:
Tom
2017-11-21 19:40:51 UTC
view on stackexchange narkive permalink

一個可能的解釋是,總RNA-Seq包含了很大一部分來自核醣體RNA的讀數。核醣體RNA在整個基因組中以多個拷貝存在,因此許多讀物定位到多個基因組位置,並被比對器丟棄。例如,具有默認參數的STAR如果映射到10個以上的基因組位點,則將其視為未映射(可以使用-outFilterMultimapNmax 選項更改此行為)。 ,您可以在aligner的日誌文件中檢查多次映射讀取的數量。

我試圖增加允許的多重映射讀取的數目,確實映射到多個基因座的讀取數目有所增加,儘管略有增加(6.92%至7.50%)。大多數未映射的對像都歸類為“太短”(在STAR中)。您有什麼想法嗎(嗯,這又回到了我最初的問題,因為這也發生在Salmon中)?
您是否在映射之前從讀取中修剪適配器?這可能解釋了許多“太短”的讀物。另外,請在STAR的Github存儲庫上查看此問題:https://github.com/alexdobin/STAR/issues/169
@kaka01如果解決多重映射問題仍無法解決您的問題,那麼您的數據可能只是出了點問題:在高質量數據集上,將總RNA映射到基因組參考通常會產生> 80%的映射讀段。許多“太短”的映射可能表明RNA片段。您在測序之前是否進行過尺寸選擇?
湯姆:在繪製之前沒有進行任何修剪。 @Konrad未選擇庫的大小。您的解釋是有道理的,將未映射的讀段與rRNA的集合比對可產生較高的定位率(這表明它們確實是rRNA)。仍然不確定為什麼STAR將它們歸類為太短,也許我只需要更多地使用這些參數即可。
@kaka01“太短”在這裡僅表示STAR無法將讀數與高質量對齊:要么是因為初始讀數(修整後)太短以至於幾乎可以在任何地方匹配參考(對於人類而言,<〜14個鹼基)基因組),因此我們對正確的來源信心不足。或者是因為STAR在使用--alignEndsType Local(默認設置)時只能匹配一小部分讀取內容(這將導致第一個問題)。
-1
您在回答@KonradRudolph時說,_長短RNA的混合文庫似乎無法在整個片段length_中很好地循環。我不知道這個問題,您知道為什麼會這樣嗎? (很抱歉在這裡發表評論,我的聲譽不足以直接評論您回答)
@Tom讓我們離線聊天(您今晚在RNA俱樂部嗎?我要參加。)總之,我沒有證實,但這是我們觀察到的,並且考慮到化學反應,我認為這並不令人難以置信。
Devon Ryan
2017-11-21 20:05:12 UTC
view on stackexchange narkive permalink

特別是對於小鼠,如果核糖消耗不是很有效,則可能發生這種情況,因為參考基因組中沒有 Rn45s序列。如此一來,再加上大量拷貝的tRNA,5S rRNA等,會導致多重作圖器出現問題(請參閱@Tom的答案),就會大大降低比對速率。 45S(例如,在GL000220.1和chr21上),因此這些讀取將全部重映射(可能太多次)。我不知道斑馬魚參考基因組。

Konrad Rudolph
2017-11-23 16:52:13 UTC
view on stackexchange narkive permalink

在適當條件下對新鮮收穫的組織中的RNA進行測序時,通常應該期望> 50%的圖譜讀取。實際上,所有80%的<通常都會引起關注。

從您的描述(在問題和評論中)看來,您的樣品似乎已被降解,並因此被短RNA片段飽和,原因可能是:

並且已經有了舊的組織,您正在查看環境樣本,或者來自不當處理。

並且由於您沒有進行任何富集,因此測序數據也將被降解的RNA高度飽和。原因是RNA-seq是樣品樣本的(希望有些統一)採樣:RNA-seq數據按比例表示了其中的所有內容。這就是為什麼富集步驟對提高我們感興趣的任何部分的比例很重要的原因。

尤其是

  1. 總RNA主要由具有許多拷貝的基因組成:主要是rRNA和(少得多)tRNA。因此,核醣體耗竭或poly(A)選擇的重要性。
  2. RNA通常不穩定。取決於樣品的收集(非組織樣品的來源?收穫之前的組織年齡?),很大一部分RNA可能已降解為微小片段,通過文庫製備可以進一步縮短。大小選擇會消除這些不需要的片段。
  3. ol>

    根據我的經驗,某些序列發生器(我在Illumina HiSeq 1500上看到過)會加劇第二個問題,因為短而長的RNA在整個片段長度上似乎循環不佳。因此,即使您有一小部分(但仍然存在)長RNA片段,測序儀也可能無法有效地合成其全長。這樣做的結果是,與樣品中的短片段相比,短片段的讀取比例成比例。

    您可以通過在適配器修整後計算讀數的插入物大小分佈來驗證這一點(例如使用皮卡德,或簡單地計算讀數長度 1 sup>)。從降解片段讀取的小片段(<〜14 nt)本質上是不適用的,因為它們太短而無法具有特定的身份。即使我們允許映射器對齊它們,它們的坐標也基本上是隨機的。


    1 sup>這可以起作用:

      awk'NR %4 == 2 {c [length($ 0)] ++} END {for(i in c)print i,c [i]}'in.fastq  
ithinkiam
2017-11-22 17:46:40 UTC
view on stackexchange narkive permalink

您不能假設rRNA基因在基因組中。它們有很多副本,但並非全部都位於染色體上。人類和小鼠的總RNA製備數據存在這個問題。您需要確保針對整個基因組而不僅僅是染色體。

我確實在映射整個基因組。但是無論如何,假設您要針對整個基因組作圖,您得到的作圖率顯著提高了嗎?


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...