題:
功能註釋:RefSeq與Ensembl與Gencode有什麼區別?
Plasma
2017-05-17 00:24:16 UTC
view on stackexchange narkive permalink

不同註釋數據庫之間的實際區別是什麼?

由於我仍然不知道的原因,我的實驗室更喜歡Ensembl批註(我們正在研究轉錄本/外顯子表達估計),而某些軟件附帶了RefSeq批註。如今,它們之間是否存在顯著差異,或者它們在所有意圖和目的上都是可互換的(例如,RefSeq和Ensembl批註之間的外顯子坐標可互換)?

五 答案:
Mitra
2017-05-17 14:34:08 UTC
view on stackexchange narkive permalink

要添加到右偏的答案:的確是這樣:

Gencode是一組附加的註釋(由Havana完成的手動註釋和由Ensembl完成的自動註釋) )

註釋(GTF)文件與X染色體和Y par以及Gencode文件中的其他註釋有關的一些例外非常相似(請參見 FAQ-Gencode )。

不同註釋數據庫之間的實際區別是什麼?

它們有一些區別,但對我來說主要是(和

Refseq是由美國NCBI開發的

ENSEMBL主要是由歐洲的EMBL-EBI。

通常,實驗室或人們只是開始使用他們最了解的知識(由於課程或講習班),或者因為他們開始使用其中一個數據庫

我的實驗室,原因仍然未知。我更喜歡Ensembl批註(我們正在處理轉錄本/外顯子表達估計),而有些軟件附帶RefSeq批註。

您的實驗室可能主要是歐洲人,或者他們也有閱讀Frankish等人的論文。 GENCODE和RefSeq基因註釋的比較以及參考基因集對變異效應預測的影響。 BMC基因組學2015; 16(Suppl 8):S2-DOI:10.1186 / 1471-2164-16-S8-S2

來自 Frankish等人。論文論文:

與基因組和外顯子組數據集相比,GENCODE綜合轉錄本包含更多的外顯子,更大的基因組覆蓋率和比RefSeq捕獲更多的變體,而GENCODE基本集顯示與RefSeq的一致性更高,並且具有更少的獨特功能。

對於:

今天它們之間是否存在顯著差異,或者它們在所有意圖和目的上都是可互換的(例如RefSeq和Ensembl批註之間的外顯子坐標是否可互換)?

否。我不認為它們之間有很大的區別,因為全局圖應該保持不變(儘管如果您對一小部分基因感興趣,您會看到不同的結果)。但是,它們不能直接互換。特別是由於有許多基於不同基因組註釋的Ensembl和Refseq版本(大多數情況下它們之間是不能互換的)。

但是,您可以輕鬆翻譯例如,您大多數的Refseq ID中的[1]到ENSEMBL ID,反之亦然,例如使用 http://www.ensembl.org/biomart/martview之類的工具(也有專門的庫/ API像 Biocondutor:biomaRt

[1]一樣,大多數情況下,它們可能在一個數據庫中被註釋,而在另一個數據庫中還沒有註釋。

編輯

好的,即使人們傾向於根據研究主題保持習慣(註解不斷擴展和更正)可能對使用一個數據庫優於另一個數據庫感興趣:

來自 Zhao S,ZhangB。在RNA-seq讀圖和基因的背景下,對ensembl,RefSeq和UCSC註釋進行了全面評估定量.BMC Genomics.2015; 1 6:97.論文:

選擇註釋數據庫時,研究人員應記住,沒有一個數據庫是完美的,某些基因註釋可能不准確或完全錯誤。 [..] Wu等。 [27]建議,在進行強調可重複和可靠的基因表達估計的研究時,較不復雜的基因組註釋,例如RefGene,可能是首選。在進行更多探索性研究時,應選擇更複雜的基因組註釋,例如Ensembl。

[..]

[27] Wu P-Y,Phan JH,Wang MD。評估人類基因組註釋選擇對RNA-seq表達估計的影響。 BMC生物信息學。 2013; 14(Suppl 11):S8。 doi:10.1186 / 1471-2105-14-S11-S8。

rightskewed
2017-05-17 07:29:24 UTC
view on stackexchange narkive permalink

Ensembl vs Gencode

https://www.gencodegenes.org/faq.html

GENCODE註釋是通過合併來完成的Havana手動基因註釋和Ensembl自動基因註釋。 [...]實際上,GENCODE註釋與Ensembl註釋相同。

此外,對於GTF文件的不同:

唯一唯一的區別是人類染色體X和Y PAR區共有的基因可以在GENCODE GTF中找到兩次,而僅在Ensembl文件中顯示為X染色體。

Gencode(Ensembl)與RefSeq

Gencode在幾乎所有情況下更全面。例如,這是BRCA基因的NCBI RefSeq與Ensembl(v24,版本83): enter image description here

在大多數情況下,RefSeq和Gencode不能互換,儘管RefSeq註釋會通常是Gencode的子集。

BRCA屏幕截圖如何說明您的觀點?一見鍾情不是很明顯(至少對我而言)
Ian Sudbery
2017-05-17 18:34:35 UTC
view on stackexchange narkive permalink

為其他人的言論提供實用建議:

從實踐意義上講,我認為RefSeq與Ensembl / GENCODE之間的最大區別在於敏感性/特異性之間的權衡。

Ensembl的目標是更加包容,包括大量的轉錄本變體,其中許多僅很少得到支持。確信存在RefSeq轉錄本,但不太確信ReqSeq註釋包含基因的所有真實轉錄本。

這就是為什麼我偏愛Ensembl批註,因為您可以通過僅選擇Havana(Havana或Ensembl / Havana)成績單來查詢最有把握的集合。請參閱:http://www.ensembl.org/Help/Faq?id=152
Zz...zZ
2017-10-04 18:52:40 UTC
view on stackexchange narkive permalink

雖然RefSeq和Gencode之間的註釋與編碼區域(基因)沒有太大區別,但Gencode在基因間區域中的豐富得多。對於表觀遺傳研究,這可能是非常有利的。

嗨!關於索賠,您是否可以鏈接任何出版物或其他材料?那將非常有趣...
Max
2019-08-07 15:19:05 UTC
view on stackexchange narkive permalink

UCSC基因組瀏覽器基因常見問題解答詳細討論了這個問題: https://genome.ucsc.edu/FAQ/FAQgenes.html#ens

正式,Ensembl和GENCODE基因模型相同。在最新的人類和小鼠基因組裝配體(hg38和mm10)上,等效Ensembl和GENCODE版本之間的標識符,轉錄本序列和外顯子坐標幾乎相同(不包括替代序列或固定序列)。

GENCODE使用染色體名稱以“ chr”作為前綴的UCSC慣例,例如“ chr1”和“ chrM”,但是Ensembl稱它們為“ 1”或“ MT”。在撰寫本文時(Ensembl 89),一些筆錄由於轉換問題而有所不同。此外,GENCODE中大約有160個PAR基因被複製,而Ensembl中只有一次。差異影響不到1%的成績單。除了基因註釋本身以外,與外部數據庫的鏈接也不同。

GENCODE發行歷史記錄顯示發行日期,並且可以鏈接到相應的Ensembl發行版。您可以從網站 https://gencodegenes.org http://ensembl.org下載基因轉錄模型。對於大多數應用程序,在GENCODE網站上分發的文件應該更易於使用,因為第三方數據庫鏈接更易於解析,並且序列標識符至少在主染色體上與UCSC基因組文件匹配。

有關此問題的其他信息,請參見GENCODE常見問題解答頁面。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...