題:
將基因名稱從一種公共數據庫格式轉換為另一種
gringer
2017-06-06 18:38:20 UTC
view on stackexchange narkive permalink

這是來自 / u / apivan19關於reddit的問題。原始帖子可以在此處

中找到。我有一些蛋白質組學數據是通過第1列中的UniProt基因標識符提供給我的。可以使用各種程序將它們轉換為正常的基因符號,但是事實證明這很困難。

Uniprot網站相當不錯,但是無法轉換所有這些符號,然後添加了一些未知基因

例如,我將用UniProt表示法給它5439個基因,並說“ 5439個UniProt標識符中的5420個已轉換為5450個基因符號”……這是荒謬的。

我嘗試使用David來更改符號,但是它以某種荒謬,隨機的順序將它們返回給我,我無法對其進行排序……實際上可能會有,但要花一秒鐘。 p p>

最簡單的方法有哪些?已經很耗時了,正在尋找更簡單的解決方案

六 答案:
Konrad Rudolph
2017-06-06 19:16:39 UTC
view on stackexchange narkive permalink

我傾向於使用 Ensembl Biomart進行此類查詢,因為存在各種編程語言的API,例如 biomaRt,或者更有趣的是,通過 REST API(儘管這是一個非常糟糕的)。

要翻譯來自不同數據庫的標識符,請繼續如下:

  1. 選擇數據庫“整合基因”
  2. 選擇數據集所需的有機物
  3. 繼續“過濾器” ›“基因:”›“輸入外部參考ID列表”
    1. 選擇選定的源數據庫
    2. 提供ID列表,以換行符分隔
    3. ol>
  4. 轉到“屬性”›“基因:”›取消選中“轉錄穩定ID”
    1. 如果需要集成ID,請在“基因穩定ID”上打勾...
    2. 否則解開它;轉到“外部:”,勾選所需的標識符格式
    3. ol>
  5. 單擊左上方的“結果”。這提供了可以導出為各種格式的預覽。或者,頂部中間的按鈕“ XML”和“ Perl”以XML(用於SOAP / REST請求)和(可怕的格式)可執行Perl腳本提供查詢。
  6. ol>
biomart的基因名稱對此非常有用-它具有用於批量翻譯的漂亮用戶界面,涵蓋了各種各樣的標識符,可以訪問同義詞或不存在的名稱,等等。但是,該服務有時會像yoyo一樣上下波動包裝客戶端庫對於biomart的版本很難。
@agapow絕對同意。 :-(
Andrew
2017-06-06 22:52:18 UTC
view on stackexchange narkive permalink

如果您願意進行一些編程,請查看 mygene.info(用於各種基因註釋的Web服務)。 ID轉換是 bioconductor客戶端(請參見 vignette)中解決的用例之一,並且還有一個 python客戶端。通過pypi。有關mygene的文檔可在此處找到。

arupgsh
2017-06-06 23:32:15 UTC
view on stackexchange narkive permalink

您可以使用Bioconductor的 AnnotationDbi軟件包執行相同的操作。下載鼠標專用的有機體特定註釋文件,例如 org.Mm.eg.db,然後將當前的基因ID映射到基因名稱/基因符號。

gringer
2017-06-06 18:46:44 UTC
view on stackexchange narkive permalink

我最喜歡的基因數據庫轉換站點是 db2db。您以多種不同的公共格式之一提供ID列表,並且可以選擇一個或多個ID作為轉換目標。然後它將通過各種已知的路徑進行翻譯,並選擇確定為獲取所需信息的最可靠途徑。結果在瀏覽器中顯示為表格,但也可以導出為Excel文件或製表符分隔的文本文件。

請注意,基因從一個數據庫到另一個數據庫的映射不是一個-一對一映射。可能的情況是,源數據庫中將有一些基因映射到目標數據庫中的多個基因(反之亦然),而某些基因則不存在於目標數據庫中。這些現象可能是造成此處看到的“荒謬”結果的原因。

morgantaschuk
2017-06-06 19:37:23 UTC
view on stackexchange narkive permalink

我不是Ensembl BioMart系統的忠實擁護者,因為我發現它很難使用。 Synergizer具有非常簡單的界面,適用於大多數列表。注意:它已經有一段時間沒有更新了。

ithinkiam
2017-07-11 14:18:12 UTC
view on stackexchange narkive permalink

到目前為止,我手動執行此操作的首選方法是PICR: http://www.ebi.ac.uk/Tools/picr/

順便說一句,它不是“荒謬”以獲取針對一組給定蛋白質報告的不同數量的基因。出於以下幾個原因:

  1. Uniprot ID可能消失,合併或分裂
  2. 並非所有uniprot和基因ID都具有一對一關係
  3. 取決於物種,某些基因符號可能是不明確的或同義的。
  4. ol>


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...