將基因名稱從一種公共數據庫格式轉換為另一種

題:

gringer

2017-06-06 18:38:20 UTC

view on stackexchange narkive permalink

這是來自 / u / apivan19關於reddit的問題。原始帖子可以在此處。

中找到。我有一些蛋白質組學數據是通過第1列中的UniProt基因標識符提供給我的。可以使用各種程序將它們轉換為正常的基因符號，但是事實證明這很困難。

Uniprot網站相當不錯，但是無法轉換所有這些符號，然後添加了一些未知基因

例如，我將用UniProt表示法給它5439個基因，並說“ 5439個UniProt標識符中的5420個已轉換為5450個基因符號”……這是荒謬的。

我嘗試使用David來更改符號，但是它以某種荒謬，隨機的順序將它們返回給我，我無法對其進行排序……實際上可能會有，但要花一秒鐘。 p p>

最簡單的方法有哪些？已經很耗時了，正在尋找更簡單的解決方案

六答案:

Konrad Rudolph

2017-06-06 19:16:39 UTC

view on stackexchange narkive permalink

我傾向於使用 Ensembl Biomart進行此類查詢，因為存在各種編程語言的API，例如 biomaRt，或者更有趣的是，通過 REST API（儘管這是一個非常糟糕的）。

要翻譯來自不同數據庫的標識符，請繼續如下：

選擇數據庫“整合基因”
選擇數據集所需的有機物
繼續“過濾器” ›“基因：”›“輸入外部參考ID列表”
1. 選擇選定的源數據庫
2. 提供ID列表，以換行符分隔
轉到“屬性”›“基因：”›取消選中“轉錄穩定ID”
1. 如果需要集成ID，請在“基因穩定ID”上打勾...
2. 否則解開它；轉到“外部：”，勾選所需的標識符格式
單擊左上方的“結果”。這提供了可以導出為各種格式的預覽。或者，頂部中間的按鈕“ XML”和“ Perl”以XML（用於SOAP / REST請求）和（可怕的格式）可執行Perl腳本提供查詢。

biomart的基因名稱對此非常有用-它具有用於批量翻譯的漂亮用戶界面，涵蓋了各種各樣的標識符，可以訪問同義詞或不存在的名稱，等等。但是，該服務有時會像yoyo一樣上下波動包裝客戶端庫對於biomart的版本很難。

@agapow絕對同意。 :-(

Andrew

2017-06-06 22:52:18 UTC

view on stackexchange narkive permalink

如果您願意進行一些編程，請查看 mygene.info（用於各種基因註釋的Web服務）。 ID轉換是 bioconductor客戶端（請參見 vignette）中解決的用例之一，並且還有一個 python客戶端。通過pypi。有關mygene的文檔可在此處找到。

arupgsh

2017-06-06 23:32:15 UTC

view on stackexchange narkive permalink

您可以使用Bioconductor的 AnnotationDbi軟件包執行相同的操作。下載鼠標專用的有機體特定註釋文件，例如 org.Mm.eg.db，然後將當前的基因ID映射到基因名稱/基因符號。

gringer

2017-06-06 18:46:44 UTC

view on stackexchange narkive permalink

我最喜歡的基因數據庫轉換站點是 db2db。您以多種不同的公共格式之一提供ID列表，並且可以選擇一個或多個ID作為轉換目標。然後它將通過各種已知的路徑進行翻譯，並選擇確定為獲取所需信息的最可靠途徑。結果在瀏覽器中顯示為表格，但也可以導出為Excel文件或製表符分隔的文本文件。

請注意，基因從一個數據庫到另一個數據庫的映射不是一個-一對一映射。可能的情況是，源數據庫中將有一些基因映射到目標數據庫中的多個基因（反之亦然），而某些基因則不存在於目標數據庫中。這些現象可能是造成此處看到的“荒謬”結果的原因。

morgantaschuk

2017-06-06 19:37:23 UTC

view on stackexchange narkive permalink

我不是Ensembl BioMart系統的忠實擁護者，因為我發現它很難使用。 Synergizer具有非常簡單的界面，適用於大多數列表。注意：它已經有一段時間沒有更新了。

ithinkiam

2017-07-11 14:18:12 UTC

view on stackexchange narkive permalink

到目前為止，我手動執行此操作的首選方法是PICR： http://www.ebi.ac.uk/Tools/picr/

順便說一句，它不是“荒謬”以獲取針對一組給定蛋白質報告的不同數量的基因。出於以下幾個原因：

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 3.0許可。