題:
如何從一組登錄號中確定主要Uniprot登錄號?
James Draper
2017-09-06 00:09:50 UTC
view on stackexchange narkive permalink

給出與Ensembl基因ID鏈接的Uniprot ID列表,有沒有辦法在沒有其他信息的情況下系統地確定與該基因的主要轉錄本的蛋白質產物相對應的UniProt入種,沒有其他信息

根據ExPasy

希望引用其出版物中的條目的研究人員應始終引用第一個登錄號。這通常稱為“主要登錄號”。

但是如果從另一個來源弄亂或編譯了該訂單並採用了該順序,該怎麼辦?

例如:

集成:

ENSMUSG00000035642

Uniprot:

Q8R0P4,Q8CF11,D6RJK8,D6RJJ4,D3Z442,D3Z1Q3,D3YZD8,D3YY39,D3YX09,D3Y / p>

此問題在生物學堆棧交換中交叉列出。

如果我正確理解,則每個Uniprot條目都具有相同的主要登錄號(您可以在Uniprot條目的“條目信息”選項卡中找到; ctrl + f“ primary”)。您在此處提供的某些ID描述了不同的序列(因此具有不同的Uniprot條目和不同的主要登錄號)。我已經檢查了您在此處顯示的前5個ID。它們都映射到不同的序列,並且**應該**具有不同的登錄號。它們是同工型,突變或截短的序列,上帝知道其他什麼,但它們絕對不是同一蛋白序列。
我從未聲稱這些代表相同的蛋白質序列。上面的問題指出:給定鏈接到Ensembl ID_的Uniprot ID列表
不,您沒有:)我想說的是,我理解的方式首先應該不是Ensembl和UniProt之間的1:1映射。他們描述了不同的事物。我想念什麼嗎?在我看來,您似乎正在嘗試選擇一個蛋白質ID與一個基因ID連接。
@galicae沒有做什麼?我正在嘗試確定是否有一個簡單的過程來從關聯的登錄號列表中識別主要的Uniprot登錄號,而沒有其他外部信息。我認為我不能說得更清楚。
@JamesDraper是指與該基因相關的初級轉錄本的蛋白質產物的初級UniProt保藏號嗎?或您是說該基因編碼的每種蛋白質同工型的主要UniProt保藏?請[編輯]您的問題並闡明您的需求,因為基因和蛋白質之間通常(通常)一對多的關係。
您說過@JamesDraper,您“從未聲稱這些代表”。我同意 :)
@terdon您提到的第一個選項。隨時根據需要編輯帖子。
@galicae很高興我們在同一頁面上。
@JamesDraper好,您需要怎麼做?手動嗎?是否需要擴展到數百種加入物?您提到“沒有其他信息”,這是否意味著從Ensembl基因ID到主要成績單的Ensembl筆錄ID,然後再獲得與此相關的UniProt保藏號?
老實說,我希望@terdon這個問題有一個我不知道的簡單答案:按降序排列並獲得該列表的第一個成員。或者,是否可以通過某種特殊的正則表達式來識別諸如主要加入之類的東西。但是,非常清楚的是,該問題的答案是否定的?沒有辦法,沒有關聯信息,沒有**外部信息,就無法從相關聯的登錄號列表中確定主要登錄。如果有人想重申這一點作為答案,我會接受並支持。
三 答案:
Elisabeth.Gasteiger
2017-09-08 13:12:32 UTC
view on stackexchange narkive permalink

在生物學部分的相關票據中重新張貼我的答案

我認為該術語存在問題。如條目 http://www.uniprot.org/help/accession_numbers所述,如果條目具有多個登錄號,則“主要”登錄號是第一個登錄號: p>

條目可以具有多個登錄號。這可能是由於兩種不同的機製造成的:

  a)當兩個或多個條目合併時,所有條目的登錄號都會保留。第一個登錄號被稱為 

“主要(引用)登錄號”,其他被稱為“第二登錄號”。這些按字母數字順序列出。

  b)如果將現有條目分為兩個或多個條目(“合併”),則新的“主要”登錄號將歸於所有 

將所有原始登錄號保留為“第二”登錄號的拆分條目。

示例:已被“分解”為P68250和P68251的P29358。

已審閱和未審閱的條目都可以具有主要的登錄號。

正如先前的發帖人所理解的,您可能是指已審閱的條目與未審閱的條目的登錄號。

在這種情況下,您確實可以在查詢中添加“ reviewed:yes”,例如當您使用UniProt ID映射時, http://www.uniprot.org/help/uploadlists

Daniel Standage
2017-09-07 01:22:18 UTC
view on stackexchange narkive permalink

請考慮以下情況:條目具有一個以上的登錄號(取自原始帖子中鏈接的同一頁面)。

如果條目具有多個登錄號,則它們將具有多個登錄號被合併或拆分。例如,當兩個條目合併為一個條目時,兩個條目的登錄號都存儲在AC線路中。 ,原始登錄號將保留在所有派生條目中,而新的主登錄號將添加到所有條目中。

如評論中所述,不是表示存在或應該有一個與(例如)Ensembl基因ID相關的“主要” UniProt登錄。在某些情況下,由於註釋的更改,單個蛋白質記錄可能有多個登錄,而您原始帖子中的建議是僅報告主要登錄。但是,可能有多個與Ensembl基因ID相關的蛋白質,每種蛋白質都有其自己的登錄(或登錄集)。

為一個基因選擇一個單一的代表同工型是一個完全不同的問題。

terdon
2017-09-07 21:04:09 UTC
view on stackexchange narkive permalink

沒有其他信息,沒有。無法查看入藏列表並猜測哪個是主要的。主要種質就是與其他種質一樣的種質。他們沒有任何特定的特徵。

每個基因都可以(並且對於高等真核生物來說通常如此)具有多個轉錄本,每個轉錄本可以產生不同的蛋白質產物,這使情況進一步複雜化。因此,為了從基因識別符轉換為蛋白質,您需要首先找到相關的轉錄本。

因此,第一步,獲取每個基因的主要轉錄本ID,然後檢索與它們相關的蛋白質登錄號。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...