題:
檢測具有高度微生物相似性的人類蛋白質部分
bluescholar1212
2017-06-08 03:30:55 UTC
view on stackexchange narkive permalink

我是生物信息學的新來者,需要幫助解決問題。

我的目標是列出人類蛋白質列表,並鑑定區段(長度為13-17aa) )與微生物序列高度相似。理想情況下,我想從FASTA序列列表開始,並有一種簡單的方法來生成每種蛋白質的相應高相似性片段的輸出。

有沒有我應該知道的現有工具或軟件

這將使我的生活更輕鬆嗎?

加載:)您能否[編輯]您的問題並告訴我們,我)您正在談論多少序列; ii)您是否已經有人類蛋白質序列或僅具有其名稱; iii)如果您只是在尋找簡單的序列同源性,或者您將使用該同源性推斷功能同源性(在這種情況下,應考慮蛋白質結構域); iv)為什麼要特別指定13-17aa? v)什麼微生物種類?任何?具體的?
嗨,bluescholar1212,謝謝您的提問,並歡迎您參加生物信息學堆棧交換。生物信息學是一個廣闊的領域,可以包括許多不同的程序,這些程序可以使您的生活更輕鬆,幾乎所有這些程序都與微生物同源性無關。在您提出的問題中更加具體可以對答題者有很大幫助,因為它可以使他們回答而不會走錯路。您對哪種輸出感興趣?您已經提到存在一個問題,但尚未說明該問題是什麼。關於您要解決的問題,您的情況如何?
歡迎來到Bioinformatics.SE!只是要弄亂頭髮:)…您需要謹慎使用諸如“高同源性”之類的術語。序列是同源的(共有譜系)或非同源的。序列相似性是同源性的常用代理,因此**高相似性**是適當的。但是沒有同源性的滑動尺度。一些序列對是如此相似,以至於唯一可行的解​​釋是共有血統。有些差異如此之大,以至於顯然沒有同源性。中間有一些灰色區域,但這僅表示不確定性。希望這有道理!
我同意@daniel-standage,,沒有“高度同源性”或“高同源性片段”。這些片段是否同源。這就像說懷孕程度很高。也許您可以將術語替換為“高同源性”?
@DanielStandage由於我們正在分裂頭髮,如果您回到足夠遠的距離,如果您接受了生命的單一起源,那麼所有序列都有共同的祖先
@Chris_Rands確實足夠。 :-)
@DanielStandage充分說明!這是一個好而重要的一點。我對序列相似性很高的區域感興趣,這不一定意味著您指出的同源性。
-1
一 回答:
terdon
2017-06-08 03:51:55 UTC
view on stackexchange narkive permalink

聽起來就像BLAST的工作一樣。現在,哪種風格將取決於您要執行的操作和可用的數據。一些選項:

  1. PSI-BLAST :如果您要查找蛋白質同源物,這通常是最佳選擇。它通過建立一個隱藏的馬爾可夫模型來描述您的查詢序列,並使用該模型查詢蛋白質數據庫來工作。優點是它可以多次迭代運行,從而使您有機會添加或刪除結果(因此,您可以添加真正陽性的結果而刪除錯誤的結果),從而最終構建出非常好的蛋白質模型。這遠比基於簡單同源性的方法強大得多,因為蛋白質通過蛋白質結構域起作用,並且簡單同源性不如特定的保守功能殘基重要。

    為此,請轉到NCBI 蛋白質爆炸頁面,然後選擇PSI-BLAST:

    psi-blast option at ncbi

  2. BLASTp :簡單的蛋白質-蛋白質爆炸。它將基於序列相似性鑑定同源蛋白。是否還暗示功能同源性並不是那麼簡單,這取決於您調查的每種情況。

    如上所述,轉到NCBI 蛋白質爆炸頁面,但這一次使用默認值。

  3. tBLASTn :這是一個將蛋白質序列作為輸入並將其與DNA數據庫進行比較的工具,該數據庫可在所有6種可能的閱讀框中進行動態翻譯。當您對目標物種的蛋白信息了解不足時,非常適合查找同源序列。與目標核苷酸BLASTn相比,它的優點是更敏感並能夠找到更多的遠距離同源性,並且當您的目標物種距離較遠且註釋不正確時,仍可以使用該方法。

    NCBI的tBLASTn頁面

  4. ol>

    所有這些都可以通過 NCBI的BLAST頁面在線運行。如果要研究數百種蛋白質,建議您在本地安裝blast。然後,您可以從NCBI下載相關的靶序列並在本地重建blast數據庫(如果是,我建議您提出一個有關如何執行此操作的新問題),或者使用NCBI的遠程blast客戶端,該客戶端可以使用本地存儲的查詢文件並將在NCBI的服務器上運行blast。

    現在,這些程序將返回所謂的高分對(HSP),即查詢序列中與目標對齊的區域。您可以使用多種選項來提高敏感性或特異性,但是對這些選項的討論將需要更多有關您正在做的事情的詳細信息,並且最好在新問題中使用。

    一旦有了HSP,就可以相對容易地解析它們,以選擇具有給定範圍的序列相似性值和特定長度的區域。再一次,在獲得結果並顯示示例後,最好在單獨的問題中進行討論。

感謝您的幫助! BLAST是我正在考慮的工具之一。我沒有選擇PSI-BLAST算法,這聽起來確實像我在尋找什麼。除了運行搜索(我打算在本地使用blast進行搜索)之外,我還想自動執行結果。我這樣做的最佳選擇是圍繞blast編寫一個基本腳本,指定保留哪些結果並過濾其餘結果嗎?
@bluescholar1212是的,可能是。順便說一下,這也是這裡的話題。獲得結果後,再問一個問題,我們很樂意幫助您解析它們。一旦決定使用哪種工具,您可能還想問一個新問題,解釋最終要保留的輸出並詢問最使用的輸出格式。 Blast可以根據您使用的選項返回各種輸出格式,並且某些格式比其他格式更易於解析。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...