我是生物信息學的新來者,需要幫助解決問題。
我的目標是列出人類蛋白質列表,並鑑定區段(長度為13-17aa) )與微生物序列高度相似。理想情況下,我想從FASTA序列列表開始,並有一種簡單的方法來生成每種蛋白質的相應高相似性片段的輸出。
有沒有我應該知道的現有工具或軟件
這將使我的生活更輕鬆嗎?
我是生物信息學的新來者,需要幫助解決問題。
我的目標是列出人類蛋白質列表,並鑑定區段(長度為13-17aa) )與微生物序列高度相似。理想情況下,我想從FASTA序列列表開始,並有一種簡單的方法來生成每種蛋白質的相應高相似性片段的輸出。
有沒有我應該知道的現有工具或軟件
這將使我的生活更輕鬆嗎?
聽起來就像BLAST的工作一樣。現在,哪種風格將取決於您要執行的操作和可用的數據。一些選項:
PSI-BLAST :如果您要查找蛋白質同源物,這通常是最佳選擇。它通過建立一個隱藏的馬爾可夫模型來描述您的查詢序列,並使用該模型查詢蛋白質數據庫來工作。優點是它可以多次迭代運行,從而使您有機會添加或刪除結果(因此,您可以添加真正陽性的結果而刪除錯誤的結果),從而最終構建出非常好的蛋白質模型。這遠比基於簡單同源性的方法強大得多,因為蛋白質通過蛋白質結構域起作用,並且簡單同源性不如特定的保守功能殘基重要。
為此,請轉到NCBI 蛋白質爆炸頁面,然後選擇PSI-BLAST:
BLASTp :簡單的蛋白質-蛋白質爆炸。它將基於序列相似性鑑定同源蛋白。是否還暗示功能同源性並不是那麼簡單,這取決於您調查的每種情況。
如上所述,轉到NCBI 蛋白質爆炸頁面,但這一次使用默認值。
tBLASTn :這是一個將蛋白質序列作為輸入並將其與DNA數據庫進行比較的工具,該數據庫可在所有6種可能的閱讀框中進行動態翻譯。當您對目標物種的蛋白信息了解不足時,非常適合查找同源序列。與目標核苷酸BLASTn相比,它的優點是更敏感並能夠找到更多的遠距離同源性,並且當您的目標物種距離較遠且註釋不正確時,仍可以使用該方法。
所有這些都可以通過 NCBI的BLAST頁面在線運行。如果要研究數百種蛋白質,建議您在本地安裝blast。然後,您可以從NCBI下載相關的靶序列並在本地重建blast數據庫(如果是,我建議您提出一個有關如何執行此操作的新問題),或者使用NCBI的遠程blast客戶端,該客戶端可以使用本地存儲的查詢文件並將在NCBI的服務器上運行blast。
現在,這些程序將返回所謂的高分對(HSP),即查詢序列中與目標對齊的區域。您可以使用多種選項來提高敏感性或特異性,但是對這些選項的討論將需要更多有關您正在做的事情的詳細信息,並且最好在新問題中使用。
一旦有了HSP,就可以相對容易地解析它們,以選擇具有給定範圍的序列相似性值和特定長度的區域。再一次,在獲得結果並顯示示例後,最好在單獨的問題中進行討論。