題:
在查詢序列上創建爆炸命中分佈圖
bluescholar1212
2017-07-27 03:03:37 UTC
view on stackexchange narkive permalink

我試圖以類似於Web BLAST爆炸打擊分佈圖的圖形顯示方式可視化BLAST搜索結果。

例如,通過我的BLAST搜索:

enter image description here

,除了我希望該圖包含信息,包括有關我的查詢序列中所有6139命中分佈的信息。

由於這是大量序列,可以直觀地顯示分佈,因此我正在考慮使用某個區域的點擊次數得分,並且輸出類似於:

enter image description here

如果要使用BLAST +命令行工具運行blast,並將結果讀入R,則應繪製輸出的哪些部分以重新創建圖形顯示的分佈?理想情況下,我想製作一個可重用的對象,該對象可以對任何BLAST輸入進行等效繪製。

謝謝。

您如何獲得區域點擊次數的分數?我認為您應該首先獲得分數並在R中繪製分數和區域。
爆炸輸出將使用哪種格式?標準規範之一,還是您願意定義自己的規範?這會標出查詢中每個位置的匹配數或它們的得分嗎?還是他們的整體身份?示例軸上的“保護”到底是什麼?
@terdon我不喜歡任何特定類型的爆炸輸出,並且願意為這個問題定義自己的爆炸輸出。我認為我會選擇繪製每個位置的點擊數而不是得分。該[link](https://bcbio.wordpress.com/2009/02/07/automated-protein-conservation-display-from-blast-alignments/)提供了用於在我的環境中製作保護區的方法的說明詳細發布。
但是,如果您不考慮相關HSP的質量,則給定位置的命中數是無用的信息。您似乎想繪製保護區,如果這樣,那是錯誤的方法。例如,您可能在第12位有幾百個匹配,但如果那幾百個都很小並且保存得很差,那麼它們就無關緊要了。
我不想策劃保護措施。我想知道給定人類蛋白質的哪些區域與細菌序列最相似。如果這是我的問題,那麼尺寸/保護度是否一定重要?
一 回答:
benn
2017-07-27 13:55:10 UTC
view on stackexchange narkive permalink

您可能希望在blast輸出中包含查詢開始(qstart)和查詢結束(qend)。

類似這樣的事情:

  blastn-查詢您的內容。 fasta -out blast.out.txt -db your.db -outfmt'6 qseqid sseqid qstart qend length evalue' 

在R中,您可以從每一行中獲取“ qstart:qend”密度圖。

R中有很多方法可以繪製這些起始氨基酸和末端氨基酸的密度。

讓我舉一個帶有較小數據框的示例為例:

  qstart <- c(200,300,250,400,500)qend <- c(300,450,400,600,650)df <- as.data.frame(cbind(qstart,qend ))aa <- vector()i = 1for(i in 1:5){aa <- append(aa,c(df [i,1]:df [i,2]))i + 1} hist(aa )dens <-密度(aa)圖(dens) 
謝謝@b.nota我現在正在試一試,然後看看結果如何。這可能正是我想要的。
我目前正在製作密度圖並遇到一些問題。我在數據框中的每一行都有一個帶有“ qstart:end”的新列,但是當我嘗試使用此列進行密度圖繪製時,R會引發錯誤。我該如何解決?
好人! R中有很多方法可以獲取數據並從中繪製圖表。我會在編輯答案時給您一個小例子。祝好運!


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...