題:
哪些序列發現軟件可用於〜10Kb的多個序列?
ShanZhengYang
2017-06-09 01:21:19 UTC
view on stackexchange narkive permalink

我有大約3,000個短序列,大約10Kb長。在所有這些序列中找到主題的最佳方法是什麼?是否建議使用某種軟件/方法?

有幾種方法可以做到這一點。我的目標是:

(1)檢查單個序列內重複的基序

(2)檢查所有序列之間共享的基序

(3)檢查是否存在“預期的”或已知的主題

關於#3,我也很好奇是否找到例如三核苷酸序列,如何檢查這些區域周圍的背景?

感謝您的建議/幫助!

您是否正在尋找所有序列共有的圖案?在每個序列中重複的主題?您是否正在尋找特定的已知圖案?
“您是否正在尋找所有序列共有的基序?在每個序列中重複的圖案?”我正在尋找所有序列共有且在序列中重複的兩個基序,但實際上檢查每個序列的重複序列會很有趣。 “您是否在尋找特定的已知圖案?”不,但是回想一下這一點很有趣
OK,請[編輯]您的問題並提供此信息。評論容易遺漏,難以閱讀,可以刪除而不會發出警告。三個問題(de-novo共享主題識別,de-novo重複主題識別和檢測已知主題)是不同的,並且每個問題都需要使用自己的方法。
@terdon當然
您是說總共10kb還是3000個序列,每個序列的長度都在10kb左右?
@CharlesE.Grant 3000個序列,每個序列約10kb
五 答案:
Charles E. Grant
2017-06-14 00:28:20 UTC
view on stackexchange narkive permalink

MEME Suite網站包含用於主題分析的工具集合(我是維護者之一)。它包含兩個從頭開始的主題發現工具: MEME DREME。提供了公共Web應用程序,但您也可以下載和構建用於本地安裝的命令行工具。

對於第一個目標,可以使用 MEME並選擇“重複模型”(ANR)。對於第二個目標,將MEME與“每個序列零個或一次出現”(ZOOPS)模型一起使用。對於您的第三個目標,您可以使用FIMO(查找單個主題),以及軟件和數據庫下載頁面上提供的一個或多個主題數據庫。

聽起來像您的序列數據約為30Mb。 MEME Web應用程序限於60kb的序列數據,因此您必須安裝MEME Suite的本地副本。除非您配置了MPI,並且有許多內核可用,否則MEME將花費很長時間分析30Mb序列數據庫。您可能需要考慮分析序列的隨機選擇子集。 MEME的運行時間隨著序列數的增加而增加。

對於短圖案,您可能需要使用 DREME而不是MEME。在識別短基元上,DREME優於MEME,但僅限於8個位置寬的基元<。

EMiller
2017-06-12 21:02:22 UTC
view on stackexchange narkive permalink

簽出 HOMER。我的實驗室目前正在使用“用於發現基序和下一代測序分析的軟件”。

編輯:@ShanZhengYang“ HOMER被設計為從頭髮現基序算法...” HOMER De Novo Motif

可以從頭髮現主題嗎?如果沒有,我不完全確定如何使用此模型創建背景。
@ShanZhengYang參見我的編輯。
謝謝。我仍然不確定我的設置如何為荷馬選擇背景...
我從未在De Novo中使用過它,因此請稍加鹽味,但首先嘗試使用默認值。也許向開發人員發送電子郵件。
為了擴展@EMiller的評論,對於許多模型生物,HOMER可以為您找出背景模型。您只需要使用configureHomer.pl安裝模型生物的支持文件。
gringer
2017-06-09 07:19:01 UTC
view on stackexchange narkive permalink

對於(3),此頁面具有很多指向圖案/圖案查找工具的鏈接。通過該頁面上的 YMF鏈接,我遇到了華盛頓大學主題發現部分。在這些 projection中,它似乎是唯一可下載的工具。我發現所有這些工具有多老了,這很有趣。

您的子問題(2)似乎與我對巴西擬南芥(emippostrongylus brasiliensis)基因組序列所遇到的問題相似,其中我想找到在整個基因組中重複的非常高同源性的區域(長度500bp至20kb或更多,相似度95-99%)。這些序列正在殺死裝配體。

我能找到這些區域的主要方法是查看長納米孔讀數的覆蓋圖,該讀數映射到裝配好的基因組(使用GraphMap或BWA)。任何覆蓋範圍明顯高於中值的區域都可能是重複序列。

我過去玩過的方法是將讀數切成較小的大小,這對於擊中較小的重複區域效果更好。在大多數讀取中,有一小部分從未將它們映射到所有重複的位置。我前段時間寫了我自己的腳本來截斷讀取(出於不同的目的),這產生了一個FASTA / FASTQ文件,其中所有讀取的長度完全相同。由於某些未知的原因,我花了一些時間使用POD“適當地”記錄該腳本,所以這裡是一個簡短的摘要:

將輸入的FASTA文件中的所有序列轉換為相同的長度。刪除比目標長度短的序列,將比目標長度長的序列拆分為覆蓋整個範圍的重疊子序列。這就準備了要在需要恆定長度序列(例如edena)的重疊共識彙編器中使用的序列。

這是語法:

  $ ./normalise_seqlengths.pl -h用法:
./normalise_seqlengths.pl <reads.fa> [選項]選項:-help僅顯示此幫助消息-fraglength目標片段長度(以鹼基對,默認為2000)-overlap最小重疊長度(以鹼基對,默認為200)-short保持短序列(比片段長度短) 
Kristoffer Vitting-Seerup
2017-06-09 14:41:26 UTC
view on stackexchange narkive permalink

我所知道的大多數工具都在尋找特定基序的富集-但這要求您具有一組特別感興趣的序列,並要進行背景測試。

是您的情況嗎?

在評論後於2017年6月12日更新。

您可以嘗試 meme套件,更具體地是主題查找器

您好Kristoffer Vitting-Seerup,感謝您的評論,並歡迎訪問生物信息學堆棧交換。我們感謝任何這樣的評論,它們可以幫助人們提出更好的問題。我將您的回答標記為“不是答案”,因為我認為應該將其作為對問題的註釋(必須達到50分的聲譽才能自己做)。
嗨,是的,這是對原始問題的更好評論。這就是SO風格。關於您的問題,我沒有背景知識
galicae
2017-06-09 15:20:12 UTC
view on stackexchange narkive permalink

它正在開發中,但是 BaMMmotif!是否適合您?它的主要賣點是它可以尋找豐富的主題,這些主題富含一系列等長的“從頭開始”。如果您不能/不希望提供一個負數集,它將從正數序列中學習一個。如果您有更多有關序列的信息,則有很多選項可供選擇:針對主題的“零個或一個”,“一個”和“多個”出現,有不同的模型。

您可以如果將它們編碼為XXmotif PWM,也​​可以使用它來查找已知的圖案。如果您有帶有主題的文件(如綁定站點),也可以將其用作初始化。

雖然我自己還沒有使用過該軟件,但作者對git的反應非常好,安裝說明看起來很漂亮

編輯:顯然,該軟件是使用ChIP實驗作為通常的用例場景開發的,對於較大的序列,它可能行為不當,或者運行時間超長。

嗨,galicae,感謝您的回答,歡迎使用生物信息學堆棧交換。您的答案有點簡短,可能需要更多解釋。您能否在有關BaMMmotif的答案中添加更多信息?它是您以前使用過的工具嗎?這將是查找新穎的共有基序,同一序列內重複的基序或已知基序的合適程序嗎?
@gringer很公平,已編輯。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...