哪些序列發現軟件可用於〜10Kb的多個序列？

題:

哪些序列發現軟件可用於〜10Kb的多個序列？

ShanZhengYang

2017-06-09 01:21:19 UTC

view on stackexchange narkive permalink

我有大約3,000個短序列，大約10Kb長。在所有這些序列中找到主題的最佳方法是什麼？是否建議使用某種軟件/方法？

有幾種方法可以做到這一點。我的目標是：

（1）檢查單個序列內重複的基序

（2）檢查所有序列之間共享的基序

（3）檢查是否存在“預期的”或已知的主題

關於＃3，我也很好奇是否找到例如三核苷酸序列，如何檢查這些區域周圍的背景？

感謝您的建議/幫助！

您是否正在尋找所有序列共有的圖案？在每個序列中重複的主題？您是否正在尋找特定的已知圖案？

“您是否正在尋找所有序列共有的基序？在每個序列中重複的圖案？”我正在尋找所有序列共有且在序列中重複的兩個基序，但實際上檢查每個序列的重複序列會很有趣。 “您是否在尋找特定的已知圖案？”不，但是回想一下這一點很有趣

OK，請[編輯]您的問題並提供此信息。評論容易遺漏，難以閱讀，可以刪除而不會發出警告。三個問題（de-novo共享主題識別，de-novo重複主題識別和檢測已知主題）是不同的，並且每個問題都需要使用自己的方法。

@terdon當然

您是說總共10kb還是3000個序列，每個序列的長度都在10kb左右？

@CharlesE.Grant 3000個序列，每個序列約10kb

五答案:

Charles E. Grant

2017-06-14 00:28:20 UTC

view on stackexchange narkive permalink

MEME Suite網站包含用於主題分析的工具集合（我是維護者之一）。它包含兩個從頭開始的主題發現工具： MEME和 DREME。提供了公共Web應用程序，但您也可以下載和構建用於本地安裝的命令行工具。

對於第一個目標，可以使用 MEME並選擇“重複模型”（ANR）。對於第二個目標，將MEME與“每個序列零個或一次出現”（ZOOPS）模型一起使用。對於您的第三個目標，您可以使用FIMO（查找單個主題），以及軟件和數據庫下載頁面上提供的一個或多個主題數據庫。

聽起來像您的序列數據約為30Mb。 MEME Web應用程序限於60kb的序列數據，因此您必須安裝MEME Suite的本地副本。除非您配置了MPI，並且有許多內核可用，否則MEME將花費很長時間分析30Mb序列數據庫。您可能需要考慮分析序列的隨機選擇子集。 MEME的運行時間隨著序列數的增加而增加。

對於短圖案，您可能需要使用 DREME而不是MEME。在識別短基元上，DREME優於MEME，但僅限於8個位置寬的基元<。

EMiller

2017-06-12 21:02:22 UTC

view on stackexchange narkive permalink

簽出 HOMER。我的實驗室目前正在使用“用於發現基序和下一代測序分析的軟件”。

編輯：@ShanZhengYang“ HOMER被設計為從頭髮現基序算法...” HOMER De Novo Motif

可以從頭髮現主題嗎？如果沒有，我不完全確定如何使用此模型創建背景。

@ShanZhengYang參見我的編輯。

謝謝。我仍然不確定我的設置如何為荷馬選擇背景...

我從未在De Novo中使用過它，因此請稍加鹽味，但首先嘗試使用默認值。也許向開發人員發送電子郵件。

為了擴展@EMiller的評論，對於許多模型生物，HOMER可以為您找出背景模型。您只需要使用configureHomer.pl安裝模型生物的支持文件。

gringer

2017-06-09 07:19:01 UTC

view on stackexchange narkive permalink

對於（3），此頁面具有很多指向圖案/圖案查找工具的鏈接。通過該頁面上的 YMF鏈接，我遇到了華盛頓大學主題發現部分。在這些 projection中，它似乎是唯一可下載的工具。我發現所有這些工具有多老了，這很有趣。

您的子問題（2）似乎與我對巴西擬南芥（emippostrongylus brasiliensis）基因組序列所遇到的問題相似，其中我想找到在整個基因組中重複的非常高同源性的區域（長度500bp至20kb或更多，相似度95-99％）。這些序列正在殺死裝配體。

我能找到這些區域的主要方法是查看長納米孔讀數的覆蓋圖，該讀數映射到裝配好的基因組（使用GraphMap或BWA）。任何覆蓋範圍明顯高於中值的區域都可能是重複序列。

我過去玩過的方法是將讀數切成較小的大小，這對於擊中較小的重複區域效果更好。在大多數讀取中，有一小部分從未將它們映射到所有重複的位置。我前段時間寫了我自己的腳本來截斷讀取（出於不同的目的），這產生了一個FASTA / FASTQ文件，其中所有讀取的長度完全相同。由於某些未知的原因，我花了一些時間使用POD“適當地”記錄該腳本，所以這裡是一個簡短的摘要：

將輸入的FASTA文件中的所有序列轉換為相同的長度。刪除比目標長度短的序列，將比目標長度長的序列拆分為覆蓋整個範圍的重疊子序列。這就準備了要在需要恆定長度序列（例如edena）的重疊共識彙編器中使用的序列。

這是語法：

  $ ./normalise_seqlengths.pl -h用法：
./normalise_seqlengths.pl <reads.fa> [選項]選項：-help僅顯示此幫助消息-fraglength目標片段長度（以鹼基對，默認為2000）-overlap最小重疊長度（以鹼基對，默認為200）-short保持短序列（比片段長度短）

Kristoffer Vitting-Seerup

2017-06-09 14:41:26 UTC

view on stackexchange narkive permalink

我所知道的大多數工具都在尋找特定基序的富集-但這要求您具有一組特別感興趣的序列，並要進行背景測試。

是您的情況嗎？

在評論後於2017年6月12日更新。

您可以嘗試 meme套件，更具體地是主題查找器

您好Kristoffer Vitting-Seerup，感謝您的評論，並歡迎訪問生物信息學堆棧交換。我們感謝任何這樣的評論，它們可以幫助人們提出更好的問題。我將您的回答標記為“不是答案”，因為我認為應該將其作為對問題的註釋（必須達到50分的聲譽才能自己做）。

嗨，是的，這是對原始問題的更好評論。這就是SO風格。關於您的問題，我沒有背景知識

galicae

2017-06-09 15:20:12 UTC

view on stackexchange narkive permalink

它正在開發中，但是 BaMMmotif！是否適合您？它的主要賣點是它可以尋找豐富的主題，這些主題富含一系列等長的“從頭開始”。如果您不能/不希望提供一個負數集，它將從正數序列中學習一個。如果您有更多有關序列的信息，則有很多選項可供選擇：針對主題的“零個或一個”，“一個”和“多個”出現，有不同的模型。

您可以如果將它們編碼為XXmotif PWM，也可以使用它來查找已知的圖案。如果您有帶有主題的文件（如綁定站點），也可以將其用作初始化。

雖然我自己還沒有使用過該軟件，但作者對git的反應非常好，安裝說明看起來很漂亮

編輯：顯然，該軟件是使用ChIP實驗作為通常的用例場景開發的，對於較大的序列，它可能行為不當，或者運行時間超長。

嗨，galicae，感謝您的回答，歡迎使用生物信息學堆棧交換。您的答案有點簡短，可能需要更多解釋。您能否在有關BaMMmotif的答案中添加更多信息？它是您以前使用過的工具嗎？這將是查找新穎的共有基序，同一序列內重複的基序或已知基序的合適程序嗎？

@gringer很公平，已編輯。

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 3.0許可。

关于 - 法律

Loading...