hilta007
2018-03-14 16:45:08 UTC
在處理fastQ文件時,我希望得到給定長度的所有可能kmers的重複序列,這些重複序列至少佔整個數據集讀取長度的90%。
例如:
的長度為6,帶有kmer“ ATTGGG”和一個數據集,每個數據集包含300個鹼基的讀數。
我想獲取以下kmers:
ATTGGGATTGGGATTGGGATTGGGATTGGGATTGGG ......(讀取長度的90%,無間隙)ATTGGGATTGGGATTGGGATTGGGATTGGGATTGGGA .....(91%)ATTGGGATTGGGATTGGGATTGGGATTGGGATTGGGAT ....(92%)
這對於長度為6的kmers的所有可能組合。
我進行了一些研究並測試了許多軟件,例如(KMC2,Jellyfish,Khmer,Dsk, Scturtle),但沒有一個符合我的意願,因為我想獲得重複kmer的出現,並且在一定百分比的讀取覆蓋率之間沒有任何可能的差距。
我已經完成了天真的算法,但t優化顯然不是最好的。有工具可以達到目的嗎?