fast5
是 HDF5
的一種原始格式,其中提供了來自Oxford Nanopore MinION的原始數據。您可以使用例如 poretools
輕鬆地將fast5格式的讀數提取為標準的fastq格式。
說我已將這些 fastq
格式的讀段與外部參考基因組對齊,從而生成了 SAM
文件。說我然後根據按位標記提取了 SAM
文件的子集,以僅包括映射到引用的讀取。使用讀取的ID,然後我可以將它們從包含 fastq
格式讀取的文件中grep出來,生成 fastq
格式的子集文件,僅包含已映射到的ID。參考資料。
現在我的問題是,我們是否可以根據從文件中獲取的映射讀取列表,將 fast5
存檔中的讀取與 fastq
中的讀取進行子集比較格式?這是出於教育目的,因此我們的起始存檔較小,並且 fast5
-> fastq
提取所需的CPU時間更少。