快速計數fastq文件中的讀取次數和鹼基數的方法？

terdon

2017-06-28 19:50:27 UTC

view on stackexchange narkive permalink

我正在尋找一種工具，最好是用C或C ++編寫的工具，該工具可以快速有效地計算壓縮的fastq文件中的讀取次數和鹼基數。我目前正在使用 zgrep 和 awk ：

  zgrep執行此操作。 foo.fasq.gz | awk'NR％4 == 2 {c ++; l + = length（$ 0）} END {print“讀取次數：” c; print“讀取的鹼基數：” l}'

zgrep。將打印輸入文件中的非空白行和 awk' NR％4 == 2 將從第二行（序列）開始每4行處理一次。這可以正常工作，但是在處理大文件（例如WGS數據）時可能會花費很長的時間。有沒有我可以使用的工具（在Linux上）會給我這些值？或者，如果沒有，我也歡迎加快上述命令的建議。

我認為`zgrep .`沒有實現任何實際目的。您應該可以完全不使用它（用`zcat`代替）。

可能值得注意的是，FASTQ規範（例如它）允許序列和限定字符串中的換行符，因此，不能保證僅取每4行中的第二行作為保證。（請參閱https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2847217/#__sec7title）

我將@KonradRudolph用於fastq文件包含空行的可能性很小的情況。 zgrep。只會打印非空白行（允許的行，它仍然會計數只有空格的行，因為從技術上講這些行不是空的，但是總比沒有好）。

我認為沒有這種風險。 @sjcockwell概述了更大的風險（但取決於文件的來源，即使可以忽略也是如此）。

@sjcockell是的，我知道，這是我寧願使用更複雜，專用的工具的另一個原因。但是，我還沒有真正遇到過野外每條記錄有4行以上的文件，因此我對此不太擔心。我應該，你說的很對。

@KonradRudolph同意了，但是我認為這是一個簡單的檢查，可以添加並用`zcat`替換它不會有太大的不同。在這裡，我主要關心的是找到一種可以更強大地處理此類問題的更複雜的工具。

-1

@sjcockell是的，絕對如此。非常有效的一點。

您可以訪問塊壓縮文件嗎？可能可以使用並行方法完成這項工作，從而大大加快工作速度。

我不知道@AlexReynolds。恐怕我對壓縮的工作原理並不了解。我需要處理的文件是使用gzip（通常是GNU gzip，有時是BSD gzip，如果客戶端使用的是Mac的話）壓縮的常規ASCII文本文件（fastq）。

使用Pigz https://zlib.net/pigz/進行解壓縮，僅此一項，您就會獲得很好的速度。

我懷疑@MatthewBashton會帶來很大的不同。根據[`pigz`手冊]（https://zlib.net/pigz/pigz.pdf），它將並行壓縮但不能解壓縮：*解壓縮無法並行化，至少沒有特殊準備的deflate流為了這個目的。結果，pigz使用單個線程（主線程）進行解壓縮，但是將創建其他三個線程進行讀取，寫入和檢查計算，這在某些情況下可以加速解壓縮*。因此，也許快一點（現在進行測試），但我預計減壓不會有太大差異。

@MatthewBashton證明（我在兩組不同的讀取集上進行了測試），`unpigz`實際上比`zgrep .`要慢。

@terdon我不同意，是的，放氣過程僅是單線程，我已經知道了，但是但**其他3個用於讀取，寫入和校驗和的線程提供了顯著的加速（特別是對於較大的多GB文件，這是正常的） gzip中的單個線程可以完成所有工作。在我的測試中，“ gzip”比“ zgrep”要快10秒以上，但pigz還是要快30秒左右，也比使用最新的“ klib.h” **的kseq要快。我不確定您如何獲得該結果，也許這僅會顯示在較大的壓縮文件中。我在答案中包含了計時和測試文件。

checkout he ng三本char開始HTTPS://GitHub.com/厲害3/bio fast

pigz | awk | wc是最快的方法

zgrep

gzip awk

Konrad的gzip awk wc變體

kseq_test使用來自 klib

piz awk

pigz awk wc

gzip單獨

pigz

使用pyGATB