題:
k-mer覆蓋率公式
user44697
2017-07-26 18:35:43 UTC
view on stackexchange narkive permalink

讓$ C $為基本覆蓋率,$ R $為讀取長度,$ K $為$ k $ -mer長度。然後,可以將$ k $ -mer覆蓋率$ C_k $計算為$ C_k = C \ cdot(R-K + 1)/ R $。

有人可以解釋為什麼這個方程式有效(

來源:天鵝絨手冊第5.1節

二 答案:
Kamil S Jaron
2017-07-27 15:02:09 UTC
view on stackexchange narkive permalink

我仍然對答案感到困惑,因此我嘗試使用所有步驟進行計算。我的定義是“ $ C_k $是包含k-mer的讀取數。”以及相應的覆蓋率定義($ C $):“ $ C $是覆蓋一個鹼基的讀取數”。

覆蓋率是$ C = \ frac {T \ cdot R} {L} $,其中$ T $為讀取總數,$ R $為讀取長度,$ L $為基因組長度。給定$ C_k $的定義,$ C_k = \ frac {T(R-K + 1)} {L-K + 1} $,其中$ R-K + 1 $只是讀取中的kmers數,而$ L-K + 1 $是基因組中kmers的數量。然後,

$$ C_k = \ frac {T(R-K + 1)} {L-K + 1} = \ frac {T(R-K + 1)} {L-K + 1} \ cdot \ frac {R} {R} = \ frac {R-K + 1} {R} \ cdot \ frac {T \ cdot R} {L-K + 1} $$

由於$ L >> K $,我們可以近似$ L-K + 1 \ approx L $,然後將表達式簡化為

$$ \ frac {R-K + 1} {R} \ cdot \ frac {T \ cdot R} {L} = \ frac {R-K + 1} {R} \ cdot C $$

這是$ C_k $的公式。

Devon Ryan
2017-07-27 01:45:29 UTC
view on stackexchange narkive permalink

$ C_k $定義為包含k-mer的讀取次數。可用於包含k-mer的讀段的分數為$(R-K + 1)/ R $,這是讀段中k-mer的數量除以其長度。那時核苷酸覆蓋率($ C $)就是預期的k-mer覆蓋率。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...