題:
PCR重複物是如何產生的,為什麼將其刪除以進行NGS分析很重要?
gc5
2017-11-16 22:55:21 UTC
view on stackexchange narkive permalink

我正在嘗試了解NGS分析(實際上是全基因組)中的PCR重複項。我進行了搜索,發現的最佳答案是在此博客

但是我不知道是否了解PCR重複出現的正確方式,因為我看不到存在除了計算上的問題,即不必要的冗餘外,它們還用於下游分析。在這種情況下,如果您有重複的片段,最終會將其中的一些片段放大兩次或更多次。映射的質量(因為它們增加了對特定序列的共識,這可能會導致測序錯誤)。但是除此之外,關於刪除重複項的映射,您應該有相同的映射,儘管質量會降低。

質量問題是刪除PCR重複項的真正原因還是我有其他問題?失踪了嗎?

二 答案:
Daniel Standage
2017-11-16 23:22:54 UTC
view on stackexchange narkive permalink

在覆蓋深度是一個重要因素的任何情況下,PCR複製都會錯誤地擴大覆蓋範圍,如果不刪除覆蓋範圍,則會在覆蓋範圍確實不存在時產生高置信度的幻覺。

例如,請考慮以下假設情況。

  * TTTCATACTAACTAGCCTGCGGTCTGTGTTTCCCGACTTCTGAGTCATGGGGTTTCAATGCCTATAGATTC ................................... C ..................................... ............. T ........ ......                       ..................C.........                           ................ .............................................................. ........ C ........................ C。 ........................  

標記位置的覆蓋範圍為9(9個重疊讀取),4其中暗示存在替代等位基因。由於這4個讀段映射到不同位置,因此它們是支持相同推定單核苷酸變體(SNV)的獨立觀察結果。三次讀取中的 T 作為序列錯誤可以安全地忽略,因為它只會出現一次。

現在考慮以下假設情況。

  * TTTCATACTAACTAGCCTGCGGTCTGTGTTTCCCGACTTCTGAGTCATGGGGTTTCAATGCCTATAGATTC ......................................... T .... ..........                       ..................C.........                       ............ ...... C ....................................... C ......... ............C.........                               ............................ ..................................... ............................... ......  

在這種情況下,標記的位置也具有9的覆蓋範圍,但其中7個讀段似乎是PCR重複片段。如果我們刪除重複項,則標記位置的覆蓋率只有4,標記位置只有一個 C ,這不足以調用SNV。

到目前為止我看到的最好的解釋
我同意BCArg,這是非常簡單明了的解釋。謝謝。
user172818
2017-11-16 23:20:58 UTC
view on stackexchange narkive permalink

PCR聚合酶引入錯誤。當擴增的前幾個循環中出現錯誤時,該錯誤會出現在文庫中相當高比例的DNA片段中。測序後,您可能會看到多次讀取均發生相同的錯誤。如果在調用變體時刪除了PCR重複項,則所有錯誤都將減少為一次讀取。對於高覆蓋率的數據,您不會將錯誤稱為錯誤的變體。但是,如果保留PCR重複項,則多次出現該錯誤可能會使該錯誤看起來像是真正的變體。這對於從不純淨的腫瘤樣本中提取SNV尤其不利。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...