題:
GRCh38著絲粒可定位性
719016
2017-08-14 13:33:43 UTC
view on stackexchange narkive permalink

GRCh38基因組參考中著絲粒的可定位性是否彼此相似?

據我記得當GRCh38出現時,著絲粒的序列是由測序數據的組合確定的

鑑於確定著絲粒序列的方式,我們是否應該期望Illumina 2x150bp(或更短的2x75bp)讀數相對均等地映射到所有著絲粒序列?

二 答案:
gringer
2017-08-14 15:49:09 UTC
view on stackexchange narkive permalink

我對此表示懷疑,除非您詢問製圖對所有著絲粒是否同樣有害。這是我在納米孔中發現的一些重複結構(可能不是著絲粒),它們是由 nanopore-WGS財團產生的“人類”樣品NA12878的:

Repetitive human reads #1

這些結構是一致的,因為它們重複很多次,但內部模式卻可能完全不同。這裡有一些其他信息:

Repetitive human reads #2

鑑於著絲粒需要唯一地與單個染色體連接,如果對我來說有意義著絲粒的內部結構對於每個染色體都是唯一的。

可能具有高度重複的結構,這些結構不會相互映射。儘管我還沒有深入研究人類讀物,但我研究了組裝的囓齒動物寄生蟲(擬南芥(Nippostrongylus brasiliensis))基因組中5個最易壓縮的區域,發現它們之間沒有內部相似之處:

Nippo most-compressible regions

Illumina閱讀中的彙編問題之一是,這些高度重複的區域被折疊成單個重複序列(或充其量只是一個重複序列)片段長度最多兩倍的區域)。對於內部重複單元具有超過98%的同一性,即使知道配對讀間隔的確切知識,組裝真實序列也非常困難。即使有可能,也可能無法正確放置讀取,因為多個內部單元可能與已排序的讀取相同(或相似地不同)。

user172818
2017-08-18 09:54:39 UTC
view on stackexchange narkive permalink

我們應該期望Illumina的2x150bp(或更短的2x75bp)讀數相對均等地映射到所有著絲粒序列嗎?

否。早已確定不同的染色體與不同的著絲粒序列相關。有時可以根據其序列來判斷讀取是來自哪個chr。

GRCh38著絲點比較棘手。我記得,著絲粒序列是使用以Venter基因組為模型的馬爾可夫鏈(或類似方法)以計算機方式生成的。 GRC可以區分大多數染色體,但不是全部。一些alpha陣列放置在2或4條染色體上。原始GRCh38保留所有4個副本。當您下載GRCh38進行映射時,僅保留一個副本。

如果要了解更多信息,請參見本文本文



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...