題:
參考基因組中的大寫字母與小寫字母
Scott Gigante
2017-05-24 08:26:50 UTC
view on stackexchange narkive permalink

我正在使用從 NCBI下載的mm10小鼠的參考基因組,並且想更詳細地了解小寫字母和大寫字母之間的區別,小寫字母和大寫字母構成基因組的大致相等部分。我知道N用於“硬屏蔽”(基因組中無法組裝的區域),小寫字母用於重複區域中的“軟屏蔽”。

  1. 這種軟屏蔽實際上是做什麼的意思?
  2. 我對這些區域中的序列有多自信?
  3. 小寫的n代表什麼?
  4. ol>
三 答案:
rightskewed
2017-05-24 11:01:33 UTC
view on stackexchange narkive permalink

這種軟屏蔽實際上是什麼意思?

基因組中的許多序列都是重複的。例如,人類基因組具有(至少)三分之二的重複元件。[1]。

通過將大寫字母轉換為小寫字母,可以對這些重複元素進行軟屏蔽。這些軟掩蓋鹼基的一個重要用例將是在同源性搜索中: atatatatatat 將傾向於出現在人和小鼠基因組中,但可能不是同源的。

我對這些區域中的序列有多自信?

就像您在基於非軟掩膜的位置中一樣。在確定基因組中可能重複的部分後,進行軟掩蔽。不確定特定鹼基是“ A”還是“ G”,只是它是重複序列的一部分,因此應表示為“ a”。

小寫字母是什麼

UCSC使用 Tandom Repeat Finder RepeatMasker來軟掩蓋潛在的重複。 NCBI最有可能使用 TANTAN。 “ N”表示沒有可用於該鹼基的序列信息。被'n'取代的它可能是重複屏蔽軟件的產物,在該軟件中,它會以'n'軟屏蔽'N',以指示基因組的一部分也可能是重複序列。

[1] http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1002384

內容豐富的答案,但我認為說人類基因組是“(至少)三分之二的重複元素”是有爭議的;您引用的P-clouds方法是相當寬鬆的,一半是更普遍接受的數字。而且,軟掩膜通常不會掩蓋所有重複,而只是散佈重複和低複雜度序列。儘管mm10是當然最好的組裝之一,但在基地召集和組裝建立方面總是存在不確定性,對於重複序列而言更是如此。
Chris_Rands
2017-05-24 13:16:19 UTC
view on stackexchange narkive permalink

在基因組序列中使用小寫/大寫字母和 N / n 字母尚未完全標準化,您應始終檢查所用資源的規範

小寫字母最常用於表示“軟屏蔽序列”,這是 RepeatMasker流行的約定,其中散佈著重複序列(涵蓋轉座子,逆轉座子和已處理的假基因)。低複雜度序列用小寫字母標記。請注意,通常不會掩蓋較大的重複,例如相當大的串聯重複,片段重複和整個基因重複。

但是,小寫/大寫字母還有其他用途,例如, Ensembl分別使用大寫/小寫字母表示外顯子和內含子序列。

N n 個核苷酸可能代表“硬掩蔽序列” ”,其中散佈的重複和低複雜度序列被 N 取代。但是 N / n s可以替代地表示不明確的核苷酸,的確是 IUPAC規範。

還應注意( (雖然幸運的是很少)) X / x 也用於表示模棱兩可的核苷酸或“硬屏蔽序列”。

Kamil S Jaron
2017-05-24 17:29:31 UTC
view on stackexchange narkive permalink
  1. 小寫字母核苷酸通常表示 soft 被屏蔽的序列。您可以在 NCBI的常見問題解答中找到屏蔽基因組的方式:
  2. ol>

    真核基因組中的重複序列是否被屏蔽?

    WindowMasker識別的真核基因組裝配序列文件中的重複序列已被掩蓋為小寫。

    發現的重複序列的位置和身份 RepeatMasker提供的文件也位於單獨的文件中。如果需要,這些跨度可用於掩蓋基因組序列。但是請注意,研究較少的生物沒有可用於RepeatMasker的良好重複庫。

    1. 恕我直言,低複雜度區域是總是比高複雜性序列更容易被錯誤組裝。但是,這對於非模型生物將是個問題。我猜想小鼠基因組的軟掩膜區域的可靠性會很高。

    2. 不知道,看起來像是一件人工製品。

    3. ol >

      使用軟掩碼的示例

      將序列映射到參考通常以映射的讀段的種子(子字符串)與參考序列的完美匹配開始。軟遮罩(低複雜度)區域不用於種子匹配,但僅在相鄰區域中存在種子時才用於對齊的擴展。此 blog中介紹了將軟屏蔽應用於長時間讀取彙編的問題。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...