跳轉到內容

下一代測序 (NGS) / 從頭 RNA 序列組裝

來自華夏公益教科書,開放書籍,開放世界
下一代測序 (NGS)
從頭組裝 從頭 RNA 序列組裝 作者

從頭 RNA-seq 序列組裝包括在沒有參考基因組支援的情況下從 RNA-seq 讀數中組裝轉錄本。此過程是由於沒有可用的基因組組裝,或者為了檢測與基因組組裝不一致的事件(例如,在重排後檢測融合基因)而完成的。

大多數 RNA-seq 從頭 序列組裝技術都來自從頭 基因組組裝,並且 DNA 組裝的大多數問題都適用於 RNA 組裝。然而,RNA-seq 從頭 序列組裝可以說比 DNA 版本更復雜。特別是,RNA-seq 組裝必須處理極不均勻的覆蓋深度(跨基因、亞型,甚至跨轉錄本的定位),具有高度序列同一性的保守基因家族,以及可變剪接。

典型工作流程

[編輯 | 編輯原始碼]

典型工作流程與從頭 基因組組裝中描述的工作流程基本相同。以下是 RNA-seq 分析特有的要點

  • 選擇協議
  • 質量控制和資料過濾
  • 調整表達水平引數
  • 合併組裝

擴增和歸一化

[編輯 | 編輯原始碼]

Poly-A 選擇

[編輯 | 編輯原始碼]

鏈特異性

[編輯 | 編輯原始碼]

檔案格式

[編輯 | 編輯原始碼]

建立資料集

[編輯 | 編輯原始碼]

transABySS

[編輯 | 編輯原始碼]

Velvet/Oases

[編輯 | 編輯原始碼]

Velvet 和 Oases 可以一起使用來組裝從頭轉錄組。首先必須使用 velveth 生成雜湊表,然後使用 velvetg 組裝節點。最後,使用 Oases 將節點重新組裝成轉錄本、轉錄本變體和剪接連線點。可以使用能夠解釋轉錄本變體的對映軟體(例如 Tophat)將讀數映射回組裝以執行最終驗證步驟。

以下是一些命令示例[1]


./velveth NewDirectoryName(預設值為 Assem) 21 -shortPaired reads.fa

其中 21 等於雜湊長度,reads.fa 是一個成對的末端 fasta 檔案,其中反向讀數直接位於正向讀數之後。也可以使用 -separate 選項將成對的末端讀數輸入為兩個獨立的檔案


./velvetg NewDirectoryName -read_trkg yes

-read_trkg yes 選項必須開啟才能執行 Oases


./oases NewDirectoryName

Oases 的輸出將是 NewDirectoryName 目錄/transcripts.fa 目錄/splicing_events.txt 目錄/contig-ordering.txt 中的三個檔案。如果此組裝將用作參考來對映其他讀數,則目錄/transcripts.fa 應用作參考

參考資料集

[編輯 | 編輯原始碼]

檢視資料集

[編輯 | 編輯原始碼]

比較資料集

[編輯 | 編輯原始碼]

轉錄組從頭短讀序列組裝器

[編輯 | 編輯原始碼]

組裝轉錄組本身也帶來了挑戰。這是因為讀數不是從所有基因中隨機取樣的,但來自表達量更高的基因的讀數會更多。

一些可能大多陣列裝都通用的步驟

  1. 在開始之前,確保你擁有合適的硬體,你可能需要超過 100 GB 的 RAM(見下文)
  2. 如果合理並且不會影響生物學:嘗試獲得鏈特異性 RNA
  3. 生成歸一化 cDNA 文庫可能會有所幫助
  4. 確保所有文庫的質量都很好,並且沒有主要問題(質量控制軟體
  5. 在將資料提交到從頭組裝器之前,通常最好先清理資料,例如,修剪掉末端的錯誤鹼基或完全丟棄讀段。由於低質量鹼基更有可能包含錯誤,這些錯誤可能會使組裝過程複雜化,並可能導致更高的記憶體消耗。也就是說,例如 Trinity 可以在組裝之前使用 ALLPATHS-LG 的讀段校正模組。此外,請移除可能仍然存在的接頭或引物序列。 (修剪工具)
  6. 準備好擁有超過 5000 萬個讀段對用於哺乳動物(這是基於 Trinity 的出版物,其中 5260 萬個 76bp 的讀段對獲得了良好的結果。更多可能更好)。
  7. 在執行任何大型組裝之前,請仔細檢查您提供給組裝器的引數。
  8. 組裝後,通常建議檢查您的讀段資料與組裝的匹配程度,並可能視覺化資料 (組裝視覺化)

決策助手

[edit | edit source]

這是基於個人經驗和文獻調查。特別是,搜尋了介紹新工具的原始出版物以進行比較(即使這些出版物可能經常偏向作者介紹的新工具)。此外,還查詢了比較轉錄組組裝器的稿件中的資料。

如果您使用 454 資料 => 使用基於 OLC 的組裝器,您可能會使用 Newbler 獲得非常好的結果。

如果您使用 Illumina 資料 => 如果您有資源,請嘗試使用 Trinity、Trans-AbySS 或 Velvet-Oases。哪種方法表現最佳取決於讀段長度、測序覆蓋率和轉錄組的複雜性。請參閱參考資料,瞭解以下組裝器的比較。

如果您有 CLC 流程並且沒有計算機經驗 => 這可能足夠好

軟體包

[edit | edit source]

免費軟體

[edit | edit source]

ABySS

[edit | edit source]

AbySS 是一個從頭組裝器,它可以在多個節點上執行,它使用訊息解析介面 (MPI) 介面進行通訊。由於 AbySS 分佈任務,每個機器所需的 RAM 量更小,因此 Abyss 能夠處理大型基因組。對於轉錄組組裝,它通常與 Trans-ABySS 相結合。

  • 優點
    • 分散式介面可以使用叢集
  • 缺點
    • 速度相對較慢

MIRA 是一種通用組裝器,可以整合各種平臺數據並執行真正的混合組裝。

  • 優點
    • 文件非常完善,並且有很多開關
    • 可以組合不同的測序技術
    • 資料質量可能相對較好
  • 缺點
    • 只有部分多執行緒,並且受技術影響,速度非常慢
    • 可能不建議組裝更大的轉錄組

SOAP de novo

[edit | edit source]

SOAPdenovo 是一種全能基因組組裝器。它被用於組裝大熊貓基因組。

  • 優點
    • SOAP de novo 使用中等數量的 RAM
    • SOAP de novo 相對較快(可能是最快的免費組裝器)
    • SOAP de novo 包含一個支架構建器和一個讀段校正器
    • SOAP de novo 相對模組化(讀段校正器、組裝、支架構建、間隙填充)
  • 缺點
    • 構建重疊群的方式可能有點令人困惑。
    • SOAP denovo 沒有專門用於轉錄組組裝的擴充套件

Trinity

[edit | edit source]

Trinity 是三個程式的集合,它們完成三個不同的任務:Inchworm、Chrysalis 和 Butterfly。它最適合於鏈特異性資料。當 Trinity 的作者將其與 Trans-Abyss 和 SOAPdenovo 進行比較時,它在恢復完整的長度小鼠和酵母基因方面表現更好。Trinity 建議每個 100 萬個 Illumina 讀段對使用 1 GB RAM。Trinity 可以使用 ALLPATHS-LG 讀段校正器。但是,這需要安裝 ALLPATHS。

  • 優點
    • 生成非常好的轉錄組組裝
  • 缺點
    • 需要時間,組裝器 Inchworm(第一步)在多執行緒方面沒有太多收益

Velvet-Oases

[edit | edit source]

Velvet 對轉錄組組裝的看法是 Oases。在論壇中 這裡 討論了 Velvet。

  • 優點
    • Oases 是最敏感準確從頭轉錄組組裝器之一
    • Oases 包含一個模組,用於將多個單 k 組裝合併為一個
    • Oases 使用者可以透過 Oases 郵件列表 [1] 快速獲得答案。
    • Oases 支援多種輸入資料型別和格式
  • 缺點
    • 根據 velvet/oases 郵件列表,組裝 2 億個大約 100bp 的雙端讀段可能需要高達 200GB 的 RAM。[2] 但是,絕對記憶體消耗是轉錄組複雜性的函式,難以先驗估計。

商業軟體

[edit | edit source]

CLC cell

[edit | edit source]

CLC 組裝單元是 CLC 釋出的商業組裝器。它很可能基於 kmer 方法。

  • 優點
    • CLC 使用很少的 RAM
    • CLC 速度很快
  • 缺點
    • CLC 不是免費的

Newbler

[edit | edit source]

Newbler 是羅氏公司釋出的組裝器。

  • 優點
    • Newbler 已用於許多組裝專案
    • Newbler 似乎能夠產生良好的 N50 值
    • Newbler 通常比較精確
    • Newbler 通常是免費提供的
  • 缺點
    • Newbler 專為(主要是)454 資料量身定製。雖然它可以容納一些有限的 Illumina 資料,正如生物資訊學家 Lex Nederbragt 所描述的[3],但對於更大的資料集來說,這是不可能的。
    • 由於 Newbler 至少部分使用了 OLC 方法,因此大型組裝可能需要時間

進一步閱讀資料

[edit | edit source]
  • 454 資料的比較
    • Kumar 和 Baxter 2010 發現,對於 454 資料,在 CAP3、MIRA、Newbler、SeqMan 和 CLC 等組裝器中,Newbler 在他們的測試資料集中表現最佳
    • Garg 等人,2011 再次使用 454 資料,發現短讀拼接程式 **Velvet 和 ABySS 表現較差**,而 **CLC 的效能幾乎與 MIRA、Newbler v2.3、Newbler v2.5p1、CAP3 和 TGICL 相當**。有趣的是,Newbler v2.3 的效能可能比更新的版本 2.5p1 更好。
    • Mundry 等人,2012 對模擬的 454 資料比較了 CAP3、MIRA、Newbler 和 Oases 拼接程式。
  • 比較 Illumina 資料
    • Zaho 等人,2011 對三個不同的 RNA-seq 資料集比較了 SOAPdenovo、ABySS、Trinity 和 Oases,分析了合併不同單 k 拼接的影響。

參考文獻

[編輯 | 編輯原始碼]
  1. Zerbino, D. (2008 年 8 月 29 日). "Velvet 手冊 - 版本 1.1" (PDF). NIH HPC 組. 從 原始位置 (PDF) 存檔於 2015 年 9 月 14 日. 檢索於 2016 年 5 月 4 日.
  2. Martin, J. (2011 年 6 月 10 日). "(Oases-users) 記憶體需求". Oases-users 郵件列表. 歐洲生物資訊學研究所. 檢索於 2016 年 5 月 4 日.
  3. Nederbragt, L. (2011 年 1 月 21 日). "Newbler 輸入 II:來自其他平臺的測序讀數". 讀取、重疊群和支架的集合. 檢索於 2016 年 5 月 4 日.
華夏公益教科書