跳轉到內容

下一代測序 (NGS) / 從頭 RNA 序列組裝

來自華夏公益教科書，開放書籍，開放世界

< 下一代測序 (NGS)

此頁面可能需要審查以確保質量。

下一代測序 (NGS)
從頭組裝	從頭 RNA 序列組裝	作者

維基百科在De_novo_transcriptome_assembly中包含相關資訊

從頭 RNA-seq 序列組裝包括在沒有參考基因組支援的情況下從 RNA-seq 讀數中組裝轉錄本。此過程是由於沒有可用的基因組組裝，或者為了檢測與基因組組裝不一致的事件（例如，在重排後檢測融合基因）而完成的。

大多數 RNA-seq 從頭序列組裝技術都來自從頭基因組組裝，並且 DNA 組裝的大多數問題都適用於 RNA 組裝。然而，RNA-seq 從頭序列組裝可以說比 DNA 版本更復雜。特別是，RNA-seq 組裝必須處理極不均勻的覆蓋深度（跨基因、亞型，甚至跨轉錄本的定位），具有高度序列同一性的保守基因家族，以及可變剪接。

典型工作流程

[編輯 | 編輯原始碼]

典型工作流程與從頭基因組組裝中描述的工作流程基本相同。以下是 RNA-seq 分析特有的要點

選擇協議
質量控制和資料過濾
調整表達水平引數
合併組裝

協議

[編輯 | 編輯原始碼]

擴增和歸一化

[編輯 | 編輯原始碼]

Poly-A 選擇

[編輯 | 編輯原始碼]

鏈特異性

[編輯 | 編輯原始碼]

檔案格式

[編輯 | 編輯原始碼]

建立資料集

[編輯 | 編輯原始碼]

transABySS

[編輯 | 編輯原始碼]

Trinity

[編輯 | 編輯原始碼]

Velvet/Oases

[編輯 | 編輯原始碼]

Velvet 和 Oases 可以一起使用來組裝從頭轉錄組。首先必須使用 velveth 生成雜湊表，然後使用 velvetg 組裝節點。最後，使用 Oases 將節點重新組裝成轉錄本、轉錄本變體和剪接連線點。可以使用能夠解釋轉錄本變體的對映軟體（例如 Tophat）將讀數映射回組裝以執行最終驗證步驟。

以下是一些命令示例^[1]

./velveth NewDirectoryName(預設值為 Assem) 21 -shortPaired reads.fa

其中 21 等於雜湊長度，reads.fa 是一個成對的末端 fasta 檔案，其中反向讀數直接位於正向讀數之後。也可以使用 -separate 選項將成對的末端讀數輸入為兩個獨立的檔案

./velvetg NewDirectoryName -read_trkg yes

-read_trkg yes 選項必須開啟才能執行 Oases

./oases NewDirectoryName

Oases 的輸出將是 NewDirectoryName 目錄/transcripts.fa 目錄/splicing_events.txt 目錄/contig-ordering.txt 中的三個檔案。如果此組裝將用作參考來對映其他讀數，則目錄/transcripts.fa 應用作參考

參考資料集

[編輯 | 編輯原始碼]

檢視資料集

[編輯 | 編輯原始碼]

比較資料集

[編輯 | 編輯原始碼]

轉錄組從頭短讀序列組裝器

[編輯 | 編輯原始碼]

組裝轉錄組本身也帶來了挑戰。這是因為讀數不是從所有基因中隨機取樣的，但來自表達量更高的基因的讀數會更多。

一些可能大多陣列裝都通用的步驟

在開始之前，確保你擁有合適的硬體，你可能需要超過 100 GB 的 RAM（見下文）
如果合理並且不會影響生物學：嘗試獲得鏈特異性 RNA
生成歸一化 cDNA 文庫可能會有所幫助
確保所有文庫的質量都很好，並且沒有主要問題（質量控制軟體）
在將資料提交到從頭組裝器之前，通常最好先清理資料，例如，修剪掉末端的錯誤鹼基或完全丟棄讀段。由於低質量鹼基更有可能包含錯誤，這些錯誤可能會使組裝過程複雜化，並可能導致更高的記憶體消耗。也就是說，例如 Trinity 可以在組裝之前使用 ALLPATHS-LG 的讀段校正模組。此外，請移除可能仍然存在的接頭或引物序列。 (修剪工具)
準備好擁有超過 5000 萬個讀段對用於哺乳動物（這是基於 Trinity 的出版物，其中 5260 萬個 76bp 的讀段對獲得了良好的結果。更多可能更好）。
在執行任何大型組裝之前，請仔細檢查您提供給組裝器的引數。
組裝後，通常建議檢查您的讀段資料與組裝的匹配程度，並可能視覺化資料 (組裝視覺化)

決策助手

[edit | edit source]

這是基於個人經驗和文獻調查。特別是，搜尋了介紹新工具的原始出版物以進行比較（即使這些出版物可能經常偏向作者介紹的新工具）。此外，還查詢了比較轉錄組組裝器的稿件中的資料。

如果您使用 454 資料 => 使用基於 OLC 的組裝器，您可能會使用 Newbler 獲得非常好的結果。

如果您使用 Illumina 資料 => 如果您有資源，請嘗試使用 Trinity、Trans-AbySS 或 Velvet-Oases。哪種方法表現最佳取決於讀段長度、測序覆蓋率和轉錄組的複雜性。請參閱參考資料，瞭解以下組裝器的比較。

如果您有 CLC 流程並且沒有計算機經驗 => 這可能足夠好

軟體包

[edit | edit source]

免費軟體

[edit | edit source]

ABySS

[edit | edit source]

AbySS 是一個從頭組裝器，它可以在多個節點上執行，它使用訊息解析介面 (MPI) 介面進行通訊。由於 AbySS 分佈任務，每個機器所需的 RAM 量更小，因此 Abyss 能夠處理大型基因組。對於轉錄組組裝，它通常與 Trans-ABySS 相結合。

優點
- 分散式介面可以使用叢集

缺點
- 速度相對較慢

MIRA

[edit | edit source]

MIRA 是一種通用組裝器，可以整合各種平臺數據並執行真正的混合組裝。

優點
- 文件非常完善，並且有很多開關
- 可以組合不同的測序技術
- 資料質量可能相對較好

缺點
- 只有部分多執行緒，並且受技術影響，速度非常慢
- 可能不建議組裝更大的轉錄組

SOAP de novo

[edit | edit source]

SOAPdenovo 是一種全能基因組組裝器。它被用於組裝大熊貓基因組。

優點
- SOAP de novo 使用中等數量的 RAM
- SOAP de novo 相對較快（可能是最快的免費組裝器）
- SOAP de novo 包含一個支架構建器和一個讀段校正器
- SOAP de novo 相對模組化（讀段校正器、組裝、支架構建、間隙填充）

缺點
- 構建重疊群的方式可能有點令人困惑。
- SOAP denovo 沒有專門用於轉錄組組裝的擴充套件

Trinity

[edit | edit source]

Trinity 是三個程式的集合，它們完成三個不同的任務：Inchworm、Chrysalis 和 Butterfly。它最適合於鏈特異性資料。當 Trinity 的作者將其與 Trans-Abyss 和 SOAPdenovo 進行比較時，它在恢復完整的長度小鼠和酵母基因方面表現更好。Trinity 建議每個 100 萬個 Illumina 讀段對使用 1 GB RAM。Trinity 可以使用 ALLPATHS-LG 讀段校正器。但是，這需要安裝 ALLPATHS。

優點
- 生成非常好的轉錄組組裝
缺點
- 需要時間，組裝器 Inchworm（第一步）在多執行緒方面沒有太多收益

Velvet-Oases

[edit | edit source]

Velvet 對轉錄組組裝的看法是 Oases。在論壇中這裡討論了 Velvet。

優點
- Oases 是最敏感和準確的從頭轉錄組組裝器之一
- Oases 包含一個模組，用於將多個單 k 組裝合併為一個
- Oases 使用者可以透過 Oases 郵件列表 [1] 快速獲得答案。
- Oases 支援多種輸入資料型別和格式
缺點
- 根據 velvet/oases 郵件列表，組裝 2 億個大約 100bp 的雙端讀段可能需要高達 200GB 的 RAM。^[2] 但是，絕對記憶體消耗是轉錄組複雜性的函式，難以先驗估計。

商業軟體

[edit | edit source]

CLC cell

[edit | edit source]

CLC 組裝單元是 CLC 釋出的商業組裝器。它很可能基於 kmer 方法。

優點
- CLC 使用很少的 RAM
- CLC 速度很快

缺點
- CLC 不是免費的

Newbler

[edit | edit source]

Newbler 是羅氏公司釋出的組裝器。

優點
- Newbler 已用於許多組裝專案
- Newbler 似乎能夠產生良好的 N50 值
- Newbler 通常比較精確
- Newbler 通常是免費提供的

缺點
- Newbler 專為（主要是）454 資料量身定製。雖然它可以容納一些有限的 Illumina 資料，正如生物資訊學家 Lex Nederbragt 所描述的^[3]，但對於更大的資料集來說，這是不可能的。
- 由於 Newbler 至少部分使用了 OLC 方法，因此大型組裝可能需要時間

進一步閱讀資料

[edit | edit source]

背景
- Martin 和 Wang 2011 關於轉錄組組裝的綜述

原始出版物
- Chevreaux 等人，2004 mira
- Simpson 等人，2009 ABySS
- Zerbino 和 Birney，2008 Velvet
- Robertson 等人，2011 Trans-ABySS
- Grabherr 等人，2011 Trinity
- Schulz 等人 2012 Oases

454 資料的比較

- Kumar 和 Baxter 2010 發現，對於 454 資料，在 CAP3、MIRA、Newbler、SeqMan 和 CLC 等組裝器中，Newbler 在他們的測試資料集中表現最佳
- Garg 等人，2011 再次使用 454 資料，發現短讀拼接程式 **Velvet 和 ABySS 表現較差**，而 **CLC 的效能幾乎與 MIRA、Newbler v2.3、Newbler v2.5p1、CAP3 和 TGICL 相當**。有趣的是，Newbler v2.3 的效能可能比更新的版本 2.5p1 更好。
- Mundry 等人，2012 對模擬的 454 資料比較了 CAP3、MIRA、Newbler 和 Oases 拼接程式。

比較 Illumina 資料
- Zaho 等人，2011 對三個不同的 RNA-seq 資料集比較了 SOAPdenovo、ABySS、Trinity 和 Oases，分析了合併不同單 k 拼接的影響。

參考文獻

[編輯 | 編輯原始碼]

↑ Zerbino, D. (2008 年 8 月 29 日). "Velvet 手冊 - 版本 1.1" (PDF). NIH HPC 組. 從原始位置 (PDF) 存檔於 2015 年 9 月 14 日. 檢索於 2016 年 5 月 4 日.
↑ Martin, J. (2011 年 6 月 10 日). "(Oases-users) 記憶體需求". Oases-users 郵件列表. 歐洲生物資訊學研究所. 檢索於 2016 年 5 月 4 日.
↑ Nederbragt, L. (2011 年 1 月 21 日). "Newbler 輸入 II：來自其他平臺的測序讀數". 讀取、重疊群和支架的集合. 檢索於 2016 年 5 月 4 日.

檢索自 "https://wikibook.tw/wiki/Next_Generation_Sequencing_(NGS)/De_novo_RNA_assembly"

書籍：下一代測序 (NGS)

華夏公益教科書