下一代測序 (NGS) / 從頭 RNA 序列組裝
從頭 RNA-seq 序列組裝包括在沒有參考基因組支援的情況下從 RNA-seq 讀數中組裝轉錄本。此過程是由於沒有可用的基因組組裝,或者為了檢測與基因組組裝不一致的事件(例如,在重排後檢測融合基因)而完成的。
大多數 RNA-seq 從頭 序列組裝技術都來自從頭 基因組組裝,並且 DNA 組裝的大多數問題都適用於 RNA 組裝。然而,RNA-seq 從頭 序列組裝可以說比 DNA 版本更復雜。特別是,RNA-seq 組裝必須處理極不均勻的覆蓋深度(跨基因、亞型,甚至跨轉錄本的定位),具有高度序列同一性的保守基因家族,以及可變剪接。
典型工作流程與從頭 基因組組裝中描述的工作流程基本相同。以下是 RNA-seq 分析特有的要點
- 選擇協議
- 質量控制和資料過濾
- 調整表達水平引數
- 合併組裝
Velvet 和 Oases 可以一起使用來組裝從頭轉錄組。首先必須使用 velveth 生成雜湊表,然後使用 velvetg 組裝節點。最後,使用 Oases 將節點重新組裝成轉錄本、轉錄本變體和剪接連線點。可以使用能夠解釋轉錄本變體的對映軟體(例如 Tophat)將讀數映射回組裝以執行最終驗證步驟。
以下是一些命令示例[1]
./velveth NewDirectoryName(預設值為 Assem) 21 -shortPaired reads.fa
其中 21 等於雜湊長度,reads.fa 是一個成對的末端 fasta 檔案,其中反向讀數直接位於正向讀數之後。也可以使用 -separate 選項將成對的末端讀數輸入為兩個獨立的檔案
./velvetg NewDirectoryName -read_trkg yes
-read_trkg yes 選項必須開啟才能執行 Oases
./oases NewDirectoryName
Oases 的輸出將是 NewDirectoryName 目錄/transcripts.fa 目錄/splicing_events.txt 目錄/contig-ordering.txt 中的三個檔案。如果此組裝將用作參考來對映其他讀數,則目錄/transcripts.fa 應用作參考
組裝轉錄組本身也帶來了挑戰。這是因為讀數不是從所有基因中隨機取樣的,但來自表達量更高的基因的讀數會更多。
一些可能大多陣列裝都通用的步驟
- 在開始之前,確保你擁有合適的硬體,你可能需要超過 100 GB 的 RAM(見下文)
- 如果合理並且不會影響生物學:嘗試獲得鏈特異性 RNA
- 生成歸一化 cDNA 文庫可能會有所幫助
- 確保所有文庫的質量都很好,並且沒有主要問題(質量控制軟體)
- 在將資料提交到從頭組裝器之前,通常最好先清理資料,例如,修剪掉末端的錯誤鹼基或完全丟棄讀段。由於低質量鹼基更有可能包含錯誤,這些錯誤可能會使組裝過程複雜化,並可能導致更高的記憶體消耗。也就是說,例如 Trinity 可以在組裝之前使用 ALLPATHS-LG 的讀段校正模組。此外,請移除可能仍然存在的接頭或引物序列。 (修剪工具)
- 準備好擁有超過 5000 萬個讀段對用於哺乳動物(這是基於 Trinity 的出版物,其中 5260 萬個 76bp 的讀段對獲得了良好的結果。更多可能更好)。
- 在執行任何大型組裝之前,請仔細檢查您提供給組裝器的引數。
- 組裝後,通常建議檢查您的讀段資料與組裝的匹配程度,並可能視覺化資料 (組裝視覺化)
決策助手
[edit | edit source]這是基於個人經驗和文獻調查。特別是,搜尋了介紹新工具的原始出版物以進行比較(即使這些出版物可能經常偏向作者介紹的新工具)。此外,還查詢了比較轉錄組組裝器的稿件中的資料。
如果您使用 454 資料 => 使用基於 OLC 的組裝器,您可能會使用 Newbler 獲得非常好的結果。
如果您使用 Illumina 資料 => 如果您有資源,請嘗試使用 Trinity、Trans-AbySS 或 Velvet-Oases。哪種方法表現最佳取決於讀段長度、測序覆蓋率和轉錄組的複雜性。請參閱參考資料,瞭解以下組裝器的比較。
如果您有 CLC 流程並且沒有計算機經驗 => 這可能足夠好
軟體包
[edit | edit source]免費軟體
[edit | edit source]ABySS
[edit | edit source]AbySS 是一個從頭組裝器,它可以在多個節點上執行,它使用訊息解析介面 (MPI) 介面進行通訊。由於 AbySS 分佈任務,每個機器所需的 RAM 量更小,因此 Abyss 能夠處理大型基因組。對於轉錄組組裝,它通常與 Trans-ABySS 相結合。
- 優點
- 分散式介面可以使用叢集
- 缺點
- 速度相對較慢
MIRA
[edit | edit source]MIRA 是一種通用組裝器,可以整合各種平臺數據並執行真正的混合組裝。
- 優點
- 文件非常完善,並且有很多開關
- 可以組合不同的測序技術
- 資料質量可能相對較好
- 缺點
- 只有部分多執行緒,並且受技術影響,速度非常慢
- 可能不建議組裝更大的轉錄組
SOAP de novo
[edit | edit source]SOAPdenovo 是一種全能基因組組裝器。它被用於組裝大熊貓基因組。
- 優點
- SOAP de novo 使用中等數量的 RAM
- SOAP de novo 相對較快(可能是最快的免費組裝器)
- SOAP de novo 包含一個支架構建器和一個讀段校正器
- SOAP de novo 相對模組化(讀段校正器、組裝、支架構建、間隙填充)
- 缺點
- 構建重疊群的方式可能有點令人困惑。
- SOAP denovo 沒有專門用於轉錄組組裝的擴充套件
Trinity
[edit | edit source]Trinity 是三個程式的集合,它們完成三個不同的任務:Inchworm、Chrysalis 和 Butterfly。它最適合於鏈特異性資料。當 Trinity 的作者將其與 Trans-Abyss 和 SOAPdenovo 進行比較時,它在恢復完整的長度小鼠和酵母基因方面表現更好。Trinity 建議每個 100 萬個 Illumina 讀段對使用 1 GB RAM。Trinity 可以使用 ALLPATHS-LG 讀段校正器。但是,這需要安裝 ALLPATHS。
- 優點
- 生成非常好的轉錄組組裝
- 缺點
- 需要時間,組裝器 Inchworm(第一步)在多執行緒方面沒有太多收益
Velvet-Oases
[edit | edit source]Velvet 對轉錄組組裝的看法是 Oases。在論壇中 這裡 討論了 Velvet。
- 優點
- Oases 是最敏感和準確的從頭轉錄組組裝器之一
- Oases 包含一個模組,用於將多個單 k 組裝合併為一個
- Oases 使用者可以透過 Oases 郵件列表 [1] 快速獲得答案。
- Oases 支援多種輸入資料型別和格式
- 缺點
- 根據 velvet/oases 郵件列表,組裝 2 億個大約 100bp 的雙端讀段可能需要高達 200GB 的 RAM。[2] 但是,絕對記憶體消耗是轉錄組複雜性的函式,難以先驗估計。
商業軟體
[edit | edit source]CLC cell
[edit | edit source]CLC 組裝單元是 CLC 釋出的商業組裝器。它很可能基於 kmer 方法。
- 優點
- CLC 使用很少的 RAM
- CLC 速度很快
- 缺點
- CLC 不是免費的
Newbler
[edit | edit source]Newbler 是羅氏公司釋出的組裝器。
- 優點
- Newbler 已用於許多組裝專案
- Newbler 似乎能夠產生良好的 N50 值
- Newbler 通常比較精確
- Newbler 通常是免費提供的
- 缺點
- Newbler 專為(主要是)454 資料量身定製。雖然它可以容納一些有限的 Illumina 資料,正如生物資訊學家 Lex Nederbragt 所描述的[3],但對於更大的資料集來說,這是不可能的。
- 由於 Newbler 至少部分使用了 OLC 方法,因此大型組裝可能需要時間
進一步閱讀資料
[edit | edit source]- 背景
- Martin 和 Wang 2011 關於轉錄組組裝的綜述
- 原始出版物
- Chevreaux 等人,2004 mira
- Simpson 等人,2009 ABySS
- Zerbino 和 Birney,2008 Velvet
- Robertson 等人,2011 Trans-ABySS
- Grabherr 等人,2011 Trinity
- Schulz 等人 2012 Oases
- 454 資料的比較
- Kumar 和 Baxter 2010 發現,對於 454 資料,在 CAP3、MIRA、Newbler、SeqMan 和 CLC 等組裝器中,Newbler 在他們的測試資料集中表現最佳
- Garg 等人,2011 再次使用 454 資料,發現短讀拼接程式 **Velvet 和 ABySS 表現較差**,而 **CLC 的效能幾乎與 MIRA、Newbler v2.3、Newbler v2.5p1、CAP3 和 TGICL 相當**。有趣的是,Newbler v2.3 的效能可能比更新的版本 2.5p1 更好。
- Mundry 等人,2012 對模擬的 454 資料比較了 CAP3、MIRA、Newbler 和 Oases 拼接程式。
- 比較 Illumina 資料
- Zaho 等人,2011 對三個不同的 RNA-seq 資料集比較了 SOAPdenovo、ABySS、Trinity 和 Oases,分析了合併不同單 k 拼接的影響。
- ↑ Zerbino, D. (2008 年 8 月 29 日). "Velvet 手冊 - 版本 1.1" (PDF). NIH HPC 組. 從 原始位置 (PDF) 存檔於 2015 年 9 月 14 日. 檢索於 2016 年 5 月 4 日.
- ↑ Martin, J. (2011 年 6 月 10 日). "(Oases-users) 記憶體需求". Oases-users 郵件列表. 歐洲生物資訊學研究所. 檢索於 2016 年 5 月 4 日.
- ↑ Nederbragt, L. (2011 年 1 月 21 日). "Newbler 輸入 II:來自其他平臺的測序讀數". 讀取、重疊群和支架的集合. 檢索於 2016 年 5 月 4 日.