下一代測序 (NGS)/從頭基因組組裝 (方法)

目標

從頭基因組組裝生成一個基因組參考。根據生物學問題，可能需要考慮不同的特徵。

較高的參考連貫性意味著更大的組裝序列，從而可以進行某些型別的下游分析。
參考完整性
參考準確性

概述

下一代測序儀產生的短讀段導致人們越來越需要能夠組裝生成的龐大數量的短讀段。這不是一個簡單的問題，因為讀段的數量之多使得幾乎不可能使用例如重疊-佈局-一致性 (OLC) 方法，該方法曾用於更長的讀段。因此，大多數可用的能夠處理Illumina生成的典型資料的組裝器都使用基於de Bruijn圖的k-mer方法。

必須根據要組裝的基因組的大小進行明確區分。

小（例如細菌基因組：幾兆鹼基）
中等（例如低等植物基因組：幾百兆鹼基）
大（例如哺乳動物和植物基因組：吉位元組）

所有從頭組裝器都能夠處理小型基因組，並且如果測序文庫質量良好，將產生相對較好的結果。即使對於中等大小的基因組，此處提到的大多數從頭組裝器以及許多其他組裝器也可能會表現良好併產生良好的組裝結果。也就是說，基於OLC的組裝器可能需要幾周時間才能組裝一個典型的基因組。當只有短讀段（例如Illumina讀段提供的讀段）時，大型基因組仍然難以組裝。使用Illumina讀段組裝這樣的基因組可能需要使用大約256 GB甚至512 GB RAM的機器，除非願意使用小型叢集（ABySS，Ray，Contrail），或投資商業軟體（CLCbio_Genomics_Workbench）。

有用背景

生物學問題

生成參考序列並不能解決許多有趣的生物學問題，但將為各種下游分析提供基礎。

輸入和輸出

輸入

基因組序列

輸出

組裝的參考序列
組裝指標
- 連貫性統計
- 完整性指標
- 準確性指標

實驗設計

像任何專案一樣，一個好的從頭組裝始於適當的實驗設計。必須考慮生物學、實驗、技術和計算問題。

生物學問題：關於基因組有哪些已知資訊？
- 它有多大？顯然，更大的基因組需要更多的材料。
- 重複複製的頻率、長度和保守性如何？更多重複的基因組可能需要更長的讀段或長距離配對來解析結構。
- 它的AT含量是富集還是缺乏？據說具有強烈AT/GC不平衡（無論哪種方式）的基因組具有低資訊含量。換句話說，虛假的序列相似性會更加頻繁。
- 它是單倍體、二倍體還是多倍體？目前基因組組裝器最擅長處理單倍體樣本，有些可以提供帶有註釋雜合位點的單倍體組裝。多倍體基因組（例如植物）仍然存在很大問題。

實驗問題：可以使用哪些樣本材料？
- 是否可以提取大量DNA？如果只有少量材料，則可能需要擴增樣本（例如使用MDA），從而引入偏差。
- 該DNA來自單個細胞、克隆群體還是異質細胞集合？樣本中的多樣性可以產生或多或少的噪聲，不同的組裝器對噪聲的處理方式不同。

技術問題：使用哪些測序技術？
- 每種技術的成本是多少？
- 序列質量如何？噪聲越大，需要更多的覆蓋深度來校正錯誤。
- 讀段長度如何？讀段越長，它們在消除重複序列方面就越有用。
- 能否以經濟高效且可靠的方式生成配對讀段？如果是，片段長度是多少？與長讀段一樣，可靠的長距離配對可以幫助消除重複序列並構建組裝的支架。
- 能否使用混合方法？例如，將短而便宜的讀段與長而昂貴的讀段混合。

計算問題：執行哪些軟體？
- 它們需要多少記憶體？此標準可能是最終標準，因為如果計算機沒有足夠的記憶體，它要麼崩潰，要麼在硬碟上交換資料時速度會大幅下降。
- 它們的速度有多快？此標準通常不太嚴格，因為在完整的基因組組裝和註釋專案中，組裝時間通常較小。但是，有些軟體的擴充套件性比其他軟體更好。
- 它們是否需要特定的硬體？（例如大型記憶體機器或機器叢集）
- 它們有多健壯？它們容易崩潰嗎？它們得到良好的支援嗎？
- 它們安裝和執行是否容易？
- 它們是否需要特殊的協議？它們能否處理所選的測序技術？

方法的典型步驟

無論基因組組裝專案的大小如何，通常都可以將其劃分為幾個階段

實驗設計
樣本採集
樣品製備
測序
預處理
組裝
組裝後分析

後續步驟

討論該方法導致的結果。

工作流程

Galaxy工作流程示例

指向給定Galaxy例項上該方法的Galaxy工作流程示例（包括示例資料集）或描述該工作流程的XML文件的連結。

命令列工作流程示例

討論

關鍵考慮因素

如果在合理範圍內並且不會影響生物學：嘗試獲取單倍體或至少大部分純合個體的DNA。
確保所有文庫在質量方面都非常好，並且沒有主要問題（例如，使用FastQC）。
對於配對末端資料，您可能還想根據草圖組裝或已經生成的組裝來估計插入大小。
在將資料提交到從頭組裝程式之前，通常最好先清理資料，例如修剪掉末端的壞鹼基和/或完全丟棄讀取。由於低質量鹼基更有可能包含錯誤，因此這些錯誤可能會使組裝過程複雜化，並可能導致更高的記憶體消耗。（更多並不總是更好）也就是說，一些通用短讀組裝程式，如SOAP de-novo和ALLPATHS-LG，可以在組裝前執行讀取校正。
在執行任何大型組裝之前，請仔細檢查您提供給組裝程式的引數。
組裝後，通常建議檢查您的讀取資料與組裝的匹配程度，以及是否存在任何問題區域。
如果您執行基於de Bruijn圖的組裝，您將需要嘗試不同的k-mer大小。雖然對於任何單個組裝都沒有經驗法則，但如果讀取沒有錯誤，較小的k-mer會導致更復雜的圖。較大的k-mer大小會產生不太複雜的圖，前提是讀取沒有錯誤。但是，較低的k-mer大小可能更能抵抗測序錯誤。而過大的k可能不會在圖中產生足夠的邊，因此會導致小的重疊群。

選擇軟體工具

這基於個人經驗以及已發表的研究。但請注意，基因組是不同的，軟體包也在不斷發展。

《自然》雜誌報道了一項使用合成二倍體基因組組裝的Assemblathon挑戰，將SOAP de novo、Abyss和ALLPATHS-LG評為獲勝者。

但是，結果網站http://assemblathon.org/assemblathon-1-results上的一個討論指出，SOAP de novo、sanger-sga和ALLPATHS-LG始終處於最佳效能之列，用於此合成基因組。

我想組裝

主要是454或Ion Torrent資料
- 小型基因組=>MIRA、Newbler
- 所有其他使用Newbler
混合資料（454和Illumina）
- 小型基因組=>MIRA，但也嘗試其他工具
- 中型基因組=>沒有明確的建議
- 大型基因組，使用ALLPATHS-LG和SOAP組裝Illumina資料，新增其他讀取或用於支架構建
主要是Illumina（或顏色空間）
- 小型基因組=>MIRA、velvet
- 中型基因組=>沒有明確的建議
- 大型基因組，使用ALLPATHS-LG和SOAP組裝Illumina資料，新增其他讀取或用於支架構建

（對於大型基因組，這是基於以下事實：很少有組裝程式可以處理大型基因組，並且基於Assemblathon的結果。對於454資料，這是基於Newbler的良好總體效能以及MIRA的不同輸出、其多功能性和基於de Bruijn的方法可能效果更差的理論考慮。）

組裝後，您可能希望嘗試使用SEQuel軟體來提高組裝質量。

我想以最低成本啟動一個大型基因組專案

使用具有ALLPATHS-LG規範（即重疊）的Illumina讀取，這些讀取也適用於例如SOAP de novo。

（此建議基於Assemblathon的結果、原始ALLPATHS出版物（Gnerre等人，2011）以及使用ALLPATHS組裝擬南芥基因組的出版物（Schneeberger等人，2011）。

每個軟體都有其自身的優勢，如果您有特定需求，Assemblathon的結果將指導您。另一個比較網站GAGE也釋出了其比較結果（Salzberg等人，2011）。此外，還存在用於評估基因組組裝質量的QUAST工具。

指向BioStar上相關討論的連結：模板：Biostar