跳轉到內容

下一代測序 (NGS)/從頭組裝

來自華夏公益教科書,開放的書籍,開放的世界
下一代測序 (NGS)
染色質結構 從頭基因組組裝 從頭 RNA 組裝

從頭組裝

[編輯 | 編輯原始碼]

下一代測序儀產生的短讀序列,導致對組裝大量短讀序列的需求不斷增加。這不是一個簡單的問題,因為大量的讀序列使得使用例如過去用於較長讀序列的重疊佈局共識 (OLC) 方法變得幾乎不可能。因此,大多數可用的組裝器能夠處理由 Illumina 產生的典型資料,使用基於 de Bruijn 圖的 k-mer 方法。

必須根據要組裝的基因組的大小做出明確的區分。

  • 小 (例如細菌基因組:幾兆鹼基)
  • 中等 (例如低等植物基因組:幾百兆鹼基)
  • 大 (例如哺乳動物和植物基因組:吉鹼基)

所有從頭組裝器都能夠處理小型基因組,並且在提供合理的測序文庫的情況下,將產生相對較好的結果。即使對於中等大小的基因組,這裡提到的大多數從頭組裝器以及許多其他組裝器,都可能表現良好併產生一個不錯的組裝。也就是說,基於 OLC 的組裝器可能需要數週時間才能組裝一個典型的基因組。當只有短讀序列 (例如 Illumina 讀取提供的) 時,大型基因組仍然很難組裝。使用 Illumina 讀取組裝這樣的基因組,可能需要使用大約 256 GB 甚至 512 GB RAM 的機器,除非願意使用小型叢集 (ABySSRayContrail),或者投資商業軟體 (CLCbio_Genomics_Workbench)。

典型工作流程

[編輯 | 編輯原始碼]
WGS 從頭組裝過程概述

無論基因組組裝專案的大小如何,通常都可以將其劃分為幾個階段。

  1. 實驗設計
  2. 樣本收集
  3. 樣本準備
  4. 測序
  5. 預處理
  6. 組裝
  7. 組裝後分析

實驗設計

[編輯 | 編輯原始碼]

與任何專案一樣,一個好的從頭組裝從適當的實驗設計開始。必須考慮生物學、實驗、技術和計算問題。

  • 生物學問題:關於基因組我們瞭解多少?
    • 它有多大?顯然,更大的基因組需要更多材料。
    • 重複序列的頻率、長度和保守性如何?重複性更高的基因組可能需要更長的讀序列或長距離配對讀取,以解析結構。
    • 它有多富含 AT/貧含 AT?據說,AT/GC 嚴重不平衡(無論哪種方式)的基因組具有較低的資訊含量。換句話說,虛假序列相似性將更加頻繁。
    • 它是單倍體、二倍體還是多倍體?目前,基因組組裝器最擅長處理單倍體樣本,有些組裝器提供帶有註釋雜合位點的單倍體組裝。多倍體基因組(例如植物)仍然存在很大問題。
  • 實驗問題:有哪些樣本材料可用?
    • 是否可以提取大量 DNA?如果只有少量材料,可能需要擴增樣本(例如使用 MDA),從而引入偏差。
    • 該 DNA 來自單個細胞、克隆群體還是異質細胞集合?樣本中的多樣性可以或多或少地產生噪聲,不同的組裝器對噪聲的處理方式不同。
  • 技術問題:使用哪些測序技術?
    • 每種技術的成本是多少?
    • 序列質量如何?噪聲越大,需要越多的覆蓋深度才能糾正錯誤。
    • 讀序列有多長?讀序列越長,它們對消除重複序列就越有用。
    • 可以以成本效益高且可靠的方式產生配對讀取嗎?如果是,片段長度是多少?與長讀序列一樣,可靠的長距離配對可以幫助消除重複序列並構建組裝。
    • 可以使用混合方法嗎?例如短讀序列和便宜的讀序列混合使用。
  • 計算問題:使用哪些軟體?
    • 它們需要多少記憶體?這個標準可能是最終的,因為如果一臺計算機沒有足夠的記憶體,它要麼會崩潰,要麼會隨著資料在硬碟上不斷交換而速度大幅下降。
    • 它們有多快?這個標準通常不太嚴格,因為組裝時間在完整的基因組組裝和註釋專案中通常是微不足道的。但是,有些組裝器比其他組裝器更能擴充套件。
    • 它們是否需要特定硬體?(例如大型記憶體機器或機器叢集)
    • 它們有多穩健?它們容易崩潰嗎?它們得到很好的支援嗎?
    • 它們安裝和執行有多容易?
    • 它們是否需要特殊協議?它們可以處理選定的測序技術嗎?

一些可能對大多陣列裝都通用的步驟

  1. 如果在合理的範圍內並且不會干擾生物學:嘗試從單倍體或至少大部分純合個體獲得 DNA。
  2. 確保所有文庫在質量方面都很好,並且沒有任何重大問題(例如使用 FastQC)
  3. 對於配對末端資料,您可能還需要根據草圖組裝或已經完成的組裝來估計插入大小。
  4. 在將資料提交到從頭組裝器之前,通常最好清理資料,例如修剪掉末端的壞鹼基和/或完全刪除讀取。由於低質量鹼基更有可能包含錯誤,這些錯誤可能會使組裝過程複雜化,並可能導致更高的記憶體消耗。(更多並不總是更好)也就是說,一些通用短讀序列組裝器,例如 SOAP 從頭組裝和 ALLPATHS-LG,可以在組裝之前執行讀取校正。
  5. 在執行任何大型組裝之前,仔細檢查提供給組裝器的引數。
  6. 組裝後,通常建議檢查讀取資料與組裝的匹配程度,以及是否存在任何有問題的區域。
  7. 如果執行基於 de Bruijn 圖的組裝,您將希望嘗試不同的 k-mer 大小。雖然沒有適用於任何單個組裝的經驗法則,但如果讀取序列沒有錯誤,則較小的 k-mer 會導致更復雜的圖。較大的 k-mer 大小會在沒有錯誤的讀取序列的情況下產生不太複雜的圖。但是,較低的 k-mer 大小可能會更能抵抗測序錯誤。而過大的 k 可能會導致圖中沒有足夠的邊,因此會導致小的重疊群。

資料預處理

[編輯 | 編輯原始碼]

有關更詳細的討論,請參見專門針對預處理的一章。

資料預處理包括過濾資料以去除錯誤,從而簡化組裝工作。雖然大多陣列裝器都集成了錯誤校正例程,但過濾讀數通常可以大大減少組裝所需的時間和記憶體開銷,並可能改善結果。

基因組組裝

[編輯 | 編輯原始碼]

基因組組裝是指將大量短於實際基因組的測序讀數集合,構建一個可能是所有這些片段來源的基因組序列。什麼是可能的基因組通常取決於啟發式演算法和可用的資料。首先,根據簡約性,基因組必須儘可能短。可以將所有讀數簡單地連線起來形成所有序列的連線,但這並不簡約。其次,基因組必須包含儘可能多的輸入資料。最後,基因組必須儘可能滿足實驗資料。通常,預計配對末端讀數將以給定的相對方向和給定的距離彼此對映到基因組上。

組裝器的輸出通常分解為 重疊群,即幾乎完全解析的基因組連續區域,以及支架,即彼此之間大致定位和定向的一組重疊群。

有許多組裝器可用(有關詳細資訊,請參閱維基百科關於 序列組裝 的頁面)。以下是一些教程,介紹如何使用其中的一些組裝器。

比較組裝的技巧

[編輯 | 編輯原始碼]

一旦生成多個基因組組裝,就需要對其進行評估。[1][2][3] 當前方法包括

  • N50(重疊群或支架的長度)[4]
  • 用於生成組裝的讀數的對映[5][6][7][8][9][10]
  • 基於進化預期存在的,識別和計數高度保守的基因[11]
  • 將轉錄本對映到基因組組裝[12]

組裝後分析

[編輯 | 編輯原始碼]

一旦獲得基因組,就可以進行許多分析,甚至可以說是必要的。

  • 質量控制
  • 與其他組裝比較
  • 變異檢測
  • 註釋

建立資料集

[編輯 | 編輯原始碼]

免費軟體

[編輯 | 編輯原始碼]

ABySS 是一種可以跨多個節點執行的從頭組裝器,它使用訊息解析介面 (MPI) 介面進行通訊。由於 ABySS 分散式處理任務,每臺機器所需的 RAM 量較小,因此 ABySS 能夠處理大型基因組。有關教程,請 點選這裡

  • 優點
    • 分散式介面,可以使用叢集
    • 可以使用相對較少的每計算節點 RAM 來組裝大型基因組。人類基因組是在擁有 16GB RAM 的 21 個節點上組裝的。
  • 缺點
    • 速度相對較慢
Allpaths-LG
[編輯 | 編輯原始碼]

Allpath-LG 是一種需要專門庫的新型組裝器。該軟體的作者將 ALLPATH-LG 與 SOAP-denovo 進行了基準測試,ALLPATH-LG 報告了更優異的效能。但是必須注意,由於時間限制,他們可能沒有對其中一個數據集使用 SOAP-denovo 填補間隙模組。這可能會改善 SOAP 組裝的連續序列長度。在我們自己的實驗中(usadellab),我們看到了類似的良好 N50 結果[13],並且還報告了 ALLPATHS-LG 擬南芥 組裝的良好 N50 值。同樣,ALLPATHS-LG 在 Assemblathon 中也被評為表現出色。

  • 優點
    • 執行時間相對較快(比 SOAP 慢)
    • 良好的支架長度(可能比 SOAP 更好)
    • 可以使用長讀數(例如 PAC Bio),但僅適用於小型基因組
  • 缺點
    • 需要專門定製的庫
    • 大型基因組(哺乳動物大小)需要大量的 RAM。儘管出版物估計約 512GB 就足夠了
    • 比 SOAP 慢
Euler SR USR
[編輯 | 編輯原始碼]

EULER 是一種包含錯誤校正模組的組裝器。

  • 優點
    • 具有錯誤校正模組
  • 缺點

MIRA 是一種通用組裝器,可以整合各種平臺數據並執行真正的混合組裝。

  • 優點
    • 文件非常完善,並且有許多開關
    • 可以組合不同的測序技術
    • 可能是相對高質量的資料
  • 缺點
    • 僅部分多執行緒,因此由於技術原因速度較慢
    • 可能不建議組裝較大的基因組

Ray 是一種專門針對細菌基因組、宏基因組和病毒基因組的分散式可擴充套件組裝器。

教程請 點選這裡

  • 優點
    • 可擴充套件性(使用 MPI)
    • 正確性
    • 可用性
    • 文件完善
    • 響應式郵件列表
    • 可以組合不同的測序技術
    • 基於 de Bruijn 圖
  • 缺點
SOAP de novo
[編輯 | 編輯原始碼]

SOAPdenovo 是一種通用基因組組裝器。它被用於組裝大熊貓基因組。有關教程,請 點選這裡

  • 優點
    • SOAP de novo 使用中等量的 RAM
    • SOAP de novo 速度相對較快(可能是速度最快的免費組裝器)。
    • SOAP de novo 包含一個支架和一個讀數校正器。
    • SOAP de novo 模組化程度較高(讀數校正器、組裝、支架、間隙填充)。
    • SOAP de novo 在處理非常短的讀數方面效果良好[14]
  • 缺點
    • 構建重疊群的方式可能有點令人困惑。
    • 需要相對較大的 RAM 量,BGI 聲稱約為 150GB(雖然低於 ALLPATHS)。
SPAdes
[edit | edit source]

SPAdes 是一種單細胞基因組組裝器。

  • 優點
    • SPAdes 在處理高度不均勻覆蓋率方面效果良好(例如,在使用多重置換擴增後)。
    • SPAdes 使用中等量的 RAM。
    • SPAdes 速度相對較快。
    • SPAdes 包含錯誤校正軟體 BayesHammer。
    • SPAdes 具有支架(版本 2.3+)。
  • 缺點
    • SPAdes 只對細菌基因組進行了充分測試。
    • SPAdes 只適用於 Illumina 讀數。
Velvet
[edit | edit source]

請檢視 此處,瞭解使用 Velvet 建立組裝的教程。

  • 優點
    • 易於安裝,穩定。
    • 易於執行。
    • 快速(多執行緒)。
    • 可以接收長讀數和短讀數,適用於 SOLiD 顏色空間讀數。
    • 可以使用參考基因組來錨定通常對映到重複區域的讀數(哥倫布模組)。
  • 缺點
    • 對於大型基因組,Velvet 可能需要大量的 RAM,對於人類基因組,可能需要 > 512 GB(如果可能的話)。這是基於 Simon Gladman[15] 為較小基因組推導的近似公式:-109635 + 18977*ReadSize + 86326*GenomeSize(以 MB 為單位) + 233353*NumReads(以百萬為單位) - 51092*Kmersize。
Minia
[edit | edit source]

Minia 是一種 de Bruijn 圖組裝器,針對非常低的記憶體使用量進行了最佳化。

  • 優點
    • 能夠在適度的資源上快速組裝非常大的基因組。
    • 易於安裝和執行。
  • 缺點
    • 僅適用於 Illumina 資料。
    • 不執行任何支架。
    • 某些步驟是 I/O 密集型的,即應使用本地硬碟而不是網路驅動器。

商業

[edit | edit source]
CLC cell
[edit | edit source]

CLC 組裝單元是 CLC 釋出的商業組裝器。它基於 de Bruijn 圖方法。

  • 優點
    • CLC 使用非常少的 RAM。
    • CLC 速度非常快。
    • CLC 包含一個支架(版本 4.0+)。
    • CLC 可以組裝來自大多數常見測序平臺的資料。
    • 在 Linux、Mac 和 Windows 上執行。
  • 缺點
    • CLC 不是免費的。
    • 根據我們自己的植物資料,CLC 在摺疊重複方面可能更為寬鬆。
Newbler
[edit | edit source]

Newbler 是羅氏公司釋出的組裝器。

  • 優點
    • Newbler 已被用於許多組裝專案。
    • Newbler 似乎能夠產生良好的 N50 值。
    • Newbler 通常比較精確。
    • Newbler 通常可以免費獲得。
  • 缺點
    • Newbler 主要針對 454 資料。由於 Ion Torrent PGM 資料具有類似的錯誤特徵(主要是錯誤呼叫同聚物重複序列),因此它也可能是一個不錯的選擇。雖然它可以容納一定量的 Illumina 資料,正如生物資訊學家 Lex Nederbragt[16] 所述,但這對於大型資料集來說是不可能的。火蟻基因組[17] 在“偽”454 讀數形式中添加了約 40x Illumina 資料到約 15x 454 覆蓋率:首先使用 SOAPdenovo 組裝 Illumina 資料,然後將獲得的重疊群切成重疊的 300bp 讀數,最後將這些偽 454 讀數與真實 454 資料一起輸入 Newbler。
    • 由於 Newbler 至少部分使用 OLC 方法,因此大型組裝可能需要時間。

決策助手

[edit | edit source]

這基於個人經驗以及已發表的研究。但請注意,基因組是不同的,軟體包也在不斷發展。

一項使用合成二倍體基因組組裝的 Assemblathon 挑戰賽被 Nature 報道,SOAP de novo、Abyss 和 ALLPATHS-LG 被評為獲勝者。[18]

然而,Assemblethon 網站上的一個演講將 SOAP de novo、sanger-sga 和 ALLPATHS-LG 稱為該合成基因組的最佳執行者[19]

我想組裝

  • 主要是 454 或 Ion Torrent 資料
    • 小型基因組 => MIRA、Newbler
    • 所有其他使用 Newbler
  • 混合資料(454 和 Illumina)
    • 小型基因組 => MIRA,但也要嘗試其他組裝器
    • 中等基因組 => 沒有明確的建議
    • 大型基因組,使用 ALLPATHS-LG 和 SOAP 組裝 Illumina 資料,新增其他讀數或使用它們進行支架
  • 主要是 Illumina(或顏色空間)
    • 小型基因組 => MIRA、velvet
    • 中等基因組 => 沒有明確的建議
    • 大型基因組,使用 ALLPATHS-LG 和 SOAP 組裝 Illumina 資料,新增其他讀數或使用它們進行支架

(對於大型基因組,這是基於這樣一個事實:沒有多少組裝器可以處理大型基因組,並且基於 assemblathon 的結果。對於 454 資料,這是基於 Newbler 的良好通用效能以及 MIRA 的不同輸出、其多功能性以及 de Bruijn 基於方法可能表現更差的理論考慮。)

組裝完成後,您可能想嘗試使用 SEQuel 軟體來提高組裝質量。

我想以最低的成本啟動大型基因組專案

  • 使用 Illumina 讀數(符合 ALLPATHS-LG 規範,即重疊),這些讀數也可在 SOAP de novo 中使用。

(此建議基於 Assemblathon 的結果、原始 ALLPATHS 發表[20] 以及使用 ALLPATHS 對擬南芥基因組進行組裝的出版物。[13])。

每個軟體都有其獨特的優勢,如果您有特定的要求,Assemblathon 的結果將為您提供指導。另一個比較網站 GAGE 也釋出了其比較。[2]。此外,還存在用於評估基因組組裝質量的QUAST 工具。

案例研究

[edit | edit source]

進一步閱讀材料

[edit | edit source]
  • 比較
    • Ye et al., 2011 Sanger/PCAP、454/Roche 和 Illumina/SOAP 組裝的比較。Illumina/SOAP替換、刪除和插入率較低,但重疊群和支架 N50 大小低於 454/Newbler
    • Paszkiewicz et al., 2010 關於短讀組裝器的綜述。
    • Zhang et al., 2011 對不同基因組組裝器在模擬 Illumina 讀數資料上的深入比較。不幸的是,只測試了中等基因組。對於真核基因組短讀數,建議使用 Soap denovo,對於長讀數,建議使用 ALLPATHS-LG
    • Chapman JA et al. 2011 介紹了新的組裝器 Meraculous,收集了關於 E. coli K12 MG1655 組裝的文獻資料(適用於 Allpaths 2、Soapdenovo、Velvet、Euler-SR、Euler、Edena、AbySS 和 SSAKE)。Allpaths2重疊群和支架 N50 大小遠遠超過其他組裝器,並且除了 Meraculous 之外,它是唯一一個無錯誤組裝的組裝器。Meraculous 被證明甚至沒有錯誤
    • Liu 等人,2011 使用三個細菌資料集,將他們新的組裝器 PASHA 與 SOAP de novo (v 1.04)、velvet (1.0.17) 和 ABySS (1.2.1) 進行對比。雖然 PASHA 通常擁有最大的 NG50 和 NG80(使用真實基因組大小計算的 N50 和 N80),**但 SOAP de novo 生成的重疊群數量最多**,有時 NG50 和 NG80 較差。然而,對於一個數據集,**SOAP denovo 顯示出最佳的基因組覆蓋率**。
    • Assemblathon 基於一個合成基因組,比較了許多不同團隊的從頭基因組組裝結果。Assemblathon 1 競賽現已由 Earl 等人在《基因組研究》雜誌上發表[1]

參考資料集

[edit | edit source]

有關更多資訊,請點選此處

歐洲核苷酸檔案 (ENA) 採用三層資料架構。它整合了以下資訊:

  • EMBL-Bank。
  • 歐洲痕跡檔案:包含來自電泳測序儀的原始資料。
  • 序列讀取檔案:包含來自下一代測序平臺的原始資料。

有關更多資訊,請參閱SRA

序列讀取檔案 (SRA) 是:

  • 下一代測序讀取和比對 (BAM) 的主要歸檔庫。
  • 擴充套件以管理其他高通量資料,包括序列變異 (VCF)。
  • 很快也會接受毛細管測序讀取。
  • 透過與 NCBI 和 DDBJ 的 INSDC 資料交換,實現全球全面覆蓋。
  • 歐洲核苷酸檔案 (ENA) 的一部分。
  • 資料歸提交者所有,並是對出版物的補充。
  • 預期資料將公開並免費提供;不允許訪問/使用限制。
  • 支援出版前保密。
  • 提交到 EGA 的受控訪問資料。
  • 積極參與序列資料儲存和壓縮演算法/技術開發。

SRA 元資料模型

[edit | edit source]
  • 研究:測序研究描述。
  • 樣本:測序樣本描述。
  • 實驗/執行:主要讀取和比對資料。
  • 分析:二級比對和變異資料。
  • 專案:將研究組合在一起。
  • EGA DAC:資料訪問委員會。
  • EGA 策略:資料訪問策略。
  • EGA 資料集:受策略和 DAC 控制的資料集。

檢視資料集

[edit | edit source]

ENSEMBL

[edit | edit source]

Tablet

[edit | edit source]

IGV 是由 NCBI(美國國家生物技術資訊中心)開發的整合基因組瀏覽器。IGV 允許輕鬆瀏覽大規模基因組資料集,並支援整合基因組資料型別,例如比對的序列讀取、突變、複製數、干擾 RNA 篩選、基因表達、甲基化和基因組註釋。使用者可以放大特定區域,直至單個鹼基對,並且更一般地滾動瀏覽整個基因組。它可用於視覺化和共享整個基因組/參考基因組、比對、變異和感興趣區域,以及過濾、排序和分組基因組資料。

比較資料集

[edit | edit source]

全基因組比對

[edit | edit source]

參考文獻

[edit | edit source]
  1. a b Earl, D.; Bradnam, K.; St. John, J.; et al. (2011). "Assemblathon 1: A competitive assessment of de novo short read assembly methods". Genome Research. 21 (12): 2224–41. doi:10.1101/gr.126599.111. PMC 3227110. PMID 21926179. {{cite journal}}: Explicit use of et al. in: |author= (help)CS1 maint: PMC format (link) CS1 maint: multiple names: authors list (link)
  2. a b Salzberg, S.L.; Phillippy, A.M.; Zimin, A. 等人 (2012)。"GAGE:對基因組組裝和組裝演算法的批判性評估"Genome Research22 (3): 557–67。 doi:10.1101/gr.131383.111PMC 3290791PMID 22147368. {{cite journal}}: 在 |author= 中明確使用 et al. (幫助)CS1 maint: PMC 格式 (連結) CS1 maint: 多個名稱:作者列表 (連結)
  3. Bradnam, K.R.; Fass, J.N.; Alexandrov, A. 等人 (2013)。"Assemblathon 2:評估三種脊椎動物物種的基因組從頭組裝方法"GigaScience2 (1): 10。 doi:10.1186/2047-217X-2-10PMC 3844414PMID 23870653. {{cite journal}}: 在 |author= 中明確使用 et al. (幫助)CS1 maint: PMC 格式 (連結) CS1 maint: 多個名稱:作者列表 (連結)
  4. Mäkinen, V.; Salmela, L.; Ylinen, J. (2012)。"使用間隙限制共線性鏈的歸一化 N50 組裝指標"BMC Bioinformatics13: 255。 doi:10.1186/1471-2105-13-255PMC 3556137PMID 23031320.{{cite journal}}: CS1 maint: PMC 格式 (連結) CS1 maint: 多個名稱:作者列表 (連結)
  5. Ghodsi, M.; Hill, C.M.; Astrovskaya, I. 等人 (2013)。"從頭似然性方法用於比較基因組組裝"BMC Research Notes6: 334。 doi:10.1186/1756-0500-6-334PMC 3765854PMID 23965294. {{cite journal}}: 在 |author= 中明確使用 et al. (幫助)CS1 maint: PMC 格式 (連結) CS1 maint: 多個名稱:作者列表 (連結)
  6. Hunt, M.; Kikuchi, T.; Sanders, M. 等人 (2013)。"REAPR:基因組組裝評估的通用工具"Genome Biology14 (5): R47。 doi:10.1186/gb-2013-14-5-r47PMC 3798757PMID 23710727. {{cite journal}}: 在 |author= 中明確使用 et al. (幫助)CS1 maint: PMC 格式 (連結) CS1 maint: 多個名稱:作者列表 (連結)
  7. Phillippy, A.M.; Schatz, M.C.; Pop, M. (2008)。"基因組組裝取證:尋找難以捉摸的錯誤組裝"Genome Biology9 (3): R55。 doi:10.1186/gb-2008-9-3-r55PMC 2397507PMID 18341692.{{cite journal}}: CS1 maint: PMC 格式 (連結) CS1 maint: 多個名稱:作者列表 (連結)
  8. Rahman, A.; Pachter, L. (2013)。"CGAL:計算基因組組裝可能性"Genome Biology14 (1): R8。 doi:10.1186/gb-2013-14-1-r8PMC 3663106PMID 23360652.{{cite journal}}: CS1 maint: PMC 格式 (連結) CS1 maint: 多個名稱:作者列表 (連結)
  9. Vezzi, F.; Narzisi, G.; Mishra, B. (2012). "重新評估使用特徵響應曲線的組裝評估:GAGE 和組裝競賽". PLoS One. 7 (12): e52210. doi:10.1371/journal.pone.0052210. PMC 3532452. PMID 23284938.{{cite journal}}: CS1 maint: PMC 格式 (link) CS1 maint: 多個名稱:作者列表 (link)
  10. Howison, M.; Zapata, F.; Dunn, C.W. (2013). "走向對從頭測序組裝的統計學明確理解". 生物資訊學. 29 (23): 2959–63. doi:10.1093/bioinformatics/btt525. PMID 24021385.{{cite journal}}: CS1 maint: 多個名稱:作者列表 (link)
  11. Parra, G.; Bradnam, K.; Korf, I. (2007). "CEGMA:一個準確註釋真核生物基因組核心基因的流程". 生物資訊學. 23 (9): 1061–7. doi:10.1093/bioinformatics/btm071. PMID 17332020.{{cite journal}}: CS1 maint: 多個名稱:作者列表 (link)
  12. Ryan, J.F. (2014 年 2 月 7 日). "Baa.pl:一個使用 RNA 轉錄本評估從頭測序組裝的工具". 康奈爾大學圖書館. 檢索於 2016 年 5 月 4 日.
  13. a b Schneeberger, K.; Ossowski, S.; Ott, F. 等. (2011). "四個不同擬南芥基因組的參考引導組裝". PNAS. 108 (25): 10249–54. doi:10.1073/pnas.1107739108. PMC 3121819. PMID 21646520. {{cite journal}}: 在“|author=” 中顯式使用“et al.” (help)CS1 maint: PMC 格式 (link) CS1 maint: 多個名稱:作者列表 (link)
  14. Zhang, W.; Chen, J.; Yang, Y. 等. (2011). "從頭測序技術中從頭基因組組裝軟體工具的實際比較". 6 (3): e17915. doi:10.1371/journal.pone.0017915. PMC 3056720. PMID 21423806. {{cite journal}}: Cite journal 需要 |journal= (help); 在“|author=” 中顯式使用“et al.” (help); 忽略文字“journal PLoS One” (help)CS1 maint: PMC 格式 (link) CS1 maint: 多個名稱:作者列表 (link)
  15. Gladman, S. (2009 年 7 月 23 日). "(Velvet-users) Velvetg 執行時間". Velvet-users 郵件列表. 歐洲生物資訊學研究所. 檢索於 2016 年 5 月 4 日.
  16. Nederbragt, L. (2011 年 1 月 21 日). "Newbler 輸入 II:來自其他平臺的測序讀取". 讀取、重疊群和支架的組裝. 檢索於 2016 年 5 月 4 日.
  17. Wurm, Y.; Wang, J.; Riba-Grognuz, O.; 等 (2010). "入侵紅火蟻Solenopsis invicta的基因組". PNAS. 108 (14): 5679–84. doi:10.1073/pnas.1009690108. PMC 3078418. PMID 21282665. {{cite journal}}: 在“作者”引數中顯式使用“等”:|author= (幫助)CS1 maint: PMC 格式 (連結) CS1 maint: 多個名稱:作者列表 (連結)
  18. Hayden, E.C. (2011). "基因組構建者面臨競爭". 自然. 471 (7339): 425. doi:10.1038/471425a. PMID 21430748.
  19. "Assemblathon 1 結果". assemblathon.org. 加州大學戴維斯分校. 2011年6月1日. 檢索於 2016年5月4日.
  20. Gnerre, S.; Maccallum, I.; Przybylski, D. (2011). "從海量平行測序資料中獲得高質量哺乳動物基因組草圖". 美國國家科學院院刊. 108 (4): 1513–8. doi:10.1073/pnas.1017351108. PMC 3029755. PMID 21187386.{{cite journal}}: CS1 maint: PMC 格式 (連結) CS1 maint: 多個名稱:作者列表 (連結)
華夏公益教科書