下一代測序 (NGS)/簡介
- 前四章是對生物資訊學和特別是 NGS 的廣泛概念的概括性介紹。它們是“必備先決條件”,將在本書的其餘部分中被引用。
- 在簡介中,我們對該領域進行了幾乎完整的概述,從測序技術、其特性、優勢和劣勢開始,涵蓋它們可以檢測的各種生物過程,最後以關於常見測序術語的部分結束。最後,我們以典型測序工作流程的概述結束。
- 在大資料中,我們處理了一些在處理典型 NGS 資料量時出現的(也許意想不到的)困難。從在世界各地運送硬碟驅動器,到您計算機中需要多少記憶體才能在資料到達時組裝資料,這些問題往往會讓新手感到意外。我們將深入瞭解為解決這些問題而開發的檔案格式、存檔和演算法。
- 在外部的生物資訊學中,我們將討論生物資訊學家使用的介面。我們將介紹帶有文字介面和閃爍游標的命令列,但也介紹了專門為生物資訊學管道開發的更友好的圖形使用者介面 (GUI)。
- 在預處理中,我們將討論控制 NGS 資料集質量和清除低質量資料的最佳實踐。
- 接下來的五章描述了可以使用參考基因組序列進行的分析,假設有一個可用。
- 在比對中,我們將討論如何將一組讀取對映到參考資料集。
- 在DNA 變異中,我們將描述如何使用對映讀取來呼叫變異(無論是 SNV、CNV 還是斷點)。
- 在RNA中,我們將解釋如何從對映的 RNA-seq 讀取中確定外顯子、異構體和基因表達水平。
- 在表觀遺傳學中,我們將描述用於確定表觀遺傳特徵(如組蛋白或 CpG 甲基化)的拉下測定。
- 在染色質結構中,我們將討論用於確定染色質結構的技術,例如組蛋白的放置或當 DNA 位於細胞核中時不同染色體區域的物理鄰近性。
- 最後,最後兩章將描述在沒有參考基因組的情況下進行的分析。
- 從頭組裝將描述如何從 NGS 讀取中組裝基因組。
- 從頭 RNA 組裝將解釋如何僅從 NGS 讀取中組裝轉錄組。
NGS 平臺採用不同的技術來解碼 DNA 中核苷酸的身份,或檢測核苷酸上的甲基化等共價修飾。
NGS 平臺發展迅速。通常,新技術和平臺會在基因組生物學和技術進步 (AGBT) 大會上釋出[1]
出於教育目的,一些 2011 年發表的 NGS 平臺綜述[2]。在此處閱讀有關測序技術的更多資訊 此處
FASTA 格式,通常用字尾 .fa 或 .fasta 表示,是一種簡單易懂的人類可讀格式。通常,每個檔案包含一組序列,其中每個序列由一行標題表示,以“>”字元開頭,後跟相應的核苷酸序列,以多行常規寬度(通常為 60 或 80 個字元寬)顯示。在實踐中,某些工具可能會生成一個帶有標題和單行長序列的序列。有關更詳細的資訊,請參閱 FASTA 維基百科頁面。
FASTQ 是一種文字檔案格式(人類可讀),每個序列提供 4 行資料。
- 序列識別符號
- 序列
- 註釋
- 質量得分
FASTQ 格式通常用於儲存測序讀取,特別是來自 Illumina 和 Ion Torrent 平臺的讀取。
配對端讀取可以儲存在一個 FASTQ 檔案(交替)中或兩個不同的 FASTQ 檔案中。配對端讀取的序列識別符號可能分別以“/1”和“/2”結尾。
一個 Illumina 讀取的示例 FASTQ 條目
@EAS20_8_6_1_3_1914/1 CGCGTAACAAAAGTGTCTATAATCACGGCAGAAAAGTCCACATTGATTATTTGCACGGCGTCACACTTTGCTATGCCATAGCATTTTTATCCATAAGATT + HHHHHHHHHFHGGHHHHHHHHHHHHHHHHHHHHEHHHHHHHHHHHHHHGHHHGHHHGHIHHHHHHHHHHHHHHHGCHHHHFHHHHHHHGGGCFHBFBCCF
通常,FASTQ 檔案儲存在以 .fq 或 .fastq 為字尾的檔案中,使用 Gzip 檔案壓縮,以 .gz 或 .gzip 為字尾表示。
有關更詳細的資訊,請參閱 FASTQ 維基百科頁面。
SFF 是一種二進位制檔案格式,用於編碼來自 454 平臺的測序讀取。
http://en.wikipedia.org/wiki/Standard_Flowgram_Format
用於編碼短讀取比對的檔案格式。有關更多資訊,請參閱 下一代測序 (NGS)/比對。
FASTG 是一種新興的基因組組裝檔案格式,它考慮了模糊性。FASTG 類似於 FASTA,但 G 代表“圖”。
變異呼叫格式 (VCF) 是生物資訊學中用於儲存基因序列變異的規範。有關更多資訊,請參見 [1]。
截至 2013 年 2 月,第二代測序平臺的讀取長度短於傳統的桑格測序,這給讀取比對和組裝帶來了挑戰。
- 使用最廣泛的 Illumina 平臺可以產生高達 250bp 的讀取長度。在實踐中,全球研究人員大多可以訪問約 100bp 的讀取長度。
- Ion Torrent:變化很大,通常峰值為 400bp
- SOLiD:50-75bp
- 單端讀取表示序列片段僅從一個方向進行測序。
- 在配對末端測序中,單個片段從 5' 端和 3' 端進行測序,產生正向和反向讀取。測序的片段可以透過一定數量的鹼基(內部插入大小)分隔開,或者可以重疊,在合併後產生一個連續的更長的單端片段。配對末端讀取的使用可以提高讀取比對到參考基因組的準確性。典型的片段大小(外部插入大小)為 200bp 至 500bp
匹配對與配對末端在測序文庫構建方式上有所不同。在匹配對測序中,選擇 2-5kb 的片段並從兩端進行測序,從而提供關於相距較遠的核苷酸如何連線在一起的資訊。匹配對更適合於研究基因組結構重排,並有助於從頭基因組組裝。它們還有助於在更寬的 SV 尺寸範圍內以及基因組的重複區域中進行靈敏的結構變異 (SV) 檢測。
顏色空間是由 Life Tech 商業化的 2-鹼基編碼系統,並用於 SOLiD 平臺。技術概述見 此處。
質量分數表示鹼基呼叫錯誤的機率。質量分數用於 FASTQ 格式。
有多種編碼方案可用,包括最常見的 [Phred 質量分數]。
查詢腫瘤細胞中的突變。
使用逆轉錄重建轉錄組(基於基因組或從頭),以便研究人員可以計算有多少讀取與轉錄組的註釋部分比對。這用於比較彼此差異顯著的樣本中的基因表達,並構建生物體的生化途徑。
染色質免疫沉澱測序 (ChIP-seq) 是一種用於分析蛋白質與 DNA 相互作用的方法。ChIP-seq 將染色質免疫沉澱 (ChIP) 與大規模平行 DNA 測序相結合,以識別 DNA 相關蛋白的結合位點。它可用於精確繪製任何感興趣蛋白的全域性結合位點。以前,ChIP-on-chip 是研究這些蛋白質-DNA 關係最常用的技術。