跳轉到內容

下一代測序 (NGS)/DNA 變異

來自華夏公益教科書
下一代測序 (NGS)
比對 DNA 變異 RNA

DNA 變異

[編輯 | 編輯原始碼]

全基因組、外顯子組等。對下游分析的影響

[編輯 | 編輯原始碼]

典型工作流程

[編輯 | 編輯原始碼]

檔案格式

[編輯 | 編輯原始碼]

VCF 代表 變異呼叫格式。它是由 1000 基因組計劃 建立的,作為一種儲存小規模變異資料(SNP、InDel、短結構重排)的方法,並已成為儲存此類資料的實際標準格式。官方的詳細描述可以在 此處 找到(截至撰寫本文時,為 VCF 版本 4.1)。

VCF 可以儲存有關變異的資訊,例如它在參考序列上的位置、參考和替代等位基因、穩定的變異識別符號(例如 rs 號碼)以及在多個樣本中觀察到的等位基因。VCF 還可以包含關於跨所有樣本的變異的彙總資訊(例如總覆蓋深度、等位基因頻率等),以及在當前分析期間變異失敗的一系列過濾器。

基本 VCF 檔案格式為 ASCII 文字。標題部分標識 VCF 格式版本,定義 FILTER 和 INFO 欄位以及其他元資料。這之後是實際資料表,包含一行包含標準標題和樣本名稱,以及每變異一行。表標題和資料行中的所有列都以製表符(\t)字元分隔。

#CHROM POS    ID     REF    ALT     QUAL FILTER INFO                    FORMAT      Sample1        Sample2        Sample3
2      4370   rs6057 G      A       29   .      NS=2;DP=13;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,.

(有關更詳盡的示例,請參閱官方描述)

建立資料集

[編輯 | 編輯原始碼]

SAMtools 是一個庫和軟體包,用於處理 SAM/BAM 格式的對齊方式。對齊方式的格式是人類可讀的。該軟體有助於從其他對齊方式格式轉換。它還可以對齊方式進行排序和合並。PCR 重複也可以使用 SAMtools 刪除。[1]

SAMtools 具有兩種獨立的實現,一種用 C 語言編寫,另一種用 Java 編寫,它們的功能略有不同。該實現以 C 語言庫的形式提供,以及一個命令列工具,該工具打包了幾個實用程式,包括[1]

- 匯入:SAM 到 BAM 轉換

- 檢視:BAM 到 SAM 轉換和子對齊方式檢索

- 排序:排序對齊方式

- 合併:合併多個排序後的對齊方式

- 索引:索引排序後的對齊方式

- faidx:FASTA 索引和子序列檢索

- tview:文字對齊方式檢視器

- pileup:生成基於位置的輸出和一致性/插入缺失呼叫

其他...

[編輯 | 編輯原始碼]

參考資料集

[編輯 | 編輯原始碼]

人類=> 變異=> 1000 基因組、HapMap 等

[編輯 | 編輯原始碼]

其他物種

[編輯 | 編輯原始碼]

檢視資料集

[編輯 | 編輯原始碼]

Tablet?

[編輯 | 編輯原始碼]

比較資料集

[編輯 | 編輯原始碼]

VCF 工具

[編輯 | 編輯原始碼]

SEQwiki 內容轉儲

[編輯 | 編輯原始碼]

SNP 檢測

[編輯 | 編輯原始碼]

SNP,或單核苷酸多型性,是指基因組相對於參考序列的遺傳性單鹼基變化。它們是更通用的單核苷酸變異 (SNV) 集的一部分,該集合還包括體細胞單鹼基變化,這些變化不會遺傳給後代,而是由環境損傷引起的。用於識別 SNP 的工具也可用於識別 SNV,儘管也存在專門用於識別 SNV 的工具。在某些情況下,例如癌症基因組,SNV 的識別會因異質性 DNA 樣本而變得複雜。

SNP 識別程式必須區分系統噪聲(儀器誤差、PCR 誤差等)和實際變異。它們通常透過對各種誤差型別以及在純合參考 (AA)、純合變異 (BB) 和雜合變異 (AB) 狀態下預期呼叫分佈進行建模來做到這一點。呼叫的置信度通常會受到報告的序列質量值和讀取深度的影響。一些 SNP/SNV 呼叫器透過將單個樣本與參考樣本進行比較來工作,而另一些則可以透過使用來自每個樣本的資訊來幫助在其他樣本中進行呼叫,從而同時在多個樣本中進行呼叫。還存在用於混合人群樣本的 SNP 呼叫器。

SNP/SNV 呼叫中常見的誤差來源是由於假基因、重複的基因組片段或密切的直系同源物導致的錯位;在這些情況下,來自不同基因組區域的讀段的共同比對會導致假陽性呼叫。另一個誤差來源可能是由於讀段中的插入缺失(真實插入缺失變異或測序錯誤)造成的區域性錯位(或模糊比對);Dindel 等重新比對工具以及 GATK 中發現的工具可以生成更一致的插入缺失處理方法,以減少這種誤差來源。許多 SNP/SNV 呼叫器是為二倍體 DNA 設計的,在倍性更高的樣本中可能無法正常工作。如上所述,腫瘤樣本等樣本中的異質性會阻礙 SNV 呼叫,並且某些呼叫器專門設計用於應對這種情況。腫瘤樣本還可能由於基因或染色體擴增而導致複製數發生改變,這意味著它們在某些區域實際上是三倍體或更高倍性的。

SNP/SNV 呼叫器通常只呼叫這些多型性,而不是(例如)小的插入缺失。使用這些工具的使用者在呼叫相鄰的 SNP/SNV 對時也應小心,因為這些(或更遠的 SNP)的定相在許多呼叫器的報告中沒有報告。

決策助手

[編輯 | 編輯原始碼]

我想快速呼叫 SNP 與參考 => Freebayes、samtools


軟體包

[編輯 | 編輯原始碼]

免費軟體

[編輯 | 編輯原始碼]

Freebayes

[編輯 | 編輯原始碼]

Freebayes[2] 是 Poly-Giga 和 BAMBayes 的繼任者,應該比它們快得多。與它們一樣,它依賴於 BAM 檔案。它的開發人員在 Biostar 上也對它進行了更詳細的描述。[3]

  • 優點
    • 對於簡單的 SNP 呼叫來說非常容易執行
    • 不假設任何倍性
    • 可以透過 STDIN 讀取 BAM 檔案

基因組分析工具包 GATK 允許執行多個步驟。作者使用他們的管道對使用 NA12878 外顯子資料集的變異進行呼叫,並將他們的結果與 Crossbow(使用 SOAPsnp)的結果進行了比較。根據這些結果,他們得出結論,Crossbow 的特異性較低。

執行 GATK 和其他工具的一種簡單方法可能是使用 Biostar 上提到的變異管道 Pipette。[4][5]

  • 重要提示
    • 如果您在自己的管道中執行 GATK 框架,則必須牢記 GATK 具有嚴格的檔案格式要求。
    • 例如,基因組參考檔案中的染色體排序必須按規範順序排列。[6]
    • 每個 BAM 檔案都必須存在 BAM 標頭。
    • BAM 檔案必須經過排序,最好由 Picards 排序,因為它在排序後會寫入正確的標頭
    • 每個 BAM 中都必須存在讀取組標籤。在對映期間輸入正確的標籤,否則您可能會浪費時間來修復 BAM 檔案
  • 優點
    • 可能相對特異(作者表明比 Crossbow 的特異性更高)
  • 缺點
    • 相對複雜的管道

MAQ

  • 優點
    • 根據獨立的比較,MAQ 的表現略好於 soapsnp,優於 snvnmix

使用 mpileup 命令的 samtools[7]

samtools pileup(沒有m)已棄用,在最近的 SAMtools 版本中已刪除。

Sibelia 是一款比較基因組工具,可幫助生物學家分析與病原體相關的基因組變異,或幫助微生物在不同環境中適應的基因組變化。Sibelia 在多個微生物菌株的進化和基因組重排研究中也很有用。[8]

  • 優點
    • 適用於多個細菌基因組。
    • 易於執行且跨平臺,根據 GPL 許可。
  • 缺點
    • 大型基因組執行速度慢。


SOAPsnp 例如用於 Crossbow 管道中。

SNVMix SNVMix 的作者將他們的工具與 MAQ v0.6.8 進行了比較,發現使用 Affymetrix SNP 6.0 資料時,根據曲線下面積判斷,其效能更好。但是,在使用 MAQ 0.71 進行獨立比較時,MAQ 的表現更好。

  • 缺點
    • 根據獨立的比較,在高覆蓋區域可能不穩定。
    • 可能不如 MAQ 和 SOAPsnp 精確

VariationHunter

[編輯 | 編輯原始碼]

VariationHunter-CommonLaw 是一種使用高通量技術發現結構變異的工具。

  • 優點
    • 允許同時在一個或多個個體中檢測結構變異

deStruct 是一款從全基因組 Illumina 測序資料中識別腫瘤基因組結構變異的軟體工具。

  • 優點
    • 高靈敏度和特異性
    • 能夠在 Linux 叢集(如 SGE)上自動分配並行作業
    • 低記憶體需求

商業軟體

[編輯 | 編輯原始碼]

Strand NGS Avadis NGS Partek
CLCBio

進一步閱讀

[編輯 | 編輯原始碼]

參考文獻

[編輯 | 編輯原始碼]
  1. a b Li, H.; Handsaker, B.; Wysoker, A.; 等人。 (2009). "序列比對/對映 (SAM) 格式和 SAMtools". 生物資訊學. 25 (16): 2078–9. doi:10.1093/bioinformatics/btp352. PMC 2723002. PMID 19505943. {{cite journal}}: 顯式使用 et al. in: |author= (幫助)CS1 maint: PMC 格式 (連結) CS1 maint: 多個名稱:作者列表 (連結)
  2. "ekg/freebayes". GitHub. 2016 年 4 月 19 日. 檢索於 2016 年 4 月 30 日.
  3. Lindenbaum, P. (2010 年 4 月 8 日). "問題:您使用什麼方法進行 In/Del/Snp 鑑定?". Biostars. Biostar Genomics, LLC. 檢索於 2016 年 4 月 30 日.
  4. "metalhelix/pipette". GitHub. 2013 年 6 月 27 日. 檢索於 2016 年 4 月 30 日.
  5. Matthieu (2011 年 5 月 12 日). "問題:SNP 鑑定工作流程或教程?". Biostars. Biostar Genomics, LLC. 檢索於 2016 年 4 月 30 日.
  6. Van der Auwera, G. (2012 年 7 月 25 日). "GATK 接受/需要哪些輸入檔案?". GATK 論壇. Broad Institute. 檢索於 2016 年 4 月 30 日.
  7. "使用 SAMtools/BCFtools 鑑定 SNP/INDEL". GitHub. 2010 年 12 月 17 日. 檢索於 2016 年 4 月 30 日.
  8. "Sibelia(又稱同線性塊探索工具)". 俄羅斯科學院聖彼得堡國立大學. 檢索於 2016 年 4 月 30 日.
華夏公益教科書