跳轉到內容

下一代測序 (NGS)/大資料

來自華夏公益教科書,開放的書籍,為開放的世界
下一代測序 (NGS)
簡介 大資料 從外部看生物資訊學

大資料

[編輯 | 編輯原始碼]

資料氾濫

[編輯 | 編輯原始碼]

您遇到的第一個問題可能是 NGS FASTQ 檔案的大小 - "資料氾濫"問題。您不再僅僅處理微孔板讀數或數字化凝膠照片;NGS 資料的大小可能是巨大的。例如,來自 60x 人類全基因組測序的壓縮 FASTQ 檔案仍然需要 200Gb。一個包含 10-20 個全基因組測序 (WGS) 樣本的小型專案可以生成約 4TB 的原始資料。即使這些估計也不包括下游分析所需的磁碟空間。

儲存資料

[編輯 | 編輯原始碼]

引用自 BioStars 的一篇帖子[1]

  • 高階:企業叢集和 SAN。
  • 高階:位於不同建築物中的兩臺映象伺服器或雲。
  • 典型:帶有 raid-5/6 的外部硬碟驅動器和/或 NAS

移動資料

[編輯 | 編輯原始碼]

在合作者之間移動資料也不簡單。對於 RNA-Seq 樣本,FTP 可能就足夠了,但對於 WGS 資料,運輸硬碟驅動器可能是唯一的解決方案。

將計算需求從研究組中分離出去

[編輯 | 編輯原始碼]

單個實驗室很難維護足夠的計算設施。單個實驗室可能擁有某些基本的計算硬體;但是,許多工將具有巨大的計算需求(例如,從頭基因組組裝的記憶體),需要在其他地方執行。一個機構/核心設施可以託管一個集中式叢集。或者,您可以考慮在雲上執行該任務。

  • NIH 維護一個名為 Biowulf 的集中式計算叢集。
  • 建議使用生物資訊學雲計算。[2][3] EBI 採用了一個名為 Helix Nebula 的雲平臺。[4]

參考文獻

[編輯 | 編輯原始碼]
  1. Wo, H. (24 March 2011). "Question: Huge Ngs Data Storage And Transferring". Biostars. Biostar Genomics, LLC. Retrieved 28 April 2016.
  2. Akhlaghpour, H. (3 July 2012). "Genomic Analysis in the Cloud". YouTube. Google. Retrieved 28 April 2016.
  3. Schadt, E.E.; Linderman, M.D.; Sorenson, J.; Lee, L.; Nolan, G.P. (2010). "Computational solutions to large-scale data management and analysis". Nature Reviews Genetics. 11 (9): 647–57. doi:10.1038/nrg2857. PMC 3124937. PMID 20717155.{{cite journal}}: CS1 maint: PMC format (link) CS1 maint: multiple names: authors list (link)
  4. Lueck, R. (16 January 2013). "Big data and HPC on-demand: Large-scale genome analysis on Helix Nebula – the Science Cloud" (PDF). Trust-IT Services. Retrieved 28 April 2016.
華夏公益教科書