下一代測序 (NGS)/大資料
外觀
您遇到的第一個問題可能是 NGS FASTQ 檔案的大小 - "資料氾濫"問題。您不再僅僅處理微孔板讀數或數字化凝膠照片;NGS 資料的大小可能是巨大的。例如,來自 60x 人類全基因組測序的壓縮 FASTQ 檔案仍然需要 200Gb。一個包含 10-20 個全基因組測序 (WGS) 樣本的小型專案可以生成約 4TB 的原始資料。即使這些估計也不包括下游分析所需的磁碟空間。
引用自 BioStars 的一篇帖子[1]
- 高階:企業叢集和 SAN。
- 高階:位於不同建築物中的兩臺映象伺服器或雲。
- 典型:帶有 raid-5/6 的外部硬碟驅動器和/或 NAS
在合作者之間移動資料也不簡單。對於 RNA-Seq 樣本,FTP 可能就足夠了,但對於 WGS 資料,運輸硬碟驅動器可能是唯一的解決方案。
單個實驗室很難維護足夠的計算設施。單個實驗室可能擁有某些基本的計算硬體;但是,許多工將具有巨大的計算需求(例如,從頭基因組組裝的記憶體),需要在其他地方執行。一個機構/核心設施可以託管一個集中式叢集。或者,您可以考慮在雲上執行該任務。
- ↑ Wo, H. (24 March 2011). "Question: Huge Ngs Data Storage And Transferring". Biostars. Biostar Genomics, LLC. Retrieved 28 April 2016.
- ↑ Akhlaghpour, H. (3 July 2012). "Genomic Analysis in the Cloud". YouTube. Google. Retrieved 28 April 2016.
- ↑ Schadt, E.E.; Linderman, M.D.; Sorenson, J.; Lee, L.; Nolan, G.P. (2010). "Computational solutions to large-scale data management and analysis". Nature Reviews Genetics. 11 (9): 647–57. doi:10.1038/nrg2857. PMC 3124937. PMID 20717155.
{{cite journal}}: CS1 maint: PMC format (link) CS1 maint: multiple names: authors list (link) - ↑ Lueck, R. (16 January 2013). "Big data and HPC on-demand: Large-scale genome analysis on Helix Nebula – the Science Cloud" (PDF). Trust-IT Services. Retrieved 28 April 2016.