下一代測序 (NGS)/Ray
外觀
假設您具備基本的 UNIX 命令列知識。
在本教程中,Ray 將安裝在 $HOME/software 中,使用下載到 $HOME/sources 的原始碼。資料集將下載到 $HOME/datasets,並將使用 Ray 在 $HOME/projects 中進行從頭組裝。
首先,下載包含其原始碼的 Ray tarball。
mkdir -p $HOME/sources cd $HOME/sources wget http://downloads.sourceforge.net/project/denovoassembler/Ray-v2.1.0.tar.bz2 tar -xjf Ray-v2.1.0.tar.bz2
安裝 Ray 需要 MPI 庫。在 Ubuntu 或 Debian 上,軟體包名稱為:openmpi-bin、libopenmpi-dev、make、g++。
可選地,Ray 可以包含對壓縮檔案的原生支援。這需要 zlib 和/或 libbz2。在 Ubuntu 或 Debian 上,軟體包名稱為:zlib1g-dev libbz2-dev。
安裝完 MPI 後,現在可以安裝 Ray 了
mkdir -p $HOME/software/ray cd $HOME/sources/Ray-v2.1.0 make HAVE_LIBZ=y HAVE_LIBBZ2=y PREFIX=$HOME/software/ray/2.1.0 make install
以下命令獲取E. coli資料。
mkdir -p $HOME/datasets/SRA001125 cd $HOME/datasets/SRA001125
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000429/SRR001665_1.fastq.bz2 wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000429/SRR001665_2.fastq.bz2 wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000430/SRR001666_1.fastq.bz2 wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000430/SRR001666_2.fastq.bz2
養成一個為每個專案建立目錄的好習慣。因此,將為本教程建立一個目錄。
mkdir -p $HOME/projects/Ray-tutorial cd $HOME/projects/Ray-tutorial
接下來,建立指向資料檔案的符號連結,這樣就不需要長路徑。
ln -s $HOME/datasets/SRA001125/SRR001665_1.fastq.bz2 ln -s $HOME/datasets/SRA001125/SRR001665_2.fastq.bz2 ln -s $HOME/datasets/SRA001125/SRR001666_1.fastq.bz2 ln -s $HOME/datasets/SRA001125/SRR001666_2.fastq.bz2
可以啟動任意數量的 Ray 程序。在本例中,啟動了 4 個 Ray 程序。這些程序可以在多臺計算機或單臺計算機上執行。
mpiexec -n 4 $HOME/software/ray/2.1.0/Ray \ -k 21 -o EcoliAssembly \ -p SRR001665_1.fastq.bz2 SRR001665_2.fastq.bz2 \ -p SRR001666_1.fastq.bz2 SRR001666_1.fastq.bz2 \
-k 引數設定 k-mer 的長度。
Ray 將檔案寫入單個目錄。Ray 進行了一些自動化的質量控制測試。
您可以使用以下命令列出生成的檔案
ls EcoliAssembly
重要的檔案如下
less EcoliAssembly/OutputNumbers.txt less EcoliAssembly/Contigs.fasta less EcoliAssembly/Scaffolds.fasta less EcoliAssembly/CoverageDistribution.txt less EcoliAssembly/LibraryStatistics.txt