跳轉到內容

下一代測序 (NGS)/Ray

來自華夏公益教科書,開放的書籍,開放的世界

假設您具備基本的 UNIX 命令列知識。

在本教程中,Ray 將安裝在 $HOME/software 中,使用下載到 $HOME/sources 的原始碼。資料集將下載到 $HOME/datasets,並將使用 Ray 在 $HOME/projects 中進行從頭組裝。

安裝 Ray

[編輯 | 編輯原始碼]

首先,下載包含其原始碼的 Ray tarball。

mkdir -p $HOME/sources
cd $HOME/sources
wget http://downloads.sourceforge.net/project/denovoassembler/Ray-v2.1.0.tar.bz2 
tar -xjf Ray-v2.1.0.tar.bz2

安裝 Ray 需要 MPI 庫。在 Ubuntu 或 Debian 上,軟體包名稱為:openmpi-bin、libopenmpi-dev、make、g++。

可選地,Ray 可以包含對壓縮檔案的原生支援。這需要 zlib 和/或 libbz2。在 Ubuntu 或 Debian 上,軟體包名稱為:zlib1g-dev libbz2-dev。

安裝完 MPI 後,現在可以安裝 Ray 了

mkdir -p $HOME/software/ray
cd $HOME/sources/Ray-v2.1.0
make HAVE_LIBZ=y HAVE_LIBBZ2=y PREFIX=$HOME/software/ray/2.1.0
make install

獲取資料

[編輯 | 編輯原始碼]

以下命令獲取E. coli資料。

mkdir -p $HOME/datasets/SRA001125
cd $HOME/datasets/SRA001125
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000429/SRR001665_1.fastq.bz2
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000429/SRR001665_2.fastq.bz2
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000430/SRR001666_1.fastq.bz2
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000430/SRR001666_2.fastq.bz2

執行 Ray

[編輯 | 編輯原始碼]

養成一個為每個專案建立目錄的好習慣。因此,將為本教程建立一個目錄。

mkdir -p $HOME/projects/Ray-tutorial
cd $HOME/projects/Ray-tutorial

接下來,建立指向資料檔案的符號連結,這樣就不需要長路徑。

ln -s $HOME/datasets/SRA001125/SRR001665_1.fastq.bz2
ln -s $HOME/datasets/SRA001125/SRR001665_2.fastq.bz2
ln -s $HOME/datasets/SRA001125/SRR001666_1.fastq.bz2
ln -s $HOME/datasets/SRA001125/SRR001666_2.fastq.bz2

可以啟動任意數量的 Ray 程序。在本例中,啟動了 4 個 Ray 程序。這些程序可以在多臺計算機或單臺計算機上執行。

mpiexec -n 4 $HOME/software/ray/2.1.0/Ray \
-k 21 -o EcoliAssembly \
-p SRR001665_1.fastq.bz2 SRR001665_2.fastq.bz2 \
-p SRR001666_1.fastq.bz2 SRR001666_1.fastq.bz2 \

-k 引數設定 k-mer 的長度。

評估組裝

[編輯 | 編輯原始碼]

Ray 將檔案寫入單個目錄。Ray 進行了一些自動化的質量控制測試。

您可以使用以下命令列出生成的檔案

ls EcoliAssembly

重要的檔案如下

less EcoliAssembly/OutputNumbers.txt
less EcoliAssembly/Contigs.fasta
less EcoliAssembly/Scaffolds.fasta
less EcoliAssembly/CoverageDistribution.txt
less EcoliAssembly/LibraryStatistics.txt
華夏公益教科書