以下のエントリーの続きです(じつに96日ぶり!)。
RNA-Seqデータを用いた系統解析 (1): 解析の方針 - NGSデータ解析まとめ
非モデル生物で、de novoに配列決定したRNA-Seqデータを系統解析に使用するには、いくつかのアプローチが考えられます。たとえば
(1) すべての種のデータをde novoでアセンブルして、共通のcontigを使って系統樹を書く
(2) 特定の1種でRNA-Seqデータをde novo assembleして、その種で作成したcontigsをリファレンス配列にして、他の種のデータはそのreference contigsにマッピングする。全種でmappngされたcontigで系統樹を書く
(3) 特定の1種で全ゲノム配列を決定し、それをreferenceにする
このエントリでは(2)のアプローチを取ります。(2)の利点は、de novo assembleが1回でいいので、計算時間が短縮されることと、orthologの同定が比較的容易であること(あとで説明します --> 別エントリ)、系統解析に使用する種がある程度近縁な場合は、効率よくデータを得られること、などがあります。あと、全ゲノム決定(3)が必要ないので比較的手軽にできる(コンピュータの計算能力が少なくて済む、経済的?であること)のも、現時点(2015年7月)では利点です。
一方、欠点としては、系統解析に使用する種があまり近縁でない場合、mappingがうまく行かない、または効率的にデータが取れない、ということがあります(このような場合、(1)を使う必要があります)。
1. .sraデータをgetする
このサイトから、まずは
X. birchmanni (SRR751378) X. gordoni (SRR767711) X. maculatus (SRR767714) X. mayae (SRR767715) X. xiphidium (SRR767782)
のデータを入手して下さい。.sra fileを入手したら、SRA toolkitの"fastq-dump"コマンドを使って.fastq fileを作って(展開して?)下さい。すべてsingle endになっています。
2. ReferenceとなるFASTA fileの作成
注意!:ここでの解析には、Linuxで動くコンピュータが必要です。Trinityを使ってde novo assembleを行うので、メモリは(できれば)128GB以上欲しいところです(可能なら256GB)。
参考URL: Trinity - 井上 潤
Trinityの前処理と動かし方については、OIST井上さんのこのページをほとんど参考にしています。
ここでは、X. birchmanni (SRR751378) のRNA-Seqデータを使用します。大体FASTQ fileで6.96GBあります。
(1) DynamicTrim.plによるデータ精度の評価、low quality readsの除去
まず最初に、FASTQ fileに含まれるqualityの低い配列を除きます。そのためのソフトとして、まずSolexaQAをダウンロード・インストールして下さい。
Shellで以下のコマンドを実行します。
DynamicTrim.pl SRR751378.fastq -h 20 &
(2) LengthSort.plによる短すぎるreads (<50bp)の除去
Shellで以下のコマンドを実行します
LengthSort.pl SRR751378.fastq.trimmed -length 50
(3) Trinityによるde nove assemble
Trinityは、イルミナ社のNGSによるRNA-Seqデータのde novo assembleに特化したassemblerで、比較的短いリード(100bpなど)を得意としているようです。結構頻繁に更新されるので、時々URLをチェックする必要があります。現在は、Web上でも実行できるようです(Linuxがない人は、こちらを使うのも一つの方法です)。
Trinityのダウンロード・インストールはURL参照して下さい(普通は難しくないです)。
とりあえず実行します。以下のコマンドを実行します。
Trinity --seqType fq --single SRR751378.fastq.trimmed.single --JM 200G --CPU 12
オプションの説明:
--seqType : sequence fileのタイプ(FASTQの場合はfq) --single : single end readsを使用する場合 そのあとに.fastq file名 ペアエンドの場合は--left (seq1) --right (seq2) --JM : 使用する最大のメモリ容量 // 100G-200Gに設定(使用するコンピュータのスペックによる) --CPU : 使用するCPUの数(使用するコンピュータのスペックによる)
計算時間は使用するコンピュータの性能にもよりますが、このデータだと、私が研究室で使用しているLinux machine (2.1GHz x 12 core, 256GB RAM)で、大体24時間くらいでした。
計算がうまくいくと、outputとして複数のファイルを含むフォルダ (trinity_out_dir)ができます。
次のエントリに続きます(次は、Trinity結果の整理、reference用のFASTA fileの作成)。