NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

RNA-Seqデータを用いた系統解析 (1): 解析の方針

RNA-Seqで得られる多数の異なる遺伝子座のデータをもとに系統推定をする方法について、以下では考えていきます。以下には、解析の方針を箇条書きにしてみます(変更の可能性あり)。

(1) RNA-Seqによるデータの入手(Illumina MiSeqなどを使用)

(2) Reference配列の作成(非モデル生物の場合:Trinityによるde novo assembly)

(3) Reference配列に対する近縁種データのマッピングSTAMPYを使用)

(4) Mapping結果からcontigを抽出(samtoolsを使用)、contigのquality checkなど

(5) Contigのアラインメント、遺伝子の読み枠(open reading frame, ORF)の同定、BLAST検索によるアノテーション(いくつかのPerl scriptを使用)

(6) すべてのcontigを統合したデータから系統樹を作成する(RAxMLを使用)

(7) Bayesian concordance analysisによるconcordance treeの作成、種系統樹と異なる分岐を示す遺伝子の同定(BUCKyなどを使用)

以下のような内容でまとめていきます。

解析を行う上でのサンプルデータは、Evolutionの以下の論文(Cui et al. 2013)で発表されたXiphophorus fishの複数種データを使用する予定です。解析の流れについても、大体この論文を参考にしています。データはここからダウンロードできます(.sra file)。Brain由来のRNA-Seq readのデータ(Illumina HiSeq 2000による)になります。