RNA-Seqデータを用いた系統解析 (1): 解析の方針

RNA-Seqで得られる多数の異なる遺伝子座のデータをもとに系統推定をする方法について、以下では考えていきます。以下には、解析の方針を箇条書きにしてみます（変更の可能性あり）。

(1) RNA-Seqによるデータの入手（Illumina MiSeqなどを使用）

(2) Reference配列の作成（非モデル生物の場合：Trinityによるde novo assembly）

(3) Reference配列に対する近縁種データのマッピング（STAMPYを使用）

(4) Mapping結果からcontigを抽出（samtoolsを使用）、contigのquality checkなど

(5) Contigのアラインメント、遺伝子の読み枠（open reading frame, ORF）の同定、BLAST検索によるアノテーション（いくつかのPerl scriptを使用）

(6) すべてのcontigを統合したデータから系統樹を作成する（RAxMLを使用）

(7) Bayesian concordance analysisによるconcordance treeの作成、種系統樹と異なる分岐を示す遺伝子の同定（BUCKyなどを使用）

以下のような内容でまとめていきます。

解析を行う上でのサンプルデータは、Evolutionの以下の論文（Cui et al. 2013）で発表されたXiphophorus fishの複数種データを使用する予定です。解析の流れについても、大体この論文を参考にしています。データはここからダウンロードできます（.sra file）。Brain由来のRNA-Seq readのデータ（Illumina HiSeq 2000による）になります。

NGSデータ解析まとめ

サカナ研究者の手探りNGS解析（おもに進化生物学）

RNA-Seqデータを用いた系統解析 (1): 解析の方針