NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

2015-04-01から1ヶ月間の記事一覧

RNA-Seqデータを用いた系統解析 (1): 解析の方針

RNA-Seqで得られる多数の異なる遺伝子座のデータをもとに系統推定をする方法について、以下では考えていきます。以下には、解析の方針を箇条書きにしてみます(変更の可能性あり)。(1) RNA-Seqによるデータの入手(Illumina MiSeqなどを使用)(2) Reference…

FASTA形式ファイルの(一括)変換

FASTA形式の塩基配列(アミノ酸配列)ファイルをNEXUS形式やPHYLIP形式に変換したい、ということはよくあります。単一のファイルならClustalwやMacCladeを使用して変換できますが、多数のFASTAファイルを扱う場合(数百〜数千遺伝子を用いた系統解析など)、…

MiSeqデータのMHC領域へのマッピング(11):VCF fileについて(1)

2014-04-13VCF fileのフォーマットについては、以下のURLにあるPDF fileに説明されています。ここでは、VCF formatによるDNA多型(SNPおよびindel)の記述方式を読み解いていきます。http://samtools.github.io/hts-specs/VCFv4.1.pdfまず、VCF formatについ…

MiSeqデータのMHC領域へのマッピング(10):VCF fileをRに読み込む

2015-04-13MiSeqデータのMHC領域へのマッピング(7):samtools mpileup, bcftoolsでSNPsを抽出する - NGSデータ解析まとめ(1) VCF fileの修正(下準備) まず、上記エントリで作成したVCF formatのファイル(MHC_test4.var.vcf)を、テキストエディタで開い…

MiSeqデータのMHC領域へのマッピング(9):CotEditorのインストール

2015-04-13これから先の解析で、テキストファイルを扱うことが頻繁にあります。また、簡単なプログラム(スクリプト)を作成することもよくあります。したがって、使いやすいテキストエディタがあると便利です。Mac OS Xを使用している場合、私のオススメはC…

MiSeqデータのMHC領域へのマッピング(8):Rのインストール

2015-04-13ここから、VCF formatのファイルを読んで、必要な情報(SNPサイト、SNPの位置・allele頻度、既知のSNPsとの関連など)の抽出を進めていきます。ここからの解析は、おもに統計パッケージのRを使用します。Rは以下のURLから、リンクをたどって入手、…

MiSeqデータのMHC領域へのマッピング(7):samtools mpileup, bcftoolsでSNPsを抽出する

2015-03-05まず、 MiSeqデータのMHC領域へのマッピング(5):bwa, samtools indexまでを同時に行うスクリプト - NGSデータ解析まとめ のshell script (mapping_mhc.sh)を使って、DRR003760, DRR003761, DRR003762の3つのMiSeqデータをヒトchr.6にマッピング…

MiSeqデータのMHC領域へのマッピング(6):samtools tviewコマンドで.bam fileの中身を見る

2015-03-05samtools tviewコマンドで、簡易的な.bam file viewerを使うことができます。samtools tviewの詳しい使用方法は、 NGS Surfer's Wiki | SAMtools を参照して下さい。ここでは、ヒトclass I MHC領域の特定の遺伝子に、MiSeqのリードがmapされている…

MiSeqデータのMHC領域へのマッピング(5):bwa, samtools indexまでを同時に行うスクリプト

2015-03-05記事(3)-(4)の作業を一度に行うshell scriptを作りました。カレントディレクトリにあるすべての.fastqファイルに対して、ヒトChromosome 6へのマッピングを行い、.sort.bamファイル、index fileを作成します。使い方:.fastqファイルおよびreferen…