NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

MiSeqデータのMHC領域へのマッピング(11):VCF fileについて(1)

2014-04-13VCF fileのフォーマットについては、以下のURLにあるPDF fileに説明されています。ここでは、VCF formatによるDNA多型(SNPおよびindel)の記述方式を読み解いていきます。http://samtools.github.io/hts-specs/VCFv4.1.pdfまず、VCF formatについ…

MiSeqデータのMHC領域へのマッピング(10):VCF fileをRに読み込む

2015-04-13MiSeqデータのMHC領域へのマッピング(7):samtools mpileup, bcftoolsでSNPsを抽出する - NGSデータ解析まとめ(1) VCF fileの修正(下準備) まず、上記エントリで作成したVCF formatのファイル(MHC_test4.var.vcf)を、テキストエディタで開い…

MiSeqデータのMHC領域へのマッピング(9):CotEditorのインストール

2015-04-13これから先の解析で、テキストファイルを扱うことが頻繁にあります。また、簡単なプログラム(スクリプト)を作成することもよくあります。したがって、使いやすいテキストエディタがあると便利です。Mac OS Xを使用している場合、私のオススメはC…

MiSeqデータのMHC領域へのマッピング(8):Rのインストール

2015-04-13ここから、VCF formatのファイルを読んで、必要な情報(SNPサイト、SNPの位置・allele頻度、既知のSNPsとの関連など)の抽出を進めていきます。ここからの解析は、おもに統計パッケージのRを使用します。Rは以下のURLから、リンクをたどって入手、…

MiSeqデータのMHC領域へのマッピング(7):samtools mpileup, bcftoolsでSNPsを抽出する

2015-03-05まず、 MiSeqデータのMHC領域へのマッピング(5):bwa, samtools indexまでを同時に行うスクリプト - NGSデータ解析まとめ のshell script (mapping_mhc.sh)を使って、DRR003760, DRR003761, DRR003762の3つのMiSeqデータをヒトchr.6にマッピング…

MiSeqデータのMHC領域へのマッピング(6):samtools tviewコマンドで.bam fileの中身を見る

2015-03-05samtools tviewコマンドで、簡易的な.bam file viewerを使うことができます。samtools tviewの詳しい使用方法は、 NGS Surfer's Wiki | SAMtools を参照して下さい。ここでは、ヒトclass I MHC領域の特定の遺伝子に、MiSeqのリードがmapされている…

MiSeqデータのMHC領域へのマッピング(5):bwa, samtools indexまでを同時に行うスクリプト

2015-03-05記事(3)-(4)の作業を一度に行うshell scriptを作りました。カレントディレクトリにあるすべての.fastqファイルに対して、ヒトChromosome 6へのマッピングを行い、.sort.bamファイル、index fileを作成します。使い方:.fastqファイルおよびreferen…

MiSeqデータのMHC領域へのマッピング(4):samtools (view, sort, index)

2015-03-05(2) samtoolsによる解析samtools# samtools view sam --> bamの変換を行う samtools view -bS DRR003760.sam > DRR003760.bam # samtools sort bam fileのsorting(意味??)を行う samtools sort DRR003760.bam DRR003760.sort # samtools index…

MiSeqデータのMHC領域へのマッピング(3):bwaによるマッピング

2015-03-05(1) bwaを用いた解析 i) リファレンス配列のindexの作成 まずは、リファレンスとなる配列(ここではヒトゲノムChr.6)の indexを作成する。Macの性能にもよるが、5分程度かかる。 bwa index -a bwtsw Homo_sapiens.GRCh38.dna_rm.chromosome.6.fa …

MiSeqデータのMHC領域へのマッピング(2):データの入手

2015-03-05(2) 解析に使用するデータの入手# ヒトMHCデータのダウンロード(NBDCヒトデータベースから) DRA (SRA)データのダウンロード:FTPを使用する。ブラウザから直接ダウンロード可能。ここでは、".sra"のファイルをダウンロードする。ここでは http:/…

MiSeqデータのMHC領域へのマッピング(1):プログラムのインストール

2015-03-05概要:ヒトMHC領域を含む6番染色体に、sequence captureで配列決定されたヒト33個体のMHC領域の配列をマッピングする Mac OS XのTerminalを使って解析を行う。詳しい解析はRを使う(--> 次回4/13) 1. 下準備(必要なソフトのインストール、データ…

Shell scriptでも試してみる

複数のFASTA fileのinputから、MrBayesのinfileを順次作成して、順次MrBayesによる解析を実行する。各遺伝子ごとの解析結果から、BUCKyのinput file (*.in)をmbsumで作成する。 #!/usr/bin/sh # multi_mb.sh # 0. mrbayes mpiで動く設定にする // まだできて…

Perlスクリプトの記法を試してみる fasta_to_nex.pl

FASTA形式(.fa|.aln|.fasta)の配列ファイル(アラインメント済)をNEXUS形式 (.nex)に変換するスクリプトです。あとでMrBayesで解析を行うため、outfileにはmrbayes block(パラメータは固定)が付きます。引数はワイルドカードに対応していません。繰り返…

このブログの方針

とりあえず、自分が日々作っているNGS関係のPerl scriptの断片とか、NGS関連、進化生物関連のプログラムの使い方とかをopenにしておく、半分以上自分のためのメモ、という使い方でどうか?当面の記事(何か書けそうなもの) Trinity --> TrinotateによるRNA-…

はじめまして

ノロウイルス感染で自主的な出勤停止(今日まで)をしているため、暇なのでとりあえず登録してみた。はてなダイアリーからこちらへ移行 or 並立で始めてみよう。とりあえず どう棲み分けるか こっちのブログタイトル 主な記事内容 をまずは考える。まだ、こ…