NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

多型解析

Rを使って、ゲノム上に遺伝子の位置を表示する

多重遺伝子の分子進化や、複数遺伝子座を使った系統解析で、個々の遺伝子のゲノム上の位置を示した図を作りたい時がありますが、そういう時に使える簡単な方法を調べたところ、以下のサイトがありました。https://stackoverflow.com/questions/33727432/how-…

Haplotype networkを作成するソフトPopART

系統地理などでよく使うハプロタイプネットワークの作成で、PopARTというソフトが使いやすい。http://popart.otago.ac.nz/documentation.shtml名前の通り、原色のpopなHPである。ネットワーク図については、minimum spaning networkやmedian joining network…

GATKを用いた多型サイトの抽出:-L optionについて

参考URL: https://www.broadinstitute.org/gatk/guide/article?id=4133 GATK HaplotypeCallerを使用して、リファレンスにマッピングされた特定の個人のヒトゲノムからSNPやINDELなどの多型を抽出するとき、-L optionを使用することで、計算量を節約できます…

VCF fileの操作:grepを使用する方法

以前、VCFファイルから必要なデータを抽出する方法として、Rを使う方法を少し書きました。複雑な操作をする時はRが便利と思いますが、比較的簡単な操作(たとえば特定の情報を持つSNPsの行を抽出する場合など)を行う場合は、UNIXのコマンドである"grep"を利…

WGSデータの参照ゲノム配列へのマッピング (5): VCF fileの生成、アノテーション

2015-08-06Mapping結果の.bam fileから、SNPなどの多型を抽出して、VCF formatのfileを生成します。その後、Variant Effect Predictorを使ってSNPのアノテーションを行います。方法は以前紹介したこのエントリ(VCF fileの生成)や、このエントリ(Variant E…

WGSデータの参照ゲノム配列へのマッピング (4): BWAによるマッピング

2015-08-06ヒトゲノム参照配列に対して、NGSのリード(ERR251633)をbwaを使ってマッピングします。この辺りの解析は、以前のエントリと大体同じです。ただし、今回はmappingの前にNGSのraw dataに前処理をします。MappingするFASTQ fileに対して、qualityの…

WGSデータの参照ゲノム配列へのマッピング (3): ヒトゲノム-リファレンス配列(GRCh37 or GRCh38)のダウンロード

2015-08-05ヒトゲノムのリファレンス配列は、GRCh37またはhg19と呼ばれるデータセットがよく使われています(2013年12月以降は、GRCh38 (hg38)が最新のようです)。GRCh37(またはGRCh38)は、UCSC Genome Browserのページからダウンロードできます。UCSC Ge…

WGSデータの参照ゲノム配列へのマッピング (2): データのダウンロード

2015-08-06まず最初に、マッピングを行うNGSのサンプルデータを入手します。このデータを使用します。 HapMapで使用されている、東京に住む日本人のデータになります。Illumina HiSeq 2000で読まれたデータ(ペアエンド)で、.sraフォーマットで8.9GBありま…

WGSデータの参照ゲノム配列へのマッピング (1): 解析の概要

2015-08-06今回は、NGS (Illumina HiSeq) によって配列決定されたヒト全ゲノムのデータを、ヒトの参照ゲノム配列にマッピングします。ここでの目標は、以下の3つです。1. BWAを用いて、NGS readsをヒトゲノム参照配列にマッピングする 2. SNP情報を.vcf file…

MiSeqデータのMHC領域へのマッピング(17):RによるVCF fileの操作 (3): SNPのゲノム上での位置と、対立遺伝子頻度との関係をグラフ化する

2015-06-223. 各SNPのゲノム上の位置と、allele frequencyとの関係をグラフ化する(散布図の作成)各SNPごとのallele frequencyを求めたので、ゲノム上での各SNPのallele frequencyの分布を視覚化してみます。ここでは、Rの"plot"関数を使用します。まず、以…

MiSeqデータのMHC領域へのマッピング(16):RによるVCF fileの操作 (2):VCF fileから必要な情報を抽出する

2015-06-222. VCF fileから必要な情報を含む列のみを抽出し、新しいtableを作る Variant Effect PredictorでアノテーションをしたVCF fileには様々な情報が含まれていますが、そのままでは情報が多すぎて、ちょっと見づらいです。Rを使うことで、必要な情報…

MiSeqデータのMHC領域へのマッピング(15):RによるVCF fileの操作 (1): SNPごとの対立遺伝子頻度(allele frequency)および遺伝子型頻度(genotype frequency)の計算

2015-06-22ここでは、Rを使ってVCF fileに含まれる情報を整理する方法を考えます。具体的には、 VCF fileに含まれる各sampleのgenotype情報から、SNPごとの対立遺伝子頻度(allele frequency)および遺伝子型頻度(genotype frequency)を求める VCF fileか…

.bed fileをUCSC Genome Browserで表示する

2015-06-22Agilent SureDesignによる、captureによるエクソーム解析について、"SureSelect Human All Exon V5"はHLA領域の遺伝子をどのくらいカバーしているかを見てみます。AgilentのSure Designへの登録と、.bed fileの入手方法についてはHSSの方に頂いた…

MiSeqデータのMHC領域へのマッピング(14):Variant Effect PredictorによるSNPのアノテーション(その3)

2015-05-18ここでは、Variant Effect Predictorで得られたアノテーション情報を含むVCF formatファイルをダウンロードして、Rで読み込む方法を解説します。4. アノテーション情報を含むVCFファイルをダウンロードする解析結果の画面(前回の内容参照)で、設…

MiSeqデータのMHC領域へのマッピング(13):Variant Effect PredictorによるSNPのアノテーション(その2)

2015-05-18Variant Effect PredictorによるSNPのアノテーション結果について説明します。3. アノテーション結果を見る(1) Summary statistics 解析がうまく行くと、このような結果の画面を見ることができます。ここでの表と円グラフは、結果全体の要約になっ…

MiSeqデータのMHC領域へのマッピング(12):Variant Effect PredictorによるSNPのアノテーション(その1)

2015-05-18以下の記事も参考にしています。ショートリードの憂鬱 - 次世代シーケンサー: Ensembl - Variant Effect Predictor でSNPアノテーションここでは、データをリファレンスにマッピングすることで得られた多型(SNP)サイト(7回目の内容も参照)の情…

MiSeqデータのMHC領域へのマッピング(11):VCF fileについて(1)

2014-04-13VCF fileのフォーマットについては、以下のURLにあるPDF fileに説明されています。ここでは、VCF formatによるDNA多型(SNPおよびindel)の記述方式を読み解いていきます。http://samtools.github.io/hts-specs/VCFv4.1.pdfまず、VCF formatについ…

MiSeqデータのMHC領域へのマッピング(10):VCF fileをRに読み込む

2015-04-13MiSeqデータのMHC領域へのマッピング(7):samtools mpileup, bcftoolsでSNPsを抽出する - NGSデータ解析まとめ(1) VCF fileの修正(下準備) まず、上記エントリで作成したVCF formatのファイル(MHC_test4.var.vcf)を、テキストエディタで開い…

MiSeqデータのMHC領域へのマッピング(9):CotEditorのインストール

2015-04-13これから先の解析で、テキストファイルを扱うことが頻繁にあります。また、簡単なプログラム(スクリプト)を作成することもよくあります。したがって、使いやすいテキストエディタがあると便利です。Mac OS Xを使用している場合、私のオススメはC…

MiSeqデータのMHC領域へのマッピング(8):Rのインストール

2015-04-13ここから、VCF formatのファイルを読んで、必要な情報(SNPサイト、SNPの位置・allele頻度、既知のSNPsとの関連など)の抽出を進めていきます。ここからの解析は、おもに統計パッケージのRを使用します。Rは以下のURLから、リンクをたどって入手、…

MiSeqデータのMHC領域へのマッピング(7):samtools mpileup, bcftoolsでSNPsを抽出する

2015-03-05まず、 MiSeqデータのMHC領域へのマッピング(5):bwa, samtools indexまでを同時に行うスクリプト - NGSデータ解析まとめ のshell script (mapping_mhc.sh)を使って、DRR003760, DRR003761, DRR003762の3つのMiSeqデータをヒトchr.6にマッピング…

MiSeqデータのMHC領域へのマッピング(6):samtools tviewコマンドで.bam fileの中身を見る

2015-03-05samtools tviewコマンドで、簡易的な.bam file viewerを使うことができます。samtools tviewの詳しい使用方法は、 NGS Surfer's Wiki | SAMtools を参照して下さい。ここでは、ヒトclass I MHC領域の特定の遺伝子に、MiSeqのリードがmapされている…

MiSeqデータのMHC領域へのマッピング(5):bwa, samtools indexまでを同時に行うスクリプト

2015-03-05記事(3)-(4)の作業を一度に行うshell scriptを作りました。カレントディレクトリにあるすべての.fastqファイルに対して、ヒトChromosome 6へのマッピングを行い、.sort.bamファイル、index fileを作成します。使い方:.fastqファイルおよびreferen…

MiSeqデータのMHC領域へのマッピング(4):samtools (view, sort, index)

2015-03-05(2) samtoolsによる解析samtools# samtools view sam --> bamの変換を行う samtools view -bS DRR003760.sam > DRR003760.bam # samtools sort bam fileのsorting(意味??)を行う samtools sort DRR003760.bam DRR003760.sort # samtools index…

MiSeqデータのMHC領域へのマッピング(3):bwaによるマッピング

2015-03-05(1) bwaを用いた解析 i) リファレンス配列のindexの作成 まずは、リファレンスとなる配列(ここではヒトゲノムChr.6)の indexを作成する。Macの性能にもよるが、5分程度かかる。 bwa index -a bwtsw Homo_sapiens.GRCh38.dna_rm.chromosome.6.fa …

MiSeqデータのMHC領域へのマッピング(2):データの入手

2015-03-05(2) 解析に使用するデータの入手# ヒトMHCデータのダウンロード(NBDCヒトデータベースから) DRA (SRA)データのダウンロード:FTPを使用する。ブラウザから直接ダウンロード可能。ここでは、".sra"のファイルをダウンロードする。ここでは http:/…

MiSeqデータのMHC領域へのマッピング(1):プログラムのインストール

2015-03-05概要:ヒトMHC領域を含む6番染色体に、sequence captureで配列決定されたヒト33個体のMHC領域の配列をマッピングする Mac OS XのTerminalを使って解析を行う。詳しい解析はRを使う(--> 次回4/13) 1. 下準備(必要なソフトのインストール、データ…