読者です 読者をやめる 読者になる 読者になる

NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

多型解析

GATKを用いた多型サイトの抽出:-L optionについて

参考URL: https://www.broadinstitute.org/gatk/guide/article?id=4133 GATK HaplotypeCallerを使用して、リファレンスにマッピングされた特定の個人のヒトゲノムからSNPやINDELなどの多型を抽出するとき、-L optionを使用することで、計算量を節約できます…

VCF fileの操作:grepを使用する方法

以前、VCFファイルから必要なデータを抽出する方法として、Rを使う方法を少し書きました。複雑な操作をする時はRが便利と思いますが、比較的簡単な操作(たとえば特定の情報を持つSNPsの行を抽出する場合など)を行う場合は、UNIXのコマンドである"grep"を利…

WGSデータの参照ゲノム配列へのマッピング (5): VCF fileの生成、アノテーション

2015-08-06Mapping結果の.bam fileから、SNPなどの多型を抽出して、VCF formatのfileを生成します。その後、Variant Effect Predictorを使ってSNPのアノテーションを行います。方法は以前紹介したこのエントリ(VCF fileの生成)や、このエントリ(Variant E…

WGSデータの参照ゲノム配列へのマッピング (4): BWAによるマッピング

2015-08-06ヒトゲノム参照配列に対して、NGSのリード(ERR251633)をbwaを使ってマッピングします。この辺りの解析は、以前のエントリと大体同じです。ただし、今回はmappingの前にNGSのraw dataに前処理をします。MappingするFASTQ fileに対して、qualityの…

WGSデータの参照ゲノム配列へのマッピング (3): ヒトゲノム-リファレンス配列(GRCh37 or GRCh38)のダウンロード

2015-08-05ヒトゲノムのリファレンス配列は、GRCh37またはhg19と呼ばれるデータセットがよく使われています(2013年12月以降は、GRCh38 (hg38)が最新のようです)。GRCh37(またはGRCh38)は、UCSC Genome Browserのページからダウンロードできます。UCSC Ge…

WGSデータの参照ゲノム配列へのマッピング (2): データのダウンロード

2015-08-06まず最初に、マッピングを行うNGSのサンプルデータを入手します。このデータを使用します。 HapMapで使用されている、東京に住む日本人のデータになります。Illumina HiSeq 2000で読まれたデータ(ペアエンド)で、.sraフォーマットで8.9GBありま…

WGSデータの参照ゲノム配列へのマッピング (1): 解析の概要

2015-08-06今回は、NGS (Illumina HiSeq) によって配列決定されたヒト全ゲノムのデータを、ヒトの参照ゲノム配列にマッピングします。ここでの目標は、以下の3つです。1. BWAを用いて、NGS readsをヒトゲノム参照配列にマッピングする 2. SNP情報を.vcf file…

MiSeqデータのMHC領域へのマッピング(17):RによるVCF fileの操作 (3): SNPのゲノム上での位置と、対立遺伝子頻度との関係をグラフ化する

2015-06-223. 各SNPのゲノム上の位置と、allele frequencyとの関係をグラフ化する(散布図の作成)各SNPごとのallele frequencyを求めたので、ゲノム上での各SNPのallele frequencyの分布を視覚化してみます。ここでは、Rの"plot"関数を使用します。まず、以…

MiSeqデータのMHC領域へのマッピング(16):RによるVCF fileの操作 (2):VCF fileから必要な情報を抽出する

2015-06-222. VCF fileから必要な情報を含む列のみを抽出し、新しいtableを作る Variant Effect PredictorでアノテーションをしたVCF fileには様々な情報が含まれていますが、そのままでは情報が多すぎて、ちょっと見づらいです。Rを使うことで、必要な情報…

MiSeqデータのMHC領域へのマッピング(15):RによるVCF fileの操作 (1): SNPごとの対立遺伝子頻度(allele frequency)および遺伝子型頻度(genotype frequency)の計算

2015-06-22ここでは、Rを使ってVCF fileに含まれる情報を整理する方法を考えます。具体的には、 VCF fileに含まれる各sampleのgenotype情報から、SNPごとの対立遺伝子頻度(allele frequency)および遺伝子型頻度(genotype frequency)を求める VCF fileか…

.bed fileをUCSC Genome Browserで表示する

2015-06-22Agilent SureDesignによる、captureによるエクソーム解析について、"SureSelect Human All Exon V5"はHLA領域の遺伝子をどのくらいカバーしているかを見てみます。AgilentのSure Designへの登録と、.bed fileの入手方法についてはHSSの方に頂いた…

MiSeqデータのMHC領域へのマッピング(14):Variant Effect PredictorによるSNPのアノテーション(その3)

2015-05-18ここでは、Variant Effect Predictorで得られたアノテーション情報を含むVCF formatファイルをダウンロードして、Rで読み込む方法を解説します。4. アノテーション情報を含むVCFファイルをダウンロードする解析結果の画面(前回の内容参照)で、設…

MiSeqデータのMHC領域へのマッピング(13):Variant Effect PredictorによるSNPのアノテーション(その2)

2015-05-18Variant Effect PredictorによるSNPのアノテーション結果について説明します。3. アノテーション結果を見る(1) Summary statistics 解析がうまく行くと、このような結果の画面を見ることができます。ここでの表と円グラフは、結果全体の要約になっ…

MiSeqデータのMHC領域へのマッピング(12):Variant Effect PredictorによるSNPのアノテーション(その1)

2015-05-18以下の記事も参考にしています。ショートリードの憂鬱 - 次世代シーケンサー: Ensembl - Variant Effect Predictor でSNPアノテーションここでは、データをリファレンスにマッピングすることで得られた多型(SNP)サイト(7回目の内容も参照)の情…

MiSeqデータのMHC領域へのマッピング(11):VCF fileについて(1)

2014-04-13VCF fileのフォーマットについては、以下のURLにあるPDF fileに説明されています。ここでは、VCF formatによるDNA多型(SNPおよびindel)の記述方式を読み解いていきます。http://samtools.github.io/hts-specs/VCFv4.1.pdfまず、VCF formatについ…

MiSeqデータのMHC領域へのマッピング(10):VCF fileをRに読み込む

2015-04-13MiSeqデータのMHC領域へのマッピング(7):samtools mpileup, bcftoolsでSNPsを抽出する - NGSデータ解析まとめ(1) VCF fileの修正(下準備) まず、上記エントリで作成したVCF formatのファイル(MHC_test4.var.vcf)を、テキストエディタで開い…

MiSeqデータのMHC領域へのマッピング(9):CotEditorのインストール

2015-04-13これから先の解析で、テキストファイルを扱うことが頻繁にあります。また、簡単なプログラム(スクリプト)を作成することもよくあります。したがって、使いやすいテキストエディタがあると便利です。Mac OS Xを使用している場合、私のオススメはC…

MiSeqデータのMHC領域へのマッピング(8):Rのインストール

2015-04-13ここから、VCF formatのファイルを読んで、必要な情報(SNPサイト、SNPの位置・allele頻度、既知のSNPsとの関連など)の抽出を進めていきます。ここからの解析は、おもに統計パッケージのRを使用します。Rは以下のURLから、リンクをたどって入手、…

MiSeqデータのMHC領域へのマッピング(7):samtools mpileup, bcftoolsでSNPsを抽出する

2015-03-05まず、 MiSeqデータのMHC領域へのマッピング(5):bwa, samtools indexまでを同時に行うスクリプト - NGSデータ解析まとめ のshell script (mapping_mhc.sh)を使って、DRR003760, DRR003761, DRR003762の3つのMiSeqデータをヒトchr.6にマッピング…

MiSeqデータのMHC領域へのマッピング(6):samtools tviewコマンドで.bam fileの中身を見る

2015-03-05samtools tviewコマンドで、簡易的な.bam file viewerを使うことができます。samtools tviewの詳しい使用方法は、 NGS Surfer's Wiki | SAMtools を参照して下さい。ここでは、ヒトclass I MHC領域の特定の遺伝子に、MiSeqのリードがmapされている…

MiSeqデータのMHC領域へのマッピング(5):bwa, samtools indexまでを同時に行うスクリプト

2015-03-05記事(3)-(4)の作業を一度に行うshell scriptを作りました。カレントディレクトリにあるすべての.fastqファイルに対して、ヒトChromosome 6へのマッピングを行い、.sort.bamファイル、index fileを作成します。使い方:.fastqファイルおよびreferen…

MiSeqデータのMHC領域へのマッピング(4):samtools (view, sort, index)

2015-03-05(2) samtoolsによる解析samtools# samtools view sam --> bamの変換を行う samtools view -bS DRR003760.sam > DRR003760.bam # samtools sort bam fileのsorting(意味??)を行う samtools sort DRR003760.bam DRR003760.sort # samtools index…

MiSeqデータのMHC領域へのマッピング(3):bwaによるマッピング

2015-03-05(1) bwaを用いた解析 i) リファレンス配列のindexの作成 まずは、リファレンスとなる配列(ここではヒトゲノムChr.6)の indexを作成する。Macの性能にもよるが、5分程度かかる。 bwa index -a bwtsw Homo_sapiens.GRCh38.dna_rm.chromosome.6.fa …

MiSeqデータのMHC領域へのマッピング(2):データの入手

2015-03-05(2) 解析に使用するデータの入手# ヒトMHCデータのダウンロード(NBDCヒトデータベースから) DRA (SRA)データのダウンロード:FTPを使用する。ブラウザから直接ダウンロード可能。ここでは、".sra"のファイルをダウンロードする。ここでは http:/…

MiSeqデータのMHC領域へのマッピング(1):プログラムのインストール

2015-03-05概要:ヒトMHC領域を含む6番染色体に、sequence captureで配列決定されたヒト33個体のMHC領域の配列をマッピングする Mac OS XのTerminalを使って解析を行う。詳しい解析はRを使う(--> 次回4/13) 1. 下準備(必要なソフトのインストール、データ…