NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

Genome

BAM fileにRead Groupを付ける(GATKへの対応)

以下は個人的なメモ(覚え書き)になります。GATKでは、BAM fileにRead Group (@RG)が付いてないとエラーが出て解析ができないようです。でもRead Groupって何、どうやって付けるの? 何を書けばいいの? という点で疑問だったので、ちょっと勉強してみまし…

GATKのインストールについて

VCFファイルの解析に使用するツールとしてGATKをダウンロード、インストールしました。以下は個人的なメモです。GATKのインストールには、以下の本のP.149-154を参照しました。www.amazon.co.jp(1) 下準備今回インストールしたコンピュータはMacBook Air 11i…

GenomeやRNA-Seq assemblyの結果を確認する: assembly-statsについて

de novo assembleで得られたゲノムやRNA-Seqのデータについての統計値(contig長の平均・中央値・最大値、またN50-N100の値など)を確認したいときに便利なツールとして、assembly-statsを紹介します。以下のサイトからソースコードをダウンロードしてコンパ…

非モデル生物ゲノムのde novo assembly(その2):DBG2OLCを使用する(2): 解析の流れ

(2016-03-04 暫定版です)前回の続きです。Illumina NGS (HiSeq, MiSeqなど)のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。ここではDGB2OLCのManualに示されているサンプルデータを用い…

非モデル生物ゲノムのde novo assembly(その2):DBG2OLCを使用する(1): 下準備とインストール

ここでは、Illumina NGS (HiSeq, MiSeqなど)のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。具体的には、DBG2OLCを使った方法について書いていきます。私の使用している環境は、以下になり…

非モデル生物ゲノムのde novo assembly(その1): はじめに、いくつかの方法

2016年現在、次世代シーケンサーを使って、非モデル生物のdraft genomeを個人レベルで決定することもだいぶ現実的になってきました。ここでは、最近試みているNGSで得られたゲノム配列データのde novo assembleについて考えていきます。 (現在、いろいろ試…

IGVの使い方(1): ヒトゲノムannotation情報の取り込み

IGVにRefSeqなど、ヒトゲノム上の遺伝子アノテーションを取り込む方法についてです。IGVでは、"File" メニューの"Load from Server"から、ゲノム上の位置に関連付けられたアノテーション情報を読み込むことができます。(1) "File" -> "Load from Server"の中…

IGV (Integrative Genomic Viewer)を使ってみる

次に、IGVで実際にリファレンスゲノムにreadsがマップされた結果を見てみます。まず、IGVを開きます。デスクトップ上のIGVのエイリアスをダブルクリックします。このとき、IGVでは"Loading genome"という表示が一瞬出ますが、このときリファレンスゲノムとし…

IGV (Integrative Genomic Viewer)のインストール(Macの場合)

Broad Instituteが提供しているIGV (Integrative Genomic Viewer)のインストールについての覚え書きです。まず最初に、以下のIGVのPageを開きます。Home | Integrative Genomics Viewer"Download"のところをクリックします。最初は、ユーザ登録を求められる…

BAM fileからunmapped readsを抽出する(samtoolsを使用する)

BAM file (.bam)から、reference sequencesにmapされなかったreadsを抽出する方法について。以下、ちょっとした覚え書き。BAM fileはbwaなどでreference sequence(s)にNGS readsをマッピングした結果のoutput file であるSAM file (.sam)を圧縮したファイル…

WGSデータの参照ゲノム配列へのマッピング (5): VCF fileの生成、アノテーション

2015-08-06Mapping結果の.bam fileから、SNPなどの多型を抽出して、VCF formatのfileを生成します。その後、Variant Effect Predictorを使ってSNPのアノテーションを行います。方法は以前紹介したこのエントリ(VCF fileの生成)や、このエントリ(Variant E…

WGSデータの参照ゲノム配列へのマッピング (4): BWAによるマッピング

2015-08-06ヒトゲノム参照配列に対して、NGSのリード(ERR251633)をbwaを使ってマッピングします。この辺りの解析は、以前のエントリと大体同じです。ただし、今回はmappingの前にNGSのraw dataに前処理をします。MappingするFASTQ fileに対して、qualityの…

WGSデータの参照ゲノム配列へのマッピング (3): ヒトゲノム-リファレンス配列(GRCh37 or GRCh38)のダウンロード

2015-08-05ヒトゲノムのリファレンス配列は、GRCh37またはhg19と呼ばれるデータセットがよく使われています(2013年12月以降は、GRCh38 (hg38)が最新のようです)。GRCh37(またはGRCh38)は、UCSC Genome Browserのページからダウンロードできます。UCSC Ge…

WGSデータの参照ゲノム配列へのマッピング (2): データのダウンロード

2015-08-06まず最初に、マッピングを行うNGSのサンプルデータを入手します。このデータを使用します。 HapMapで使用されている、東京に住む日本人のデータになります。Illumina HiSeq 2000で読まれたデータ(ペアエンド)で、.sraフォーマットで8.9GBありま…

WGSデータの参照ゲノム配列へのマッピング (1): 解析の概要

2015-08-06今回は、NGS (Illumina HiSeq) によって配列決定されたヒト全ゲノムのデータを、ヒトの参照ゲノム配列にマッピングします。ここでの目標は、以下の3つです。1. BWAを用いて、NGS readsをヒトゲノム参照配列にマッピングする 2. SNP情報を.vcf file…

ゲノム決定されている魚類のリスト

全ゲノムがすでに決定されている動物のリストから。ここでは魚類(おもにTeleost fishes)に注目。Wikipediaから。魚類は11種(シーラカンス含む、軟骨魚類と円口類は含まない)。List of sequenced animal genomes - Wikipedia, the free encyclopediaEnsem…