NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

2016-01-01から1年間の記事一覧

GATKを用いた多型サイトの抽出:-L optionについて

参考URL: https://www.broadinstitute.org/gatk/guide/article?id=4133 GATK HaplotypeCallerを使用して、リファレンスにマッピングされた特定の個人のヒトゲノムからSNPやINDELなどの多型を抽出するとき、-L optionを使用することで、計算量を節約できます…

BAM fileにRead Groupを付ける(GATKへの対応)

以下は個人的なメモ(覚え書き)になります。GATKでは、BAM fileにRead Group (@RG)が付いてないとエラーが出て解析ができないようです。でもRead Groupって何、どうやって付けるの? 何を書けばいいの? という点で疑問だったので、ちょっと勉強してみまし…

GATKのインストールについて

VCFファイルの解析に使用するツールとしてGATKをダウンロード、インストールしました。以下は個人的なメモです。GATKのインストールには、以下の本のP.149-154を参照しました。www.amazon.co.jp(1) 下準備今回インストールしたコンピュータはMacBook Air 11i…

GenomeやRNA-Seq assemblyの結果を確認する: assembly-statsについて

de novo assembleで得られたゲノムやRNA-Seqのデータについての統計値(contig長の平均・中央値・最大値、またN50-N100の値など)を確認したいときに便利なツールとして、assembly-statsを紹介します。以下のサイトからソースコードをダウンロードしてコンパ…

非モデル生物ゲノムのde novo assembly(その2):DBG2OLCを使用する(2): 解析の流れ

(2016-03-04 暫定版です)前回の続きです。Illumina NGS (HiSeq, MiSeqなど)のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。ここではDGB2OLCのManualに示されているサンプルデータを用い…

非モデル生物ゲノムのde novo assembly(その2):DBG2OLCを使用する(1): 下準備とインストール

ここでは、Illumina NGS (HiSeq, MiSeqなど)のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。具体的には、DBG2OLCを使った方法について書いていきます。私の使用している環境は、以下になり…

非モデル生物ゲノムのde novo assembly(その1): はじめに、いくつかの方法

2016年現在、次世代シーケンサーを使って、非モデル生物のdraft genomeを個人レベルで決定することもだいぶ現実的になってきました。ここでは、最近試みているNGSで得られたゲノム配列データのde novo assembleについて考えていきます。 (現在、いろいろ試…

VCF fileの操作:grepを使用する方法

以前、VCFファイルから必要なデータを抽出する方法として、Rを使う方法を少し書きました。複雑な操作をする時はRが便利と思いますが、比較的簡単な操作(たとえば特定の情報を持つSNPsの行を抽出する場合など)を行う場合は、UNIXのコマンドである"grep"を利…

IGVの使い方(1): ヒトゲノムannotation情報の取り込み

IGVにRefSeqなど、ヒトゲノム上の遺伝子アノテーションを取り込む方法についてです。IGVでは、"File" メニューの"Load from Server"から、ゲノム上の位置に関連付けられたアノテーション情報を読み込むことができます。(1) "File" -> "Load from Server"の中…