NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

MiSeqデータのMHC領域へのマッピング(12):Variant Effect PredictorによるSNPのアノテーション(その1)

2015-05-18

以下の記事も参考にしています。

ショートリードの憂鬱 - 次世代シーケンサー: Ensembl - Variant Effect Predictor でSNPアノテーション

ここでは、データをリファレンスにマッピングすることで得られた多型(SNP)サイト(7回目の内容も参照)の情報について、個々のSNPに付随する情報(ゲノム上の位置、遺伝子、exon or intron, 同義 or 非同義置換、ミスセンス/ナンセンス変異など)、また既知のSNP IDと一致するかどうかなどを得る方法を説明します。ここでは、VCF formatで示された多型サイト情報を使用します。

1. Variant Effect Predictor

Variant Effect PredictorEnsemblが提供するウェブ上の多型アノテーションツールで、ヒト多型サイトについて以下のような情報を得ることができます。

  • 多型によって影響される遺伝子 (gene)または転写産物 (transcript)
  • 多型の位置 (e.g.転写産物の上流, コード領域, non-coding RNA, 調節領域)
  • タンパク質コード領域に与える影響 (e.g. 終止コドンの生成, アミノ酸の置換, 終止コドンの喪失, フレームシフト)
  • 既知のSNPにおけるSNP ID, 1000 genome project から見つかったSNPのminor allele頻度
  • タンパク質配列の変化に対するSIFT及びPolyPhen scores(<-- あとで説明)

2. Variant Effect Predictorを実行する

(1) まず、"Launch"をクリックします。
(2) 入力画面に行きます。以前に他の解析を行っている場合は、以前の結果に対するリンクが出るので、その場合は"New JEP job"をクリックします。
(3) "Or upload file"で「ファイルを選択」します。ここでは7回目で作った"MHC_test4.var.vcf"を選択します。
(4) 結果のフィルタリングをします。"Filters"の"Restrict results"の部分で、"Show one selected consequence per variant"を選択します。これを選択しないと、1つのSNPについて複数アノテーションが出てしまい、見づらいです。
(5) "Run >"をクリックして解析を実行します。

解析結果の解釈は次のエントリで説明します。