NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

MiSeqデータのMHC領域へのマッピング(14):Variant Effect PredictorによるSNPのアノテーション(その3)

2015-05-18

ここでは、Variant Effect Predictorで得られたアノテーション情報を含むVCF formatファイルをダウンロードして、Rで読み込む方法を解説します。

4. アノテーション情報を含むVCFファイルをダウンロードする

解析結果の画面(前回の内容参照)で、設定部分の右側"Download"(下図)から、"VCF"をクリックします。

f:id:hashiyuki:20150518160119j:plain

ダウンロードされるファイルを別名で保存します。ここでは"MHC_test4.var.annotated.vcf"とします。このファイルをCotEditorなどで開くとわかりますが、このファイルは改行コードがCR/LFになっているので、Terminal等で開くことも考えて、LFに変換しておきます。

ちなみに"Download"の下の方に見えている"Excel file"のような絵(上図)をクリックすると、.csv形式でファイルが保存され、Excelで開くことができます(Excelを使う場合、これも悪くない)。

5. アノテーション付き".vcf"ファイルをRで読み込む

ダウンロードしたVCFファイル"MHC_test4.var.annotated.vcf"は、Rで読み込むことができます。ただし、Rに読み込む前に一手間かける必要があります。

(1) まず、"MHC_test4.var.annotated.vcf"をCotEditorで開きます。

(2) 「検索」メニューから「検索…」を選択します。

(3)「検索と置換」ウィンドウの「正規表現」をチェックし、検索文字列の窓(上)に"\t"と入力、置換文字列の窓(下)に"|"と入力します(下図)。「すべて置換」をクリックして、"MHC_test4.var.annotated.vcf"のすべてのtabを"|"に変換します。

f:id:hashiyuki:20150518165449j:plain

(4) ファイルを上書き保存します。改行コードがLFになっていることを確認。

(5) Rを起動し、「その他」- 「作業ディレクトリの変更…」で、"MHC_test4.var.annotated.vcf"のあるディレクトリを選択します。

(6) 以下のコマンドで、"MHC_test4.var.annotated.vcf"の内容をRに読み込みます。

MHC_test4_annotated <- read.table("MHC_test4.var.annotated.vcf",header=F, sep="|")

エラーが出なければ、以下のコマンドで読み込まれていることを確認します。

head(MHC_test4_annotated, 10)
              • -

データを読み込めれば、Rを使ってTableの必要な部分のみを抜き出したり、特定の遺伝子や特定のタイプの変異を選択的に得ることができます。

たとえば、"HLA_DPB1"のSNPのうち、アミノ酸を変えるもの (missense_variant)のみを抜き出したい! という場合には、

HLA_DPB1_missense <- subset(MHC_test4_annotated,V11=="HLA-DPB1" & V9=="missense_variant")

とします。

条件に一致するSNP数をカウントするには

length(HLA_DPB1_missense[,1])

とします。