NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

MiSeqデータのMHC領域へのマッピング(16):RによるVCF fileの操作 (2):VCF fileから必要な情報を抽出する

2015-06-22

2. VCF fileから必要な情報を含む列のみを抽出し、新しいtableを作る

Variant Effect PredictorでアノテーションをしたVCF fileには様々な情報が含まれていますが、そのままでは情報が多すぎて、ちょっと見づらいです。Rを使うことで、必要な情報のみを含む新しい表を作ることができます。

まず、実際にVCF fileのテーブルを開いてみます。前回の、対立遺伝子頻度および遺伝子型頻度データを付与した"MHC_test4_annotated"を使います。

たとえば、必要な情報の列のみからなる新しいtableを作るときは、以下のように入力します。

## 必要な部分だけを抽出したtableを作る
# 位置、SNP alleles, gene name, ENSEMBL ID, status, genotype, allele freq
MHC_test4_freq <- MHC_test4_annotated[,c(1,2,4,5,11,12,15,53,54,55,56,57,58,59)]

MHC_test4_annotatedの1,2,4,5,11,12,15,53,54,55,56,57,58,59列だけからなる新しいtable "MHC_test4_freq"が作成されます。

参考URL:
R:データフレームの列を入れ替える・削除する。 - Qiita


データのtable(データフレーム)の必要な列を抽出、削除、入れ替えなどを行う方法が紹介されています。