MiSeqデータのMHC領域へのマッピング（11）：VCF fileについて（1）

2014-04-13

VCF fileのフォーマットについては、以下のURLにあるPDF fileに説明されています。ここでは、VCF formatによるDNA多型（SNPおよびindel）の記述方式を読み解いていきます。

http://samtools.github.io/hts-specs/VCFv4.1.pdf

まず、VCF formatについて、上の方にあるheader行を除くと、以下のような形式になっています。（前回の内容も参照）

CHROM	POS	ID	REF	ALT	QUAL	FILTER	INFO	FORMAT	DRR003760.sort.bam	DRR003761.sort.bam	DRR003762.sort.bam
6	3427377	.	ATTACTTA	ATTA	71.2	.	INDEL;DP=2;VDB=0.0061;AF1=1;AC1=6;DP4=0,0,0,2;MQ=60;FQ=-35	GT:PL:GQ	1/1:110,6,0:7	0/1:0,0,0:3	0/1:0,0,0:3
6	29829653	.	G	T	35.8	.	DP=13;VDB=0.0599;AF1=0.531;AC1=3;DP4=1,3,3,6;MQ=21;FQ=-8.43;PV4=1,7e-08,1,1	GT:PL:GQ	0/1:0,0,0:3	1/1:76,27,0:24	0/0:0,12,29:10
6	29829659	.	T	C	77.4	.	DP=13;VDB=0.0459;AF1=1;AC1=6;DP4=0,0,4,8;MQ=22;FQ=-32.7	GT:PL:GQ	1/1:0,0,0:8	1/1:88,27,0:34	1/1:25,9,0:16

上の例について、Web上の表示では列があっていないので、コピペしてRで読み込んで開いて下さい。（前回の内容も参照）

まず、一番上のheader行（各列の内容を示す）を説明します。

(1) FIXED fields
以下8つのカテゴリは必ず存在する。抜けている値（missing value）は"."で示される。
CHROM: Chromosome番号（ex. 6 <-- chr.6を示す）
POS: 多型サイトの位置（ex. 3427377 <-- 3427377番目の塩基）
ID: 既知の多型ID、たとえばdbSNPの情報などがある場合に、既知の多型サイトであれば、そのID番号が入ります）
REF: Reference配列（ヒトゲノム配列など）における塩基
ALT: Mappingした配列にみられる、referenceと異なる塩基
QUAL: その塩基サイトのPhred scoreを示します。Phred scoreについては英文Wikipediaの説明が参考になります。数字が大きい方がqualityは高い（20 or 30が信頼性の閾値となることが多い）です。
FILTER: （わからない。調べること）
INFO: ここ重要です！　ここは、多型サイトについてのいろんな情報を含んでいます。ここでは、重要な部分だけ説明します（詳しくは別エントリで挑戦します）。

INDEL	Indelの多型であることを示す（特に記述がない場合はSNP）
DP	Depth（そのサイトが何回読まれているか）を示す。DP=13なら13回読まれている
VDB	Variant distance bias. Referenceにreadがマッピングされたときに、多型がどれくらいランダムに分布するかを見る指標（らしい）。アラインメント（マッピング）の正確性の指標（と思われる）。以下も参照
AF1	ALT alleleの頻度（allele frequency）。この値はread自体のデータから推定されるもので、callされた各個体のgenotypeから推定されるものではないことに注意
AC1	ALT alleleの数
DP4	"="のあとの4つの数字はそれぞれ、REFのread depth（forward側）, REFのread depth（reverse側）, ALTのread depth（forward）, ALTのread depth（reverse）. 例：DP4=0,0,4,8（ATL allele のforwardからのread, reverseからのreadがそれぞれ4, 8）
MQ	RMS mapping quality (Root-mean-square mapping quality of covering reads): リンク先も参照
FQ	"Phred probability of all samples being the same"
PV4	P-values for strand bias, baseQ bias, mapQ bias and tail distance bias（ちょっとわからない <--あとで調べる）

(2) Genotype fields
複数のサンプル（個体）が含まれるとき、サンプルごとに記述される部分。
FORMAT: genotype fieldsのデータ形式とデータ表示の順序を定義します。これではわかりにくいので、ちょっと具体的に説明します。

FORMAT       DRR003760.sort.bam   DRR003761.sort.bam   DRR003762.sort.bam
GT:PL:GQ     1/1:110,6,0:7        0/1:0,0,0:3          0/1:0,0,0:3

FORMAT列のGTというのが、DRR003760.sort.bam列の1/1に、PLが110,6,0に、GQが7に、それぞれに対応しています。Colon ":"が区切りになっています。他のサンプル（個体）も同じです。GT, PL, GQそれぞれの意味は以下です。

GT	Genotype: 0がREF alleleで、1がALT alleleを示す。0/0はREFのホモ接合体、0/1はREFとALTのヘテロ接合体、1/1はALTのホモ接合体を示す
PL	Phred-scaled genotype likelihoods（を整数値に丸めたもの）。要するに、各genotypeのもっともらしさを数値化したもの。おそらく左から1/1, 0/1, 0/0に対応
GQ	条件付き (conditional) genotype quality

NGSデータ解析まとめ

サカナ研究者の手探りNGS解析（おもに進化生物学）

MiSeqデータのMHC領域へのマッピング（11）：VCF fileについて（1）