NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

MiSeqデータのMHC領域へのマッピング(11):VCF fileについて(1)

2014-04-13

VCF fileのフォーマットについては、以下のURLにあるPDF fileに説明されています。ここでは、VCF formatによるDNA多型(SNPおよびindel)の記述方式を読み解いていきます。

http://samtools.github.io/hts-specs/VCFv4.1.pdf

まず、VCF formatについて、上の方にあるheader行を除くと、以下のような形式になっています。(前回の内容も参照)

CHROM	POS	ID	REF	ALT	QUAL	FILTER	INFO	FORMAT	DRR003760.sort.bam	DRR003761.sort.bam	DRR003762.sort.bam
6	3427377	.	ATTACTTA	ATTA	71.2	.	INDEL;DP=2;VDB=0.0061;AF1=1;AC1=6;DP4=0,0,0,2;MQ=60;FQ=-35	GT:PL:GQ	1/1:110,6,0:7	0/1:0,0,0:3	0/1:0,0,0:3
6	29829653	.	G	T	35.8	.	DP=13;VDB=0.0599;AF1=0.531;AC1=3;DP4=1,3,3,6;MQ=21;FQ=-8.43;PV4=1,7e-08,1,1	GT:PL:GQ	0/1:0,0,0:3	1/1:76,27,0:24	0/0:0,12,29:10
6	29829659	.	T	C	77.4	.	DP=13;VDB=0.0459;AF1=1;AC1=6;DP4=0,0,4,8;MQ=22;FQ=-32.7	GT:PL:GQ	1/1:0,0,0:8	1/1:88,27,0:34	1/1:25,9,0:16

上の例について、Web上の表示では列があっていないので、コピペしてRで読み込んで開いて下さい。(前回の内容も参照)

まず、一番上のheader行(各列の内容を示す)を説明します。

(1) FIXED fields
以下8つのカテゴリは必ず存在する。抜けている値(missing value)は"."で示される。
CHROM: Chromosome番号(ex. 6 <-- chr.6を示す)
POS: 多型サイトの位置(ex. 3427377 <-- 3427377番目の塩基)
ID: 既知の多型ID、たとえばdbSNPの情報などがある場合に、既知の多型サイトであれば、そのID番号が入ります)
REF: Reference配列(ヒトゲノム配列など)における塩基
ALT: Mappingした配列にみられる、referenceと異なる塩基
QUAL: その塩基サイトのPhred scoreを示します。Phred scoreについては英文Wikipediaの説明が参考になります。数字が大きい方がqualityは高い(20 or 30が信頼性の閾値となることが多い)です。
FILTER: (わからない。調べること)
INFO: ここ重要です! ここは、多型サイトについてのいろんな情報を含んでいます。ここでは、重要な部分だけ説明します(詳しくは別エントリで挑戦します)。

INDELIndelの多型であることを示す(特に記述がない場合はSNP)
DPDepth(そのサイトが何回読まれているか)を示す。DP=13なら13回読まれている
VDBVariant distance bias. Referenceにreadがマッピングされたときに、多型がどれくらいランダムに分布するかを見る指標(らしい)。アラインメント(マッピング)の正確性の指標(と思われる)。以下も参照
AF1ALT alleleの頻度(allele frequency)。この値はread自体のデータから推定されるもので、callされた各個体のgenotypeから推定されるものではないことに注意
AC1ALT alleleの数
DP4"="のあとの4つの数字はそれぞれ、REFのread depth(forward側), REFのread depth(reverse側), ALTのread depth(forward), ALTのread depth(reverse). 例:DP4=0,0,4,8(ATL allele のforwardからのread, reverseからのreadがそれぞれ4, 8)
MQRMS mapping quality (Root-mean-square mapping quality of covering reads): リンク先も参照
FQ"Phred probability of all samples being the same"
PV4P-values for strand bias, baseQ bias, mapQ bias and tail distance bias(ちょっとわからない <--あとで調べる

(2) Genotype fields
複数のサンプル(個体)が含まれるとき、サンプルごとに記述される部分。
FORMAT: genotype fieldsのデータ形式とデータ表示の順序を定義します。これではわかりにくいので、ちょっと具体的に説明します。

FORMAT       DRR003760.sort.bam   DRR003761.sort.bam   DRR003762.sort.bam
GT:PL:GQ     1/1:110,6,0:7        0/1:0,0,0:3          0/1:0,0,0:3

FORMAT列のGTというのが、DRR003760.sort.bam列の1/1に、PLが110,6,0に、GQが7に、それぞれに対応しています。Colon ":"が区切りになっています。他のサンプル(個体)も同じです。GT, PL, GQそれぞれの意味は以下です。

GTGenotype: 0がREF alleleで、1がALT alleleを示す。0/0はREFのホモ接合体、0/1はREFとALTのヘテロ接合体、1/1はALTのホモ接合体を示す
PLPhred-scaled genotype likelihoods(を整数値に丸めたもの)。要するに、各genotypeのもっともらしさを数値化したもの。おそらく左から1/1, 0/1, 0/0に対応
GQ条件付き (conditional) genotype quality