2014-04-13
VCF fileのフォーマットについては、以下のURLにあるPDF fileに説明されています。ここでは、VCF formatによるDNA多型(SNPおよびindel)の記述方式を読み解いていきます。
http://samtools.github.io/hts-specs/VCFv4.1.pdf
まず、VCF formatについて、上の方にあるheader行を除くと、以下のような形式になっています。(前回の内容も参照)
CHROM POS ID REF ALT QUAL FILTER INFO FORMAT DRR003760.sort.bam DRR003761.sort.bam DRR003762.sort.bam 6 3427377 . ATTACTTA ATTA 71.2 . INDEL;DP=2;VDB=0.0061;AF1=1;AC1=6;DP4=0,0,0,2;MQ=60;FQ=-35 GT:PL:GQ 1/1:110,6,0:7 0/1:0,0,0:3 0/1:0,0,0:3 6 29829653 . G T 35.8 . DP=13;VDB=0.0599;AF1=0.531;AC1=3;DP4=1,3,3,6;MQ=21;FQ=-8.43;PV4=1,7e-08,1,1 GT:PL:GQ 0/1:0,0,0:3 1/1:76,27,0:24 0/0:0,12,29:10 6 29829659 . T C 77.4 . DP=13;VDB=0.0459;AF1=1;AC1=6;DP4=0,0,4,8;MQ=22;FQ=-32.7 GT:PL:GQ 1/1:0,0,0:8 1/1:88,27,0:34 1/1:25,9,0:16
上の例について、Web上の表示では列があっていないので、コピペしてRで読み込んで開いて下さい。(前回の内容も参照)
まず、一番上のheader行(各列の内容を示す)を説明します。
(1) FIXED fields
以下8つのカテゴリは必ず存在する。抜けている値(missing value)は"."で示される。
CHROM: Chromosome番号(ex. 6 <-- chr.6を示す)
POS: 多型サイトの位置(ex. 3427377 <-- 3427377番目の塩基)
ID: 既知の多型ID、たとえばdbSNPの情報などがある場合に、既知の多型サイトであれば、そのID番号が入ります)
REF: Reference配列(ヒトゲノム配列など)における塩基
ALT: Mappingした配列にみられる、referenceと異なる塩基
QUAL: その塩基サイトのPhred scoreを示します。Phred scoreについては英文Wikipediaの説明が参考になります。数字が大きい方がqualityは高い(20 or 30が信頼性の閾値となることが多い)です。
FILTER: (わからない。調べること)
INFO: ここ重要です! ここは、多型サイトについてのいろんな情報を含んでいます。ここでは、重要な部分だけ説明します(詳しくは別エントリで挑戦します)。
INDEL | Indelの多型であることを示す(特に記述がない場合はSNP) |
---|---|
DP | Depth(そのサイトが何回読まれているか)を示す。DP=13なら13回読まれている |
VDB | Variant distance bias. Referenceにreadがマッピングされたときに、多型がどれくらいランダムに分布するかを見る指標(らしい)。アラインメント(マッピング)の正確性の指標(と思われる)。以下も参照 |
AF1 | ALT alleleの頻度(allele frequency)。この値はread自体のデータから推定されるもので、callされた各個体のgenotypeから推定されるものではないことに注意 |
AC1 | ALT alleleの数 |
DP4 | "="のあとの4つの数字はそれぞれ、REFのread depth(forward側), REFのread depth(reverse側), ALTのread depth(forward), ALTのread depth(reverse). 例:DP4=0,0,4,8(ATL allele のforwardからのread, reverseからのreadがそれぞれ4, 8) |
MQ | RMS mapping quality (Root-mean-square mapping quality of covering reads): リンク先も参照 |
FQ | "Phred probability of all samples being the same" |
PV4 | P-values for strand bias, baseQ bias, mapQ bias and tail distance bias(ちょっとわからない <--あとで調べる) |
(2) Genotype fields
複数のサンプル(個体)が含まれるとき、サンプルごとに記述される部分。
FORMAT: genotype fieldsのデータ形式とデータ表示の順序を定義します。これではわかりにくいので、ちょっと具体的に説明します。
FORMAT DRR003760.sort.bam DRR003761.sort.bam DRR003762.sort.bam GT:PL:GQ 1/1:110,6,0:7 0/1:0,0,0:3 0/1:0,0,0:3
FORMAT列のGTというのが、DRR003760.sort.bam列の1/1に、PLが110,6,0に、GQが7に、それぞれに対応しています。Colon ":"が区切りになっています。他のサンプル(個体)も同じです。GT, PL, GQそれぞれの意味は以下です。
GT | Genotype: 0がREF alleleで、1がALT alleleを示す。0/0はREFのホモ接合体、0/1はREFとALTのヘテロ接合体、1/1はALTのホモ接合体を示す |
---|---|
PL | Phred-scaled genotype likelihoods(を整数値に丸めたもの)。要するに、各genotypeのもっともらしさを数値化したもの。おそらく左から1/1, 0/1, 0/0に対応 |
GQ | 条件付き (conditional) genotype quality |