NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

GATKを用いた多型サイトの抽出:-L optionについて

参考URL: https://www.broadinstitute.org/gatk/guide/article?id=4133


GATK HaplotypeCallerを使用して、リファレンスにマッピングされた特定の個人のヒトゲノムからSNPやINDELなどの多型を抽出するとき、-L optionを使用することで、計算量を節約できます。

たとえば、ヒトゲノムの20番染色体のみから多型を抽出する場合、-L optionの引数を以下のように指定します。

# 変数定義
sample=C8W82ANXX_PG1144_01A15_H1
echo ${sample}

# GATK HaplotypeCaller実行
java -Xmx4g -jar GenomeAnalysisTK.jar \
	-rf BadCigar -rf FailsVendorQualityCheck -rf MappingQualityUnavailable \
	-T HaplotypeCaller -R human_g1k_v37_decoy.fasta \
	-I ${sample}.fixmate.dedup.realign.recal.sort.addRG.bam \
	--dbsnp dbsnp_138.b37.vcf \
	--emitRefConfidence GVCF \
	--variant_index_type LINEAR \
	--variant_index_parameter 128000 \
        -L 20 \        # -L 調べたい染色体番号(scaffold, contig)を引数に指定
	-o ${sample}_raw_variants.20.g.vcf

また、たとえばexomeのみで多型を調べたい場合、Broad Instituteが提供している"Broad.human.exome.b37.interval_list"などを使用することで、exon領域のみの多型を抽出できます("Broad.human.exome.b37.interval_list"についてはこちらを参照)。

# 変数定義
sample=C8W82ANXX_PG1144_01A15_H1
echo ${sample}

# GATK HaplotypeCaller実行
java -Xmx4g -jar GenomeAnalysisTK.jar \
	-rf BadCigar -rf FailsVendorQualityCheck -rf MappingQualityUnavailable \
	-T HaplotypeCaller -R human_g1k_v37_decoy.fasta \
	-I ${sample}.fixmate.dedup.realign.recal.sort.addRG.bam \
	--dbsnp dbsnp_138.b37.vcf \
	--emitRefConfidence GVCF \
	--variant_index_type LINEAR \
	--variant_index_parameter 128000 \
        -L Broad.human.exome.b37.interval_list \        # -L Broad.human.exome.b37.interval_listを引数に指定
	-o ${sample}_raw_variants.exome.g.vcf

もちろん、全ゲノム領域を対象にして多型を抽出したい場合は、-L optionなしで解析します。