参考URL: https://www.broadinstitute.org/gatk/guide/article?id=4133
GATK HaplotypeCallerを使用して、リファレンスにマッピングされた特定の個人のヒトゲノムからSNPやINDELなどの多型を抽出するとき、-L optionを使用することで、計算量を節約できます。
たとえば、ヒトゲノムの20番染色体のみから多型を抽出する場合、-L optionの引数を以下のように指定します。
# 変数定義 sample=C8W82ANXX_PG1144_01A15_H1 echo ${sample} # GATK HaplotypeCaller実行 java -Xmx4g -jar GenomeAnalysisTK.jar \ -rf BadCigar -rf FailsVendorQualityCheck -rf MappingQualityUnavailable \ -T HaplotypeCaller -R human_g1k_v37_decoy.fasta \ -I ${sample}.fixmate.dedup.realign.recal.sort.addRG.bam \ --dbsnp dbsnp_138.b37.vcf \ --emitRefConfidence GVCF \ --variant_index_type LINEAR \ --variant_index_parameter 128000 \ -L 20 \ # -L 調べたい染色体番号(scaffold, contig)を引数に指定 -o ${sample}_raw_variants.20.g.vcf
また、たとえばexomeのみで多型を調べたい場合、Broad Instituteが提供している"Broad.human.exome.b37.interval_list"などを使用することで、exon領域のみの多型を抽出できます("Broad.human.exome.b37.interval_list"についてはこちらを参照)。
# 変数定義 sample=C8W82ANXX_PG1144_01A15_H1 echo ${sample} # GATK HaplotypeCaller実行 java -Xmx4g -jar GenomeAnalysisTK.jar \ -rf BadCigar -rf FailsVendorQualityCheck -rf MappingQualityUnavailable \ -T HaplotypeCaller -R human_g1k_v37_decoy.fasta \ -I ${sample}.fixmate.dedup.realign.recal.sort.addRG.bam \ --dbsnp dbsnp_138.b37.vcf \ --emitRefConfidence GVCF \ --variant_index_type LINEAR \ --variant_index_parameter 128000 \ -L Broad.human.exome.b37.interval_list \ # -L Broad.human.exome.b37.interval_listを引数に指定 -o ${sample}_raw_variants.exome.g.vcf
もちろん、全ゲノム領域を対象にして多型を抽出したい場合は、-L optionなしで解析します。