2015-08-05
ヒトゲノムのリファレンス配列は、GRCh37またはhg19と呼ばれるデータセットがよく使われています(2013年12月以降は、GRCh38 (hg38)が最新のようです)。
GRCh37(またはGRCh38)は、UCSC Genome Browserのページからダウンロードできます。
UCSC Genome Browser -> Genome -> Downloads とメニューをたどっていくと、このページに行きます。このページの下の方に"Human genome"というカテゴリがあるので、そこからFull data setをクリックすると、ダウンロードのページに移動できます。
ここでは、"chromFaMasked.tar.gz"をダウンロードします(GRCh37の場合)。展開すると各染色体ごとのfasta fileの入ったフォルダができます。
(2015-08-06追記)あとでVariant Effect Predictorを使う場合は、対応するリファレンスゲノム配列がGRCh38.p3なので、こちらを使用する必要があります。