NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

WGSデータの参照ゲノム配列へのマッピング (3): ヒトゲノム-リファレンス配列(GRCh37 or GRCh38)のダウンロード

2015-08-05

ヒトゲノムのリファレンス配列は、GRCh37またはhg19と呼ばれるデータセットがよく使われています(2013年12月以降は、GRCh38 (hg38)が最新のようです)。

GRCh37(またはGRCh38)は、UCSC Genome Browserのページからダウンロードできます。

hgdownload.soe.ucsc.edu

UCSC Genome Browser -> Genome -> Downloads とメニューをたどっていくと、このページに行きます。このページの下の方に"Human genome"というカテゴリがあるので、そこからFull data setをクリックすると、ダウンロードのページに移動できます。

ここでは、"chromFaMasked.tar.gz"をダウンロードします(GRCh37の場合)。展開すると各染色体ごとのfasta fileの入ったフォルダができます。

(2015-08-06追記)あとでVariant Effect Predictorを使う場合は、対応するリファレンスゲノム配列がGRCh38.p3なので、こちらを使用する必要があります。