NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

MiSeqデータのMHC領域へのマッピング(2):データの入手

2015-03-05

(2) 解析に使用するデータの入手

# ヒトMHCデータのダウンロード(NBDCヒトデータベースから)
DRA (SRA)データのダウンロード:FTPを使用する。ブラウザから直接ダウンロード可能。ここでは、".sra"のファイルをダウンロードする。ここでは
http://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DRA000908
から、DRR003760.sraをダウンロードして以下使用する。

Terminalから、

ftp ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/sralite/ByExp/litesra/DRX/DRX003/

などのように入力して、getコマンドを使ってダウンロードする手もある。

# .sraファイルからfastq形式のファイルを得る
SRA toolkitのコマンド"fastq-dump"を使用

fastq-dump DRR003796.sra

で、fastq file (NGS sequenceのfile format, 特にIllumina sequencer)ができる。

# Reference sequenceの入手(ヒト6番染色体: MHC領域はchr.6に存在)
ヒトリファレンスゲノム: fasta fileを入手 <-- Ensembl Genome Browserから
ftp site: ftp.ensembl.org/pub/release-78/fasta/homo_sapiens/dna/
上記FTPサイト (ftp.ensembl.org)に接続し (anonymous ftp)、フォルダをcdコマンドでたどる
dna/フォルダまで来たら、以下のコマンドを実行

get Homo_sapiens.GRCh38.dna_rm.chromosome.6.fa.gz	# chr.6リファレンスゲノムをダウンロードするコマンド