2015-03-05
(2) 解析に使用するデータの入手
# ヒトMHCデータのダウンロード(NBDCヒトデータベースから)
DRA (SRA)データのダウンロード:FTPを使用する。ブラウザから直接ダウンロード可能。ここでは、".sra"のファイルをダウンロードする。ここでは
http://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DRA000908
から、DRR003760.sraをダウンロードして以下使用する。
Terminalから、
ftp ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/sralite/ByExp/litesra/DRX/DRX003/
などのように入力して、getコマンドを使ってダウンロードする手もある。
# .sraファイルからfastq形式のファイルを得る
SRA toolkitのコマンド"fastq-dump"を使用
fastq-dump DRR003796.sra
で、fastq file (NGS sequenceのfile format, 特にIllumina sequencer)ができる。
# Reference sequenceの入手(ヒト6番染色体: MHC領域はchr.6に存在)
ヒトリファレンスゲノム: fasta fileを入手 <-- Ensembl Genome Browserから
ftp site: ftp.ensembl.org/pub/release-78/fasta/homo_sapiens/dna/
上記FTPサイト (ftp.ensembl.org)に接続し (anonymous ftp)、フォルダをcdコマンドでたどる
dna/フォルダまで来たら、以下のコマンドを実行
get Homo_sapiens.GRCh38.dna_rm.chromosome.6.fa.gz # chr.6リファレンスゲノムをダウンロードするコマンド