NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

WGSデータの参照ゲノム配列へのマッピング (2): データのダウンロード

2015-08-06

まず最初に、マッピングを行うNGSのサンプルデータを入手します。

このデータを使用します。
HapMapで使用されている、東京に住む日本人のデータになります。Illumina HiSeq 2000で読まれたデータ(ペアエンド)で、.sraフォーマットで8.9GBあります。詳しくはこのURLも参照して下さい。

データはこのFTPサイトに置かれています。Firefoxなどのブラウザなら、直接FTPサイトからダウンロードできます。Safariを使用している場合は、直接FTPサイトに接続できないので、ターミナルからftpコマンドを使って接続します。

以下のようにします。

(1) まず、データをダウンロードしたい(自分のMacの)ディレクトリに移動します。

たとえば、今日の日付フォルダ("150806"など)を適当な場所に作成して、cdコマンドでそのフォルダ内に移動します。

(2) ターミナルのシェルに、以下のように入力します。

ftp ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/ERR/ERR251/ERR251633/

うまくつながれば、一連の文字が表示されたあとに

250 CWD command successful
ftp>

と、"ftp>"コマンド入力を受け付けるモードになります。

このとき、"ERR251633/"の最後の"/"を忘れると

221 goodbye

と表示されて、FTPサイトから抜けてしまうので要注意です。

(3) FTPサイトのディレクトリの位置を確認します。"dir"コマンドを使います。

dir

と入力して

229 Entering Extended Passive Mode (|||50373|)
150 Opening ASCII mode data connection for file list
-r--r--r--   1 ftp      anonymous 8862493705 Apr 10  2013 ERR251633.sra
226 Transfer complete

のように表示されればOKです。

データのダウンロードは、"get"コマンドを使って以下のように行います。

get ERR251633.sra

8.9GBあるので、データのダウンロードにはそれなりに時間がかかります(一晩くらいかかる)。

ちなみに、データのダウンロードが終わってFTPサイトを抜けるときは

bye

と入力します。

追記(LFTPを使う):"LFTP"が使えれば、こちらのほうが早いと思います。LFTPはこのサイトから入手できます。Mac OSの場合、packageを展開するだけでインストールできました。使い方は、コマンドをftpからlftpにするだけで、あとは同じです。