NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

GenBankに公開されている魚類ゲノムのファイルを一括でダウンロードする

以下は、ほとんど自分用のメモ。
ncbi-genome-downloadなどを使って、NCBI Genomeの魚類ゲノムをまとめてダウンロードしたい場合、"vertebrate_other"を指定すると魚類以外の脊椎動物のゲノムも一緒にダウンロードされてしまうので、ちょっとした工夫が必要になる。

そこで、とりあえず以下のような方法でダウンロードしてみた。

まず、NCBI genomeから、"Actinopteri"(=条鰭類)で検索し、summaryのテキストファイルをダウンロードする。

2. Cyprinodon nevadensis
Cyprinodon nevadensis overview
Kingdom: Eukaryota
Chromosomes: 24
Genome ID: 34521

3. Rhinichthys klamathensis
Rhinichthys klamathensis overview
Kingdom: Eukaryota

Chromosomes:  no data
                
Genome ID: 127495

4. Salvelinus

Kingdom: Eukaryota

Chromosomes:  no data
                
Organelles: 1
Genome ID: 86400

Summaryはこんな感じのファイルなので、不要な結果は除いて、学名の行のみを残す(数字.属名+種小名)。
たとえばこんな感じ。

# 学名の行のみ抽出し、通し番号を削除
grep -E "[0-9]+\. [A-Za-z]+ [a-z]+" genome_result.txt | perl -pe "s/[0-9]+\. //" - > genome_result_splist.txt

このリストを使って、シェルスクリプトncbi-genome-downloadを1種ずつ実行する。たとえばこんな感じ。

# 231223_ncbi_download.sh
while read species
do
    echo ${species}
    sp2=$(echo "${species}" | sed "s/ /_/g")
    ncbi-genome-download vertebrate_other -s genbank -g "${species}" -R representative -F fasta --output-folder ${sp2} --flat-output
done < genome_result_splist.txt

ここでひと工夫。ncbi-genome-downloadで、ただFASTAファイルをダウンロードすると、GenBank IDの名前が付いたファイルのみがダウンロードされて、どれがどの種か分からなくなるので、種名のフォルダ内にFASTA fileがダウンロードされるようにした。

github.com