以下は、ほとんど自分用のメモ。
ncbi-genome-downloadなどを使って、NCBI Genomeの魚類ゲノムをまとめてダウンロードしたい場合、"vertebrate_other"を指定すると魚類以外の脊椎動物のゲノムも一緒にダウンロードされてしまうので、ちょっとした工夫が必要になる。
そこで、とりあえず以下のような方法でダウンロードしてみた。
まず、NCBI genomeから、"Actinopteri"(=条鰭類)で検索し、summaryのテキストファイルをダウンロードする。
2. Cyprinodon nevadensis Cyprinodon nevadensis overview Kingdom: Eukaryota Chromosomes: 24 Genome ID: 34521 3. Rhinichthys klamathensis Rhinichthys klamathensis overview Kingdom: Eukaryota Chromosomes: no data Genome ID: 127495 4. Salvelinus Kingdom: Eukaryota Chromosomes: no data Organelles: 1 Genome ID: 86400
Summaryはこんな感じのファイルなので、不要な結果は除いて、学名の行のみを残す(数字.属名+種小名)。
たとえばこんな感じ。
# 学名の行のみ抽出し、通し番号を削除 grep -E "[0-9]+\. [A-Za-z]+ [a-z]+" genome_result.txt | perl -pe "s/[0-9]+\. //" - > genome_result_splist.txt
このリストを使って、シェルスクリプトでncbi-genome-downloadを1種ずつ実行する。たとえばこんな感じ。
# 231223_ncbi_download.sh while read species do echo ${species} sp2=$(echo "${species}" | sed "s/ /_/g") ncbi-genome-download vertebrate_other -s genbank -g "${species}" -R representative -F fasta --output-folder ${sp2} --flat-output done < genome_result_splist.txt
ここでひと工夫。ncbi-genome-downloadで、ただFASTAファイルをダウンロードすると、GenBank IDの名前が付いたファイルのみがダウンロードされて、どれがどの種か分からなくなるので、種名のフォルダ内にFASTA fileがダウンロードされるようにした。