NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

BRAKER3による遺伝子予測(インストール編)

2023年3月3日、遺伝子予測プログラムBrakerの改良版であるBraker3が公開された。Brakerは、RNA-seqなどのtranscriptsをhintとしてゲノム中の遺伝子予測を行うBraker1と、近縁種などのタンパク質アミノ酸配列をhintとして遺伝子予測を行うBraker2があるが、Braker3はそれらの両方を用いて遺伝子予測を行うとのこと。

github.com

(2023.3.8現在)今回、Ubuntu20.04の環境にBraker3を導入したので、インストールについての備忘録的なメモを書いておく。実際の解析結果については、結果が得られたら改めてまとめていくつもり。

インストールした環境

OS: Ubuntu 20.04 LTS
CPU: Intel Xeon(R) CPU ES-2620 @ 2.10 GHz x 24
RAM: 256 GB
Install disk: 2 TB HDD

BRAKER3のインストール

Brakerは依存関係が多いので、一般的にはAnacondaを使ってインストールする(たとえばこのサイト)のが手間が少ないと思われるが、今回はBraker3を使用するため、Anacondaを使わず、依存関係にある全てのプログラムを手動でインストールすることにした(すぐに対応すると思いますが・・・)。

Brakerを動かすにあたって必要なプログラムの一覧、またPerlのモジュールなどは、Brakerのサイトに記載されているので、まずはこれらを一つずつインストールした。

依存するプログラムのインストールで引っかかったところ

  • Diamond: Diamondはversion 0.9.30をapt installで導入した。condaで導入すると、やや古いバージョン(0.8くらい)が入ってしまい、brakerを動かした時に"-outfmt 0が使用できない"というエラーが出て止まってしまう。
  • Perl modules: CPANを使って導入した。cpanの場合、sudoで実行しないとPermission deniedのエラーが出る場合がある。braker.plを実行するさいにモジュールを要求されるので、その度にCPAN installを行なった。

(230318追記)Anaconda3 (miniconda3)で仮想環境を作って、Perl自体も含めてモジュールをconda installするのが良い(参考URL)
(230327追記)↑この場合、GeneMark-ES/ET/EPのPerl and Python scriptのヘッダ部分(使用するPerl等のPATHを指定する部分)をAnacondaに対応して書き換える必要がある こちらのURLを参考にした

  • SAMtools 1.7: condaでは依存関係により、研究室のコンピュータにはSAMtools 1.3.1までしかインストールできなかったので、ソースをダウンロードして自分でビルドした。
  • Augustus: ややこしいので慎重に進める。ソースコードgithubからダウンロードして、ビルドして本体と付属のスクリプトにパスを通す。環境変数AUGUSTUS_CONFIG_PATHを設定する。以下を実行、また.bashrcなどに書き込んでおく。
# "my_path_to_AUGUSTUS"は自身のaugustusのプログラムがあるところのPATH
export AUGUSTUS_CONFIG_PATH=/my_path_to_AUGUSTUS/augustus/config/
  • GeneMark: License keyを入手して、keyを登録する。
  • GeneMark-ETP: このサイトからダウンロードして使用する。

Brakerのインストール

braker.plのあるディレクトリにパスを通す。

(230310追記)Dockerのcontainerによる方法

今回は自分ではやらなかったけど、これが一番簡単&確実なような気がしてきた・・・
hub.docker.com