2023年3月3日、遺伝子予測プログラムBrakerの改良版であるBraker3が公開された。Brakerは、RNA-seqなどのtranscriptsをhintとしてゲノム中の遺伝子予測を行うBraker1と、近縁種などのタンパク質アミノ酸配列をhintとして遺伝子予測を行うBraker2があるが、Braker3はそれらの両方を用いて遺伝子予測を行うとのこと。
(2023.3.8現在)今回、Ubuntu20.04の環境にBraker3を導入したので、インストールについての備忘録的なメモを書いておく。実際の解析結果については、結果が得られたら改めてまとめていくつもり。
インストールした環境
OS: Ubuntu 20.04 LTS
CPU: Intel Xeon(R) CPU ES-2620 @ 2.10 GHz x 24
RAM: 256 GB
Install disk: 2 TB HDD
BRAKER3のインストール
Brakerは依存関係が多いので、一般的にはAnacondaを使ってインストールする(たとえばこのサイト)のが手間が少ないと思われるが、今回はBraker3を使用するため、Anacondaを使わず、依存関係にある全てのプログラムを手動でインストールすることにした(すぐに対応すると思いますが・・・)。
Brakerを動かすにあたって必要なプログラムの一覧、またPerlのモジュールなどは、Brakerのサイトに記載されているので、まずはこれらを一つずつインストールした。
依存するプログラムのインストールで引っかかったところ
- Diamond: Diamondはversion 0.9.30をapt installで導入した。condaで導入すると、やや古いバージョン(0.8くらい)が入ってしまい、brakerを動かした時に"-outfmt 0が使用できない"というエラーが出て止まってしまう。
- Perl modules: CPANを使って導入した。cpanの場合、sudoで実行しないとPermission deniedのエラーが出る場合がある。braker.plを実行するさいにモジュールを要求されるので、その度にCPAN installを行なった。
(230318追記)Anaconda3 (miniconda3)で仮想環境を作って、Perl自体も含めてモジュールをconda installするのが良い(参考URL)
(230327追記)↑この場合、GeneMark-ES/ET/EPのPerl and Python scriptのヘッダ部分(使用するPerl等のPATHを指定する部分)をAnacondaに対応して書き換える必要がある こちらのURLを参考にした
- SAMtools 1.7: condaでは依存関係により、研究室のコンピュータにはSAMtools 1.3.1までしかインストールできなかったので、ソースをダウンロードして自分でビルドした。
- Augustus: ややこしいので慎重に進める。ソースコードをgithubからダウンロードして、ビルドして本体と付属のスクリプトにパスを通す。環境変数AUGUSTUS_CONFIG_PATHを設定する。以下を実行、また.bashrcなどに書き込んでおく。
# "my_path_to_AUGUSTUS"は自身のaugustusのプログラムがあるところのPATH export AUGUSTUS_CONFIG_PATH=/my_path_to_AUGUSTUS/augustus/config/
- GeneMark: License keyを入手して、keyを登録する。
- GeneMark-ETP: このサイトからダウンロードして使用する。
Brakerのインストール
braker.plのあるディレクトリにパスを通す。
(230310追記)Dockerのcontainerによる方法
今回は自分ではやらなかったけど、これが一番簡単&確実なような気がしてきた・・・
hub.docker.com