NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

2021年の抱負・目標

気がついたら2021年になっていました。全然更新していませんが、今年はいろいろ頑張りたいと思います。

2020年は、コロナ禍で本当に大変な年でした。今年に入ってもまだ収束の気配はないばかりか、さらに感染拡大が進んでいて不安になりますが、ワクチンその他の要因で、少しでも早く落ち着くことを期待しています。

今年の抱負は「生産性20%upする!」ということで。

研究についての目標は以下の3つ。
(1) 現在進めている論文を早く投稿する(2報)。1つは3月までになんとかする
(2) 魚類ゲノムに関する論文をあと2報書き始める
(3) 自身が代表の科研費の研究を今年こそは進める

あとは、日々の生活を楽しんで過ごすこと、ですかね。ステイホームはもうしばらくの間はどうしようもないですが、制約の中でも、楽しいことを見つけていきたいものです。

最後に、すべての医療従事者と、エッセンシャルワークに従事している多くの方々に感謝します。いつもありがとうございます。私も教育と研究で、自分ができることを頑張りますね。

軽快なalignment editorのAliView

Macを使っていると、大昔のMacCladeの代わりになるアラインメントエディタがなくてちょっと困ったりする。さすがにもうMacCladeは使えないので、何かないかといつも悩んでいたが、今回見つけたAliViewというソフトが決定版かもしれない。

ormbunkar.se

軽快な動作で、アラインメントファイル(FASTA, ALN, NEXなど対応)を編集できる。最初にEdit modeを選択して、その後はキーボードの操作のみで塩基の書き換え、削除、水平移動などが可能。一通り使ってみた雰囲気では、MacCladeでできていたアラインメントの編集操作はほぼ全て行うことが可能のようだ。操作には少し癖があるが、慣れると使いやすい。

  • space: gapの挿入
  • command + delele: 1塩基の削除
  • command + [atgc]: 1塩基の挿入

など。commandを押しながらの操作が基本になっている。
また

  • "-"を押すとズームアウト
  • "shift and +" でズームイン

となる。

AliViewはフリーで使用できる。Macだけでなく、WindowsLinuxにも対応している。

今時MacCladeを知っている人の方が少ないかもしれないが、後継のMesquiteはちょっと使いにくいし、MEGAMacでは不安定だし、 SeaViewは機能的に制限が多い(簡単な系統樹を書けるのは便利!)など、なかなか良いものがなかったのだが、これで解消されそうだ。

2020年の目標など

2020年になりました。ブログ休眠中ですが、今年は少しずつデータ解析のことを書きたいと思います。
今年の仕事目標は、

(1) 現在書き始めの論文を、ちゃんと書いて投稿する(できれば2報!)
(2) 自分が代表者の科研費の研究を進捗させる(2019年はあまり何もできず・・・)
(3) その他の仕事(教育、編集委員など)をしっかり頑張る

おっと、あとはブログを時々更新する、ということもありましたね。

といったところです。一日が30時間くらいあったらなあ、と思う今日この頃です。

Haplotype networkを作成するソフトPopART

系統地理などでよく使うハプロタイプネットワークの作成で、PopARTというソフトが使いやすい。

http://popart.otago.ac.nz/documentation.shtml

名前の通り、原色のpopなHPである。

ネットワーク図については、minimum spaning networkやmedian joining network, ほかTCSのstatistical parsimony networkなど、6種類くらいのものに対応している。Input fileはNexus形式で、Sequence名についても文字数の制約などはないようだ。

計算結果のネットワーク図は、画面上で直感的に修正できる。こういうソフトは意外となかったので、かなり便利。HP上でのdocumentationも充実している。

[2021.4.19追記] WindowsMacで使用する場合、読み込む.nexファイルがある階層のディレクトリに、日本語名があるとうまく読み込めないようだ。ディレクトリ名には日本語名を入れないようにする。

blasrのインストール(cmakeを使用する)

ずいぶん久しぶりの更新(100日振り!)。でも忘れているわけではないのです・・・
Linuxubuntu 16.04 LTS)にblasrをインストールした。いろいろ苦戦したので、方法の簡単なメモを残しておく。
blasrについては、以前も別のコンピュータにインストールしことがあるが、その時といろいろ違っていたので、改めて記録しておく(またすぐに方法が変わる可能性もあるけれど・・・)。

今回は、前回とは異なり、cmakeを使う方法でインストールした。普通にmakeを使う方法は、自分の環境ではうまく行かなかった。

(1) 下準備
最初に、blasrはPython 2.7で動くので、LinuxPythonが3系になっている場合は、2.7にしておく。以下を参照。
Phython3.6をインストールして切り替える - NGSデータ解析まとめ

cmakeをインストールする。以下のサイト参照にした。普通にapt-get installで問題なくインストールできた。
次に、Ninjaをインストールする。以下のコマンドによる。

sudo apt-get update
sudo apt-get install ninja-build

次に、BOOSTをインストール。このサイトを参照に、sudo apt-get install で普通にインストールできる。
さらに、htslibをインストールする。Githubから最新版をダウンロードしてコンパイルする。

(2) HDF5(libhdf5)のインストール
blasrをコンパイルするために、HDF5が必要なのでインストールする。また、Ubuntu 16.04の場合は、このサイトを参照に、libhdf5をインストールでいいと思う(たぶん)。

以下のようにする。

sudo apt-get install libhdf5-dev

(3) blasrのインストール

インストール方法は、以下のサイトを参考にした。
blasr/INSTALL_CMAKE.md at master · PacificBiosciences/blasr · GitHub

まず最初に、適当なpath(ここでは/home/hashi-linux2/)に"blasr_install"ディレクトリを作成し、gitでblasrをダウンロードする。ダウンロードした"blasr"ディレクトリに入る。

mkdir blasr_install
cd blasr_install
git clone https://github.com/PacificBiosciences/blasr.git --recursive
cd blasr

次に、gitでディレクトリ内容のアップデートを行う。

git submodule update --init --remote

ここで、cmake & ninjaによるcompile, buildを行う。

mkdir build && cd build    # build ディレクトリの作成、その中に移動
cmake -GNinja .. && ninja    # compile & build

うまくコンパイルが終了したら、ディレクトリ内に"blasr"のバイナリができる。ここでエラーが出る場合、メッセージにしたがって必要なライブラリをインストールしたりする必要がある。今回、特に引っかかったのは、このサイトにあるタイプのエラーで、このエラーが出た場合、"build"内にできたすべてのファイル、フォルダを削除して再度compileを行うとうまくいった。

ここまでできたら、今度は環境変数LD_LIBRARY_PATHを設定する。以下をターミナルに入力する。また、設定ファイル.profileにも書いておく(LD_LIBRARY_PATHは、それぞれの環境によって異なるので、適宜書き換えて下さい)。

export LD_LIBRARY_PATH="/home/hashi-linux2/blasr_install/blasr/libcpp/alignment:/home/hashi-linux2/blasr_install/blasr/libcpp/hdf:/home/hashi-linux2/blasr_install/blasr/libcpp/pbdata:/usr/lib/x86_64-linux-gnu/hdf5/serial/:/usr/local/lib/"
# メモ:最後の/usr/local/lib/は"libhts.so.2"の位置(環境によって場所は異なる)

動作確認のため、以下のコマンドを入力する。

./blasr --version

これでusageのメッセージが出れば、compileがうまくいっているので、以下のコマンドでインストールする。

sudo ninja install

これで終了! やれやれ。