NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

Tools

BRAKER3による遺伝子予測(インストール編)

2023年3月3日、遺伝子予測プログラムBrakerの改良版であるBraker3が公開された。Brakerは、RNA-seqなどのtranscriptsをhintとしてゲノム中の遺伝子予測を行うBraker1と、近縁種などのタンパク質アミノ酸配列をhintとして遺伝子予測を行うBraker2があるが、Br…

GPUを使ったNanoporeのベースコール比較

NanoporeのMinIONによるロングリードのゲノム決定において、解析のネックとなるのはベースコールであろう。10-20 Gbpのデータであると、outputのFAST5ファイルからベースコールを行うと、guppyのCPU版だと1ヶ月くらいかかることがある。しかしながら、GPUを…

Ubuntu 20.04を入れたノートパソコンでeGPUを使えるようにする

Ubuntu (20.04 LTS)を入れたノートパソコンでeGPUのセッティングをしたので、備忘録的なメモを書いておく。 eGPUの主な使用目的 Nanopore MinIONで読んだゲノム配列のベースコール(guppy_basecaller, dorado) NextGenMapなどによるショートリードのリファレ…

NanoporeロングリードからのアセンブラNECATとNextDenovo

最近使用しているNanopore (MinION)のロングリードからのアセンブラ2つ(230203現在:更新しながら公開しています)。 解析環境 Linux (Ubuntu 16.04 LTS) Intel® Xeon(R) CPU E5-2640 v4 @2.40 GHz x 40 (40 threads), 512 GB RAM アセンブラ NECAT github.…

軽快なalignment editorのAliView

Macを使っていると、大昔のMacCladeの代わりになるアラインメントエディタがなくてちょっと困ったりする。さすがにもうMacCladeは使えないので、何かないかといつも悩んでいたが、今回見つけたAliViewというソフトが決定版かもしれない。ormbunkar.se軽快な…

Haplotype networkを作成するソフトPopART

系統地理などでよく使うハプロタイプネットワークの作成で、PopARTというソフトが使いやすい。http://popart.otago.ac.nz/documentation.shtml名前の通り、原色のpopなHPである。ネットワーク図については、minimum spaning networkやmedian joining network…

blasrのインストール(cmakeを使用する)

ずいぶん久しぶりの更新(100日振り!)。でも忘れているわけではないのです・・・ Linux(ubuntu 16.04 LTS)にblasrをインストールした。いろいろ苦戦したので、方法の簡単なメモを残しておく。 blasrについては、以前も別のコンピュータにインストールしこ…

Python3.6をインストールして切り替える

NGS解析のとき、使用するLinux (Ubuntu 16.04)でPyhton 3.6とPyhton 2.7を切り替えることがあるので、その方法についてのメモ。 pyenvを使用する。以下のサイトを参考にした。pyenvのインストールから、python3.6.0のインストールまではこちら。Python3.6.0…

GenomeやRNA-Seq assemblyの結果を確認する: assembly-statsについて

de novo assembleで得られたゲノムやRNA-Seqのデータについての統計値(contig長の平均・中央値・最大値、またN50-N100の値など)を確認したいときに便利なツールとして、assembly-statsを紹介します。以下のサイトからソースコードをダウンロードしてコンパ…

非モデル生物ゲノムのde novo assembly(その2):DBG2OLCを使用する(1): 下準備とインストール

ここでは、Illumina NGS (HiSeq, MiSeqなど)のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。具体的には、DBG2OLCを使った方法について書いていきます。私の使用している環境は、以下になり…

IGV (Integrative Genomic Viewer)のインストール(Macの場合)

Broad Instituteが提供しているIGV (Integrative Genomic Viewer)のインストールについての覚え書きです。まず最初に、以下のIGVのPageを開きます。Home | Integrative Genomics Viewer"Download"のところをクリックします。最初は、ユーザ登録を求められる…

FASTA形式ファイルの(一括)変換

FASTA形式の塩基配列(アミノ酸配列)ファイルをNEXUS形式やPHYLIP形式に変換したい、ということはよくあります。単一のファイルならClustalwやMacCladeを使用して変換できますが、多数のFASTAファイルを扱う場合(数百〜数千遺伝子を用いた系統解析など)、…

MiSeqデータのMHC領域へのマッピング(9):CotEditorのインストール

2015-04-13これから先の解析で、テキストファイルを扱うことが頻繁にあります。また、簡単なプログラム(スクリプト)を作成することもよくあります。したがって、使いやすいテキストエディタがあると便利です。Mac OS Xを使用している場合、私のオススメはC…

MiSeqデータのMHC領域へのマッピング(8):Rのインストール

2015-04-13ここから、VCF formatのファイルを読んで、必要な情報(SNPサイト、SNPの位置・allele頻度、既知のSNPsとの関連など)の抽出を進めていきます。ここからの解析は、おもに統計パッケージのRを使用します。Rは以下のURLから、リンクをたどって入手、…

MiSeqデータのMHC領域へのマッピング(1):プログラムのインストール

2015-03-05概要:ヒトMHC領域を含む6番染色体に、sequence captureで配列決定されたヒト33個体のMHC領域の配列をマッピングする Mac OS XのTerminalを使って解析を行う。詳しい解析はRを使う(--> 次回4/13) 1. 下準備(必要なソフトのインストール、データ…