NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

メモ

GenBankに公開されている魚類ゲノムのファイルを一括でダウンロードする

以下は、ほとんど自分用のメモ。 ncbi-genome-downloadなどを使って、NCBI Genomeの魚類ゲノムをまとめてダウンロードしたい場合、"vertebrate_other"を指定すると魚類以外の脊椎動物のゲノムも一緒にダウンロードされてしまうので、ちょっとした工夫が必要…

Rを使って、ゲノム上に遺伝子の位置を表示する

多重遺伝子の分子進化や、複数遺伝子座を使った系統解析で、個々の遺伝子のゲノム上の位置を示した図を作りたい時がありますが、そういう時に使える簡単な方法を調べたところ、以下のサイトがありました。https://stackoverflow.com/questions/33727432/how-…

BRAKER3による遺伝子予測(ベンチマーク編)

BRAKER 3.0.0をインストールしたので、それぞれの遺伝子予測方法の結果を比較してみた。インストール編はこちら。 Brakerによる遺伝子予測 GeneMark-EXおよびAUGUSTUSのtrainingに使用する配列情報により、3つの方法が提案されている。 Braker1: トランスク…

BRAKER3による遺伝子予測(インストール編)

2023年3月3日、遺伝子予測プログラムBrakerの改良版であるBraker3が公開された。Brakerは、RNA-seqなどのtranscriptsをhintとしてゲノム中の遺伝子予測を行うBraker1と、近縁種などのタンパク質アミノ酸配列をhintとして遺伝子予測を行うBraker2があるが、Br…

自分が嫌いだけど好きだった、若い頃の自分へ

「自傷的自己愛」の精神分析 (角川新書)作者:斎藤 環KADOKAWAAmazon斉藤環さんの「自傷的自己愛」の精神分析、とても面白い本だった。この本で書かれている自傷的自己愛というのは、自己評価が低くて、自分はダメな人間だ、とずっと思いながらも、そんな自分…

Ubuntu 20.04を入れたノートパソコンでeGPUを使えるようにする

Ubuntu (20.04 LTS)を入れたノートパソコンでeGPUのセッティングをしたので、備忘録的なメモを書いておく。 eGPUの主な使用目的 Nanopore MinIONで読んだゲノム配列のベースコール(guppy_basecaller, dorado) NextGenMapなどによるショートリードのリファレ…

2021年の抱負・目標

気がついたら2021年になっていました。全然更新していませんが、今年はいろいろ頑張りたいと思います。2020年は、コロナ禍で本当に大変な年でした。今年に入ってもまだ収束の気配はないばかりか、さらに感染拡大が進んでいて不安になりますが、ワクチンその…

軽快なalignment editorのAliView

Macを使っていると、大昔のMacCladeの代わりになるアラインメントエディタがなくてちょっと困ったりする。さすがにもうMacCladeは使えないので、何かないかといつも悩んでいたが、今回見つけたAliViewというソフトが決定版かもしれない。ormbunkar.se軽快な…

Haplotype networkを作成するソフトPopART

系統地理などでよく使うハプロタイプネットワークの作成で、PopARTというソフトが使いやすい。http://popart.otago.ac.nz/documentation.shtml名前の通り、原色のpopなHPである。ネットワーク図については、minimum spaning networkやmedian joining network…

blasrのインストール(cmakeを使用する)

ずいぶん久しぶりの更新(100日振り!)。でも忘れているわけではないのです・・・ Linux(ubuntu 16.04 LTS)にblasrをインストールした。いろいろ苦戦したので、方法の簡単なメモを残しておく。 blasrについては、以前も別のコンピュータにインストールしこ…

Python3.6をインストールして切り替える

NGS解析のとき、使用するLinux (Ubuntu 16.04)でPyhton 3.6とPyhton 2.7を切り替えることがあるので、その方法についてのメモ。 pyenvを使用する。以下のサイトを参考にした。pyenvのインストールから、python3.6.0のインストールまではこちら。Python3.6.0…

MacでフォーマットしたHDDをLinux (Ubuntu12.04)でマウントする(メモ)

HDDをフォーマットするときにしばしば迷うのでメモ。MacでのHDDのフォーマット(MacOS拡張(ジャーナリング))は、Linux(Ubuntu)で普通に読み書き可能でマウントできるらしい。以下のURLによると、「MacOS拡張(ジャーナリング)」は、HFS+というフォーマ…

GATKを用いた多型サイトの抽出:-L optionについて

参考URL: https://www.broadinstitute.org/gatk/guide/article?id=4133 GATK HaplotypeCallerを使用して、リファレンスにマッピングされた特定の個人のヒトゲノムからSNPやINDELなどの多型を抽出するとき、-L optionを使用することで、計算量を節約できます…

BAM fileにRead Groupを付ける(GATKへの対応)

以下は個人的なメモ(覚え書き)になります。GATKでは、BAM fileにRead Group (@RG)が付いてないとエラーが出て解析ができないようです。でもRead Groupって何、どうやって付けるの? 何を書けばいいの? という点で疑問だったので、ちょっと勉強してみまし…

GATKのインストールについて

VCFファイルの解析に使用するツールとしてGATKをダウンロード、インストールしました。以下は個人的なメモです。GATKのインストールには、以下の本のP.149-154を参照しました。www.amazon.co.jp(1) 下準備今回インストールしたコンピュータはMacBook Air 11i…

GenomeやRNA-Seq assemblyの結果を確認する: assembly-statsについて

de novo assembleで得られたゲノムやRNA-Seqのデータについての統計値(contig長の平均・中央値・最大値、またN50-N100の値など)を確認したいときに便利なツールとして、assembly-statsを紹介します。以下のサイトからソースコードをダウンロードしてコンパ…

非モデル生物ゲノムのde novo assembly(その2):DBG2OLCを使用する(2): 解析の流れ

(2016-03-04 暫定版です)前回の続きです。Illumina NGS (HiSeq, MiSeqなど)のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。ここではDGB2OLCのManualに示されているサンプルデータを用い…

非モデル生物ゲノムのde novo assembly(その2):DBG2OLCを使用する(1): 下準備とインストール

ここでは、Illumina NGS (HiSeq, MiSeqなど)のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。具体的には、DBG2OLCを使った方法について書いていきます。私の使用している環境は、以下になり…

非モデル生物ゲノムのde novo assembly(その1): はじめに、いくつかの方法

2016年現在、次世代シーケンサーを使って、非モデル生物のdraft genomeを個人レベルで決定することもだいぶ現実的になってきました。ここでは、最近試みているNGSで得られたゲノム配列データのde novo assembleについて考えていきます。 (現在、いろいろ試…

IGV (Integrative Genomic Viewer)のインストール(Macの場合)

Broad Instituteが提供しているIGV (Integrative Genomic Viewer)のインストールについての覚え書きです。まず最初に、以下のIGVのPageを開きます。Home | Integrative Genomics Viewer"Download"のところをクリックします。最初は、ユーザ登録を求められる…

BAM fileからunmapped readsを抽出する(samtoolsを使用する)

BAM file (.bam)から、reference sequencesにmapされなかったreadsを抽出する方法について。以下、ちょっとした覚え書き。BAM fileはbwaなどでreference sequence(s)にNGS readsをマッピングした結果のoutput file であるSAM file (.sam)を圧縮したファイル…

.bed fileをUCSC Genome Browserで表示する

2015-06-22Agilent SureDesignによる、captureによるエクソーム解析について、"SureSelect Human All Exon V5"はHLA領域の遺伝子をどのくらいカバーしているかを見てみます。AgilentのSure Designへの登録と、.bed fileの入手方法についてはHSSの方に頂いた…

ゲノム決定されている魚類のリスト

全ゲノムがすでに決定されている動物のリストから。ここでは魚類(おもにTeleost fishes)に注目。Wikipediaから。魚類は11種(シーラカンス含む、軟骨魚類と円口類は含まない)。List of sequenced animal genomes - Wikipedia, the free encyclopediaEnsem…

RNA-Seqデータを用いた系統解析 (1): 解析の方針

RNA-Seqで得られる多数の異なる遺伝子座のデータをもとに系統推定をする方法について、以下では考えていきます。以下には、解析の方針を箇条書きにしてみます(変更の可能性あり)。(1) RNA-Seqによるデータの入手(Illumina MiSeqなどを使用)(2) Reference…

Shell scriptでも試してみる

複数のFASTA fileのinputから、MrBayesのinfileを順次作成して、順次MrBayesによる解析を実行する。各遺伝子ごとの解析結果から、BUCKyのinput file (*.in)をmbsumで作成する。 #!/usr/bin/sh # multi_mb.sh # 0. mrbayes mpiで動く設定にする // まだできて…

Perlスクリプトの記法を試してみる fasta_to_nex.pl

FASTA形式(.fa|.aln|.fasta)の配列ファイル(アラインメント済)をNEXUS形式 (.nex)に変換するスクリプトです。あとでMrBayesで解析を行うため、outfileにはmrbayes block(パラメータは固定)が付きます。引数はワイルドカードに対応していません。繰り返…

このブログの方針

とりあえず、自分が日々作っているNGS関係のPerl scriptの断片とか、NGS関連、進化生物関連のプログラムの使い方とかをopenにしておく、半分以上自分のためのメモ、という使い方でどうか?当面の記事(何か書けそうなもの) Trinity --> TrinotateによるRNA-…

はじめまして

ノロウイルス感染で自主的な出勤停止(今日まで)をしているため、暇なのでとりあえず登録してみた。はてなダイアリーからこちらへ移行 or 並立で始めてみよう。とりあえず どう棲み分けるか こっちのブログタイトル 主な記事内容 をまずは考える。まだ、こ…