GenBankに公開されている魚類ゲノムのファイルを一括でダウンロードする

以下は、ほとんど自分用のメモ。 ncbi-genome-downloadなどを使って、NCBI Genomeの魚類ゲノムをまとめてダウンロードしたい場合、"vertebrate_other"を指定すると魚類以外の脊椎動物のゲノムも一緒にダウンロードされてしまうので、ちょっとした工夫が必要…

2023-04-11

BRAKER3による遺伝子予測（ベンチマーク編）

Genome RNA-Seq de novo assembly メモ

BRAKER 3.0.0をインストールしたので、それぞれの遺伝子予測方法の結果を比較してみた。インストール編はこちら。 Brakerによる遺伝子予測 GeneMark-EXおよびAUGUSTUSのtrainingに使用する配列情報により、3つの方法が提案されている。 Braker1: トランスク…

2023-03-08

BRAKER3による遺伝子予測（インストール編）

Tools メモ Genome RNA-Seq de novo assembly

2023年3月3日、遺伝子予測プログラムBrakerの改良版であるBraker3が公開された。Brakerは、RNA-seqなどのtranscriptsをhintとしてゲノム中の遺伝子予測を行うBraker1と、近縁種などのタンパク質アミノ酸配列をhintとして遺伝子予測を行うBraker2があるが、Br…

2023-02-01

GPUを使ったNanoporeのベースコール比較

Genome Nanopore Tools

NanoporeのMinIONによるロングリードのゲノム決定において、解析のネックとなるのはベースコールであろう。10-20 Gbpのデータであると、outputのFAST5ファイルからベースコールを行うと、guppyのCPU版だと1ヶ月くらいかかることがある。しかしながら、GPUを…

2023-01-30

Ubuntu 20.04を入れたノートパソコンでeGPUを使えるようにする

Genome Tools samtools メモ

Ubuntu (20.04 LTS)を入れたノートパソコンでeGPUのセッティングをしたので、備忘録的なメモを書いておく。 eGPUの主な使用目的 Nanopore MinIONで読んだゲノム配列のベースコール（guppy_basecaller, dorado) NextGenMapなどによるショートリードのリファレ…

2022-12-26

NanoporeロングリードからのアセンブラNECATとNextDenovo

Nanopore Tools Genome

最近使用しているNanopore (MinION)のロングリードからのアセンブラ2つ（230203現在：更新しながら公開しています）。解析環境 Linux (Ubuntu 16.04 LTS) Intel® Xeon(R) CPU E5-2640 v4 @2.40 GHz x 40 (40 threads), 512 GB RAM アセンブラ NECAT github.…

2018-03-16

blasrのインストール（cmakeを使用する）

Genome Python Tools de novo assembly メモ

ずいぶん久しぶりの更新（100日振り！）。でも忘れているわけではないのです・・・ Linux（ubuntu 16.04 LTS)にblasrをインストールした。いろいろ苦戦したので、方法の簡単なメモを残しておく。 blasrについては、以前も別のコンピュータにインストールしこ…

2016-05-07

BAM fileにRead Groupを付ける（GATKへの対応）

BWA Genome メモ GATK

以下は個人的なメモ（覚え書き）になります。GATKでは、BAM fileにRead Group (@RG)が付いてないとエラーが出て解析ができないようです。でもRead Groupって何、どうやって付けるの？何を書けばいいの？という点で疑問だったので、ちょっと勉強してみまし…

2016-03-28

GATKのインストールについて

NGS勉強会 Genome メモ VCF format

VCFファイルの解析に使用するツールとしてGATKをダウンロード、インストールしました。以下は個人的なメモです。GATKのインストールには、以下の本のP.149-154を参照しました。www.amazon.co.jp(1) 下準備今回インストールしたコンピュータはMacBook Air 11i…

2016-03-04

GenomeやRNA-Seq assemblyの結果を確認する: assembly-statsについて

Genome RNA-Seq Tools メモ

de novo assembleで得られたゲノムやRNA-Seqのデータについての統計値（contig長の平均・中央値・最大値、またN50-N100の値など）を確認したいときに便利なツールとして、assembly-statsを紹介します。以下のサイトからソースコードをダウンロードしてコンパ…

2016-03-04

非モデル生物ゲノムのde novo assembly（その2）：DBG2OLCを使用する(2): 解析の流れ

DBG2OLC de novo assembly Genome メモ

（2016-03-04 暫定版です）前回の続きです。Illumina NGS (HiSeq, MiSeqなど）のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。ここではDGB2OLCのManualに示されているサンプルデータを用い…

2016-03-02

非モデル生物ゲノムのde novo assembly（その2）：DBG2OLCを使用する(1): 下準備とインストール

Genome de novo assembly Tools DBG2OLC メモ

ここでは、Illumina NGS (HiSeq, MiSeqなど）のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。具体的には、DBG2OLCを使った方法について書いていきます。私の使用している環境は、以下になり…

2016-03-02

非モデル生物ゲノムのde novo assembly（その1）: はじめに、いくつかの方法

Genome de novo assembly メモ

2016年現在、次世代シーケンサーを使って、非モデル生物のdraft genomeを個人レベルで決定することもだいぶ現実的になってきました。ここでは、最近試みているNGSで得られたゲノム配列データのde novo assembleについて考えていきます。（現在、いろいろ試…

2016-01-07

IGVの使い方(1): ヒトゲノムannotation情報の取り込み

NGS勉強会 IGV Genome

IGVにRefSeqなど、ヒトゲノム上の遺伝子アノテーションを取り込む方法についてです。IGVでは、"File" メニューの"Load from Server"から、ゲノム上の位置に関連付けられたアノテーション情報を読み込むことができます。(1) "File" -> "Load from Server"の中…

2015-12-07

IGV (Integrative Genomic Viewer)を使ってみる

NGS勉強会 Genome IGV

次に、IGVで実際にリファレンスゲノムにreadsがマップされた結果を見てみます。まず、IGVを開きます。デスクトップ上のIGVのエイリアスをダブルクリックします。このとき、IGVでは"Loading genome"という表示が一瞬出ますが、このときリファレンスゲノムとし…

2015-12-07

IGV (Integrative Genomic Viewer)のインストール（Macの場合）

NGS勉強会 Genome メモ Tools IGV

Broad Instituteが提供しているIGV (Integrative Genomic Viewer)のインストールについての覚え書きです。まず最初に、以下のIGVのPageを開きます。Home | Integrative Genomics Viewer"Download"のところをクリックします。最初は、ユーザ登録を求められる…

2015-11-20

BAM fileからunmapped readsを抽出する（samtoolsを使用する）

Genome samtools メモ

BAM file (.bam)から、reference sequencesにmapされなかったreadsを抽出する方法について。以下、ちょっとした覚え書き。BAM fileはbwaなどでreference sequence(s)にNGS readsをマッピングした結果のoutput file であるSAM file (.sam)を圧縮したファイル…

2015-08-06

WGSデータの参照ゲノム配列へのマッピング (5): VCF fileの生成、アノテーション

NGS勉強会多型解析 VCF format Genome samtools

2015-08-06Mapping結果の.bam fileから、SNPなどの多型を抽出して、VCF formatのfileを生成します。その後、Variant Effect Predictorを使ってSNPのアノテーションを行います。方法は以前紹介したこのエントリ（VCF fileの生成）や、このエントリ（Variant E…

2015-08-05

WGSデータの参照ゲノム配列へのマッピング (4): BWAによるマッピング

NGS勉強会 Genome 多型解析 BWA samtools

2015-08-06ヒトゲノム参照配列に対して、NGSのリード（ERR251633）をbwaを使ってマッピングします。この辺りの解析は、以前のエントリと大体同じです。ただし、今回はmappingの前にNGSのraw dataに前処理をします。MappingするFASTQ fileに対して、qualityの…

2015-08-05

WGSデータの参照ゲノム配列へのマッピング (3): ヒトゲノム-リファレンス配列（GRCh37 or GRCh38）のダウンロード

NGS勉強会多型解析 Genome

2015-08-05ヒトゲノムのリファレンス配列は、GRCh37またはhg19と呼ばれるデータセットがよく使われています（2013年12月以降は、GRCh38 (hg38)が最新のようです）。GRCh37（またはGRCh38）は、UCSC Genome Browserのページからダウンロードできます。UCSC Ge…

2015-08-04

WGSデータの参照ゲノム配列へのマッピング (2): データのダウンロード

NGS勉強会多型解析 Genome

2015-08-06まず最初に、マッピングを行うNGSのサンプルデータを入手します。このデータを使用します。 HapMapで使用されている、東京に住む日本人のデータになります。Illumina HiSeq 2000で読まれたデータ（ペアエンド）で、.sraフォーマットで8.9GBありま…

2015-08-04

WGSデータの参照ゲノム配列へのマッピング (1): 解析の概要

NGS勉強会多型解析 Genome

2015-08-06今回は、NGS (Illumina HiSeq) によって配列決定されたヒト全ゲノムのデータを、ヒトの参照ゲノム配列にマッピングします。ここでの目標は、以下の3つです。1. BWAを用いて、NGS readsをヒトゲノム参照配列にマッピングする 2. SNP情報を.vcf file…

2015-06-09

ゲノム決定されている魚類のリスト

メモ Genome

全ゲノムがすでに決定されている動物のリストから。ここでは魚類（おもにTeleost fishes）に注目。Wikipediaから。魚類は11種（シーラカンス含む、軟骨魚類と円口類は含まない）。List of sequenced animal genomes - Wikipedia, the free encyclopediaEnsem…

NGSデータ解析まとめ

サカナ研究者の手探りNGS解析（おもに進化生物学）

Genome

GenBankに公開されている魚類ゲノムのファイルを一括でダウンロードする

BRAKER3による遺伝子予測（ベンチマーク編）

BRAKER3による遺伝子予測（インストール編）

GPUを使ったNanoporeのベースコール比較

Ubuntu 20.04を入れたノートパソコンでeGPUを使えるようにする

NanoporeロングリードからのアセンブラNECATとNextDenovo

blasrのインストール（cmakeを使用する）

BAM fileにRead Groupを付ける（GATKへの対応）

GATKのインストールについて

GenomeやRNA-Seq assemblyの結果を確認する: assembly-statsについて

非モデル生物ゲノムのde novo assembly（その2）：DBG2OLCを使用する(2): 解析の流れ

非モデル生物ゲノムのde novo assembly（その2）：DBG2OLCを使用する(1): 下準備とインストール

非モデル生物ゲノムのde novo assembly（その1）: はじめに、いくつかの方法

IGVの使い方(1): ヒトゲノムannotation情報の取り込み

IGV (Integrative Genomic Viewer)を使ってみる

IGV (Integrative Genomic Viewer)のインストール（Macの場合）

BAM fileからunmapped readsを抽出する（samtoolsを使用する）

WGSデータの参照ゲノム配列へのマッピング (5): VCF fileの生成、アノテーション

WGSデータの参照ゲノム配列へのマッピング (4): BWAによるマッピング

WGSデータの参照ゲノム配列へのマッピング (3): ヒトゲノム-リファレンス配列（GRCh37 or GRCh38）のダウンロード

WGSデータの参照ゲノム配列へのマッピング (2): データのダウンロード

WGSデータの参照ゲノム配列へのマッピング (1): 解析の概要

ゲノム決定されている魚類のリスト