NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

Genome

GenBankに公開されている魚類ゲノムのファイルを一括でダウンロードする

以下は、ほとんど自分用のメモ。 ncbi-genome-downloadなどを使って、NCBI Genomeの魚類ゲノムをまとめてダウンロードしたい場合、"vertebrate_other"を指定すると魚類以外の脊椎動物のゲノムも一緒にダウンロードされてしまうので、ちょっとした工夫が必要…

BRAKER3による遺伝子予測(ベンチマーク編)

BRAKER 3.0.0をインストールしたので、それぞれの遺伝子予測方法の結果を比較してみた。インストール編はこちら。 Brakerによる遺伝子予測 GeneMark-EXおよびAUGUSTUSのtrainingに使用する配列情報により、3つの方法が提案されている。 Braker1: トランスク…

BRAKER3による遺伝子予測(インストール編)

2023年3月3日、遺伝子予測プログラムBrakerの改良版であるBraker3が公開された。Brakerは、RNA-seqなどのtranscriptsをhintとしてゲノム中の遺伝子予測を行うBraker1と、近縁種などのタンパク質アミノ酸配列をhintとして遺伝子予測を行うBraker2があるが、Br…

GPUを使ったNanoporeのベースコール比較

NanoporeのMinIONによるロングリードのゲノム決定において、解析のネックとなるのはベースコールであろう。10-20 Gbpのデータであると、outputのFAST5ファイルからベースコールを行うと、guppyのCPU版だと1ヶ月くらいかかることがある。しかしながら、GPUを…

Ubuntu 20.04を入れたノートパソコンでeGPUを使えるようにする

Ubuntu (20.04 LTS)を入れたノートパソコンでeGPUのセッティングをしたので、備忘録的なメモを書いておく。 eGPUの主な使用目的 Nanopore MinIONで読んだゲノム配列のベースコール(guppy_basecaller, dorado) NextGenMapなどによるショートリードのリファレ…

NanoporeロングリードからのアセンブラNECATとNextDenovo

最近使用しているNanopore (MinION)のロングリードからのアセンブラ2つ(230203現在:更新しながら公開しています)。 解析環境 Linux (Ubuntu 16.04 LTS) Intel® Xeon(R) CPU E5-2640 v4 @2.40 GHz x 40 (40 threads), 512 GB RAM アセンブラ NECAT github.…

blasrのインストール(cmakeを使用する)

ずいぶん久しぶりの更新(100日振り!)。でも忘れているわけではないのです・・・ Linux(ubuntu 16.04 LTS)にblasrをインストールした。いろいろ苦戦したので、方法の簡単なメモを残しておく。 blasrについては、以前も別のコンピュータにインストールしこ…

BAM fileにRead Groupを付ける(GATKへの対応)

以下は個人的なメモ(覚え書き)になります。GATKでは、BAM fileにRead Group (@RG)が付いてないとエラーが出て解析ができないようです。でもRead Groupって何、どうやって付けるの? 何を書けばいいの? という点で疑問だったので、ちょっと勉強してみまし…

GATKのインストールについて

VCFファイルの解析に使用するツールとしてGATKをダウンロード、インストールしました。以下は個人的なメモです。GATKのインストールには、以下の本のP.149-154を参照しました。www.amazon.co.jp(1) 下準備今回インストールしたコンピュータはMacBook Air 11i…

GenomeやRNA-Seq assemblyの結果を確認する: assembly-statsについて

de novo assembleで得られたゲノムやRNA-Seqのデータについての統計値(contig長の平均・中央値・最大値、またN50-N100の値など)を確認したいときに便利なツールとして、assembly-statsを紹介します。以下のサイトからソースコードをダウンロードしてコンパ…

非モデル生物ゲノムのde novo assembly(その2):DBG2OLCを使用する(2): 解析の流れ

(2016-03-04 暫定版です)前回の続きです。Illumina NGS (HiSeq, MiSeqなど)のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。ここではDGB2OLCのManualに示されているサンプルデータを用い…

非モデル生物ゲノムのde novo assembly(その2):DBG2OLCを使用する(1): 下準備とインストール

ここでは、Illumina NGS (HiSeq, MiSeqなど)のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。具体的には、DBG2OLCを使った方法について書いていきます。私の使用している環境は、以下になり…

非モデル生物ゲノムのde novo assembly(その1): はじめに、いくつかの方法

2016年現在、次世代シーケンサーを使って、非モデル生物のdraft genomeを個人レベルで決定することもだいぶ現実的になってきました。ここでは、最近試みているNGSで得られたゲノム配列データのde novo assembleについて考えていきます。 (現在、いろいろ試…

IGVの使い方(1): ヒトゲノムannotation情報の取り込み

IGVにRefSeqなど、ヒトゲノム上の遺伝子アノテーションを取り込む方法についてです。IGVでは、"File" メニューの"Load from Server"から、ゲノム上の位置に関連付けられたアノテーション情報を読み込むことができます。(1) "File" -> "Load from Server"の中…

IGV (Integrative Genomic Viewer)を使ってみる

次に、IGVで実際にリファレンスゲノムにreadsがマップされた結果を見てみます。まず、IGVを開きます。デスクトップ上のIGVのエイリアスをダブルクリックします。このとき、IGVでは"Loading genome"という表示が一瞬出ますが、このときリファレンスゲノムとし…

IGV (Integrative Genomic Viewer)のインストール(Macの場合)

Broad Instituteが提供しているIGV (Integrative Genomic Viewer)のインストールについての覚え書きです。まず最初に、以下のIGVのPageを開きます。Home | Integrative Genomics Viewer"Download"のところをクリックします。最初は、ユーザ登録を求められる…

BAM fileからunmapped readsを抽出する(samtoolsを使用する)

BAM file (.bam)から、reference sequencesにmapされなかったreadsを抽出する方法について。以下、ちょっとした覚え書き。BAM fileはbwaなどでreference sequence(s)にNGS readsをマッピングした結果のoutput file であるSAM file (.sam)を圧縮したファイル…

WGSデータの参照ゲノム配列へのマッピング (5): VCF fileの生成、アノテーション

2015-08-06Mapping結果の.bam fileから、SNPなどの多型を抽出して、VCF formatのfileを生成します。その後、Variant Effect Predictorを使ってSNPのアノテーションを行います。方法は以前紹介したこのエントリ(VCF fileの生成)や、このエントリ(Variant E…

WGSデータの参照ゲノム配列へのマッピング (4): BWAによるマッピング

2015-08-06ヒトゲノム参照配列に対して、NGSのリード(ERR251633)をbwaを使ってマッピングします。この辺りの解析は、以前のエントリと大体同じです。ただし、今回はmappingの前にNGSのraw dataに前処理をします。MappingするFASTQ fileに対して、qualityの…

WGSデータの参照ゲノム配列へのマッピング (3): ヒトゲノム-リファレンス配列(GRCh37 or GRCh38)のダウンロード

2015-08-05ヒトゲノムのリファレンス配列は、GRCh37またはhg19と呼ばれるデータセットがよく使われています(2013年12月以降は、GRCh38 (hg38)が最新のようです)。GRCh37(またはGRCh38)は、UCSC Genome Browserのページからダウンロードできます。UCSC Ge…

WGSデータの参照ゲノム配列へのマッピング (2): データのダウンロード

2015-08-06まず最初に、マッピングを行うNGSのサンプルデータを入手します。このデータを使用します。 HapMapで使用されている、東京に住む日本人のデータになります。Illumina HiSeq 2000で読まれたデータ(ペアエンド)で、.sraフォーマットで8.9GBありま…

WGSデータの参照ゲノム配列へのマッピング (1): 解析の概要

2015-08-06今回は、NGS (Illumina HiSeq) によって配列決定されたヒト全ゲノムのデータを、ヒトの参照ゲノム配列にマッピングします。ここでの目標は、以下の3つです。1. BWAを用いて、NGS readsをヒトゲノム参照配列にマッピングする 2. SNP情報を.vcf file…

ゲノム決定されている魚類のリスト

全ゲノムがすでに決定されている動物のリストから。ここでは魚類(おもにTeleost fishes)に注目。Wikipediaから。魚類は11種(シーラカンス含む、軟骨魚類と円口類は含まない)。List of sequenced animal genomes - Wikipedia, the free encyclopediaEnsem…