NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

メモ

MacでフォーマットしたHDDをLinux (Ubuntu12.04)でマウントする(メモ)

HDDをフォーマットするときにしばしば迷うのでメモ。MacでのHDDのフォーマット(MacOS拡張(ジャーナリング))は、Linux(Ubuntu)で普通に読み書き可能でマウントできるらしい。以下のURLによると、「MacOS拡張(ジャーナリング)」は、HFS+というフォーマ…

GATKを用いた多型サイトの抽出:-L optionについて

参考URL: https://www.broadinstitute.org/gatk/guide/article?id=4133 GATK HaplotypeCallerを使用して、リファレンスにマッピングされた特定の個人のヒトゲノムからSNPやINDELなどの多型を抽出するとき、-L optionを使用することで、計算量を節約できます…

BAM fileにRead Groupを付ける(GATKへの対応)

以下は個人的なメモ(覚え書き)になります。GATKでは、BAM fileにRead Group (@RG)が付いてないとエラーが出て解析ができないようです。でもRead Groupって何、どうやって付けるの? 何を書けばいいの? という点で疑問だったので、ちょっと勉強してみまし…

GATKのインストールについて

VCFファイルの解析に使用するツールとしてGATKをダウンロード、インストールしました。以下は個人的なメモです。GATKのインストールには、以下の本のP.149-154を参照しました。www.amazon.co.jp(1) 下準備今回インストールしたコンピュータはMacBook Air 11i…

GenomeやRNA-Seq assemblyの結果を確認する: assembly-statsについて

de novo assembleで得られたゲノムやRNA-Seqのデータについての統計値(contig長の平均・中央値・最大値、またN50-N100の値など)を確認したいときに便利なツールとして、assembly-statsを紹介します。以下のサイトからソースコードをダウンロードしてコンパ…

非モデル生物ゲノムのde novo assembly(その2):DBG2OLCを使用する(2): 解析の流れ

(2016-03-04 暫定版です)前回の続きです。Illumina NGS (HiSeq, MiSeqなど)のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。ここではDGB2OLCのManualに示されているサンプルデータを用い…

非モデル生物ゲノムのde novo assembly(その2):DBG2OLCを使用する(1): 下準備とインストール

ここでは、Illumina NGS (HiSeq, MiSeqなど)のデータとPacBioのデータの両方を使ってゲノムのde novo assembleを行う (hybrid assembly)方法について書きます。具体的には、DBG2OLCを使った方法について書いていきます。私の使用している環境は、以下になり…

非モデル生物ゲノムのde novo assembly(その1): はじめに、いくつかの方法

2016年現在、次世代シーケンサーを使って、非モデル生物のdraft genomeを個人レベルで決定することもだいぶ現実的になってきました。ここでは、最近試みているNGSで得られたゲノム配列データのde novo assembleについて考えていきます。 (現在、いろいろ試…

IGV (Integrative Genomic Viewer)のインストール(Macの場合)

Broad Instituteが提供しているIGV (Integrative Genomic Viewer)のインストールについての覚え書きです。まず最初に、以下のIGVのPageを開きます。Home | Integrative Genomics Viewer"Download"のところをクリックします。最初は、ユーザ登録を求められる…

BAM fileからunmapped readsを抽出する(samtoolsを使用する)

BAM file (.bam)から、reference sequencesにmapされなかったreadsを抽出する方法について。以下、ちょっとした覚え書き。BAM fileはbwaなどでreference sequence(s)にNGS readsをマッピングした結果のoutput file であるSAM file (.sam)を圧縮したファイル…

.bed fileをUCSC Genome Browserで表示する

2015-06-22Agilent SureDesignによる、captureによるエクソーム解析について、"SureSelect Human All Exon V5"はHLA領域の遺伝子をどのくらいカバーしているかを見てみます。AgilentのSure Designへの登録と、.bed fileの入手方法についてはHSSの方に頂いた…

ゲノム決定されている魚類のリスト

全ゲノムがすでに決定されている動物のリストから。ここでは魚類(おもにTeleost fishes)に注目。Wikipediaから。魚類は11種(シーラカンス含む、軟骨魚類と円口類は含まない)。List of sequenced animal genomes - Wikipedia, the free encyclopediaEnsem…

RNA-Seqデータを用いた系統解析 (1): 解析の方針

RNA-Seqで得られる多数の異なる遺伝子座のデータをもとに系統推定をする方法について、以下では考えていきます。以下には、解析の方針を箇条書きにしてみます(変更の可能性あり)。(1) RNA-Seqによるデータの入手(Illumina MiSeqなどを使用)(2) Reference…

Shell scriptでも試してみる

複数のFASTA fileのinputから、MrBayesのinfileを順次作成して、順次MrBayesによる解析を実行する。各遺伝子ごとの解析結果から、BUCKyのinput file (*.in)をmbsumで作成する。 #!/usr/bin/sh # multi_mb.sh # 0. mrbayes mpiで動く設定にする // まだできて…

Perlスクリプトの記法を試してみる fasta_to_nex.pl

FASTA形式(.fa|.aln|.fasta)の配列ファイル(アラインメント済)をNEXUS形式 (.nex)に変換するスクリプトです。あとでMrBayesで解析を行うため、outfileにはmrbayes block(パラメータは固定)が付きます。引数はワイルドカードに対応していません。繰り返…

このブログの方針

とりあえず、自分が日々作っているNGS関係のPerl scriptの断片とか、NGS関連、進化生物関連のプログラムの使い方とかをopenにしておく、半分以上自分のためのメモ、という使い方でどうか?当面の記事(何か書けそうなもの) Trinity --> TrinotateによるRNA-…

はじめまして

ノロウイルス感染で自主的な出勤停止(今日まで)をしているため、暇なのでとりあえず登録してみた。はてなダイアリーからこちらへ移行 or 並立で始めてみよう。とりあえず どう棲み分けるか こっちのブログタイトル 主な記事内容 をまずは考える。まだ、こ…