NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

GenomeやRNA-Seq assemblyの結果を確認する: assembly-statsについて

de novo assembleで得られたゲノムやRNA-Seqのデータについての統計値(contig長の平均・中央値・最大値、またN50-N100の値など)を確認したいときに便利なツールとして、assembly-statsを紹介します。

以下のサイトからソースコードをダウンロードしてコンパイルします。

github.com

コンパイルの方法はReadme.mdおよびサイトの指示に従って下さい。cmakeのインストールは必要かもしれません。

使用方法は

assembly-stats Contig.fasta > Contig.stats

のような感じで、outputはこんな感じになります。

stats for Namazu_OE.fasta
sum = 366946480, n = 324791, ave = 1129.79, largest = 25875
N50 = 2488, n = 45468
N60 = 1933, n = 62163
N70 = 1358, n = 84637
N80 = 773, n = 120174
N90 = 382, n = 189190
N100 = 201, n = 324791
N_count = 0
Gaps = 0