de novo assembleで得られたゲノムやRNA-Seqのデータについての統計値(contig長の平均・中央値・最大値、またN50-N100の値など)を確認したいときに便利なツールとして、assembly-statsを紹介します。
以下のサイトからソースコードをダウンロードしてコンパイルします。
コンパイルの方法はReadme.mdおよびサイトの指示に従って下さい。cmakeのインストールは必要かもしれません。
使用方法は
assembly-stats Contig.fasta > Contig.stats
のような感じで、outputはこんな感じになります。
stats for Namazu_OE.fasta
sum = 366946480, n = 324791, ave = 1129.79, largest = 25875
N50 = 2488, n = 45468
N60 = 1933, n = 62163
N70 = 1358, n = 84637
N80 = 773, n = 120174
N90 = 382, n = 189190
N100 = 201, n = 324791
N_count = 0
Gaps = 0