NGSデータ解析まとめ

サカナ研究者の手探りNGS解析(おもに進化生物学)

NanoporeロングリードからのアセンブラNECATとNextDenovo

最近使用しているNanopore (MinION)のロングリードからのアセンブラ2つ(230203現在:更新しながら公開しています)。

解析環境

アセンブラ

NECAT
github.com

NextDenovo
github.com

NextDenovoについては、config fileの設定で、スレッド数が使用するコンピュータの上限を超えないようにする。初期設定ではかなり多めなので、私のケースでは、適当に減らす必要があった。

[General]
job_type = local # local, slurm, sge, pbs, lsf
job_prefix = Prefix.NextDenovo    # 生成されるファイルのprefixの設定
task = all # all, correct, assemble
rewrite = yes     # yes/no
deltmp = yes 
parallel_jobs = 6     # number of tasks used to run in parallel // 並列で走らせるタスクの数
input_type = raw # raw, corrected
read_type = clr # clr, ont, hifi
input_fofn = input.fofn
workdir = 01_rundir

[correct_option]
read_cutoff = 3k  # Read cutoffの設定 duplicated contigsを避けるため、3 kb-5 kbくらいにする
genome_size = 1g # estimated genome size
sort_options = -m 10g -t 10    # samtools sortの設定 デフォルトでは-m 20g -t 15とかになっているので、適当に減らす
minimap2_options_raw = -t 6     # minimap2のスレッド数 適当に減らす 上のparallel jobs x minimap2のthread数が、使用するWSのthreads数上限を超えないように
pa_correction = 3 # number of corrected tasks used to run in parallel, each corrected task requires ~TOTAL_INPUT_BASES/4 bytes of memory usage.
correction_options = -p 10

[assemble_option]
minimap2_options_cns = -t 10 
nextgraph_options = -a 1

# see https://nextdenovo.readthedocs.io/en/latest/OPTION.html for a detailed introduction about all the parameters


使用する生物種にもよると思われるけれど、これまで使用していたハイブリッドアセンブラ (MaSuRCA)やロングリードアセンブラ(Flye)と比較して、ややパフォーマンスが向上している実感がある。

また、Haplotigの除去に使用するpurge_dupsも要検討。<-- 230202現在:うまく動かせていない・・・
そのかわりに、purge_haplotigsを使用。こちらはうまく解析を行うことができた。論文では、第3世代(PacBio)用に開発されたとあるが、Nanoporeのロングリードでも問題なくworkするようだ。