最近使用しているNanopore (MinION)のロングリードからのアセンブラ2つ(230203現在:更新しながら公開しています)。
アセンブラ
NECAT
github.com
NextDenovo
github.com
NextDenovoについては、config fileの設定で、スレッド数が使用するコンピュータの上限を超えないようにする。初期設定ではかなり多めなので、私のケースでは、適当に減らす必要があった。
[General] job_type = local # local, slurm, sge, pbs, lsf job_prefix = Prefix.NextDenovo # 生成されるファイルのprefixの設定 task = all # all, correct, assemble rewrite = yes # yes/no deltmp = yes parallel_jobs = 6 # number of tasks used to run in parallel // 並列で走らせるタスクの数 input_type = raw # raw, corrected read_type = clr # clr, ont, hifi input_fofn = input.fofn workdir = 01_rundir [correct_option] read_cutoff = 3k # Read cutoffの設定 duplicated contigsを避けるため、3 kb-5 kbくらいにする genome_size = 1g # estimated genome size sort_options = -m 10g -t 10 # samtools sortの設定 デフォルトでは-m 20g -t 15とかになっているので、適当に減らす minimap2_options_raw = -t 6 # minimap2のスレッド数 適当に減らす 上のparallel jobs x minimap2のthread数が、使用するWSのthreads数上限を超えないように pa_correction = 3 # number of corrected tasks used to run in parallel, each corrected task requires ~TOTAL_INPUT_BASES/4 bytes of memory usage. correction_options = -p 10 [assemble_option] minimap2_options_cns = -t 10 nextgraph_options = -a 1 # see https://nextdenovo.readthedocs.io/en/latest/OPTION.html for a detailed introduction about all the parameters
使用する生物種にもよると思われるけれど、これまで使用していたハイブリッドアセンブラ (MaSuRCA)やロングリードアセンブラ(Flye)と比較して、ややパフォーマンスが向上している実感がある。
また、Haplotigの除去に使用するpurge_dupsも要検討。<-- 230202現在:うまく動かせていない・・・
そのかわりに、purge_haplotigsを使用。こちらはうまく解析を行うことができた。論文では、第3世代(PacBio)用に開発されたとあるが、Nanoporeのロングリードでも問題なくworkするようだ。