Please wait a minute...
图/表 详细信息
基于环境DNA宏条形码的无脊椎动物多样性研究: 生物信息学流程比较与评估
闫姿伶, 陈晓宇, 姚蒙
生物多样性    2026, 34 (1): 25369-.   DOI: 10.17520/biods.2025369
摘要   (597 HTML3 PDF(pc) (896KB)(280)  

近年来, 环境DNA (eDNA)宏条形码技术被广泛应用于生物多样性研究, 但该技术在蓬勃发展的同时仍存在一些方法学问题有待解决。其中一个重要问题是生物信息学处理流程的选择, 尤其是对物种多样性极高的无脊椎动物, 测序结果的处理流程直接影响检测结果, 但目前缺乏对该过程的系统比较评估。本研究使用来源于淡水的eDNA样品进行无脊椎动物宏条形码测序, 比较评估多种生物信息学流程对于无脊椎动物序列处理的影响。研究中选取4种常用的聚类或降噪方法(UPARSE、Swarm、UNOISE和DADA2)以及3种分类分配方法(BOLDigger、BLASTN和朴素贝叶斯分类器), 共组合形成12种生物信息学处理流程。结果显示, DADA2降噪方法与BOLDigger分类分配相结合的处理流程产生了最多的无脊椎动物分子可操作分类单元(MOTU)与最高的分类覆盖度和分类分辨率。4种聚类或降噪方法中, UNOISE和DADA2降噪方法比UPARSE和Swarm聚类方法获得了更多的无脊椎动物MOTU; 3种分类分配方法中, BOLDigger和BLASTN比朴素贝叶斯分类器获得了更高的分类覆盖度和分类分辨率。这些结果对基于eDNA的淡水无脊椎动物多样性研究具有重要的参考价值, 此外还提示针对不同研究类群以及不同条形码区段, 需要相应调整使用的生物信息学方法, 以得到更为准确可靠的生物多样性数据。


处理流程 Pipeline MOTU (Reads) 门 Phylum 纲 Class 目 Order 科 Family 属 Genus 种 Species
UPARSE BOLDigger 1,548 (1,475,851) 13 27 71 141 108 111
BLASTN 984 (1,349,864) 11 22 46 107 92 98
Bayesian 1,391 (1,689,419) 11 19 34 66 71 81
Swarm BOLDigger 2,142 (1,765,422) 14 31 81 148 109 112
BLASTN 1,541 (1,680,656) 11 22 47 108 94 104
Bayesian 2,207 (2,095,227) 11 19 34 67 72 82
UNOISE BOLDigger 2,392 (1,950,275) 14 31 81 153 108 111
BLASTN 1,567 (1,797,455) 11 22 47 108 94 104
Bayesian 2,158 (2,264,348) 11 19 34 67 73 82
DADA2 BOLDigger 2,777 (3,329,666) 14 32 83 164 118 120
BLASTN 1,818 (2,678,329) 11 23 49 113 102 108
Bayesian 2,683 (3,690,943) 11 19 35 71 78 87
View table in article
表1 12种处理流程获得的无脊椎动物MOTU和reads以及分类覆盖度。此处分类覆盖度指不同流程的产出结果在各分类水平上的覆盖广度。
正文中引用本图/表的段落
12种处理流程总共获得984-2,777个无脊椎动物MOTU和1,349,864-3,690,943条reads (表1, 附录1)。其中DADA2和BOLDigger相结合的处理流程保留的无脊椎动物MOTU最多, 和Bayesian相结合的处理流程保留的reads最多; 而UPARSE和BLASTN相结合的处理流程保留的MOTU和reads最少。在4种聚类或降噪方法中, 无论使用哪种分类分配方法, 均是DADA2保留的MOTU和reads最多, 而UPARSE最少。在3种分类分配方法中, 当使用UPARSE、UNOISE和DADA2时均是BOLDigger保留的MOTU最多而Bayesian保留的reads最多, 当使用Swarm时Bayesian保留的MOTU和reads均最多; 但无论使用哪种聚类或降噪方法, 均是BLASTN保留的MOTU和reads最少。此外, DADA2和Bayesian相结合的处理流程单独检测出的MOTU数量最多(836个), 而UPARSE和BLASTN相结合的流程单独检出的MOTU数量最少(2个), 不同聚类或降噪方法共同检测出的无脊椎动物MOTU数量分别为1,491个、940个和1,320个(图3A), 其中有310个是3种分类分配方法共同检出的(图3B)。
不同处理流程获得的无脊椎动物分类覆盖度也存在较大差异(表1)。在门水平上, Swarm、UNOISE和DADA2与BOLDigger相结合的3种处理流程检测出的MOTU共覆盖了14个不同的无脊椎动物门; 其次是UPARSE和BOLDigger相结合的处理流程, 总共覆盖了13个不同的门; 而其余8种处理流程均只覆盖了11个无脊椎动物门。在门以外的其他水平上, 均是DADA2和BOLDigger相结合的处理流程获得了最高的分类水平多样性, 覆盖了32个纲、83个目、164个科、118个属以及120个种; 在纲水平上, 使用Bayesian的4种处理流程覆盖了最少的(19个)无脊椎动物纲; 在目水平上, UPARSE、Swarm和UNOISE与Bayesian相结合的处理流程覆盖了最少的无脊椎动物目, 仅有34个; 而在科、属和种这3个分类水平上, 均是UPARSE和Bayesian相结合的流程获得了最低的分类水平多样性, 仅覆盖66个科、71个属以及81个种。
本文的其它图/表