Please wait a minute...
图/表 详细信息
基于机器学习鸟声识别算法研究进展
申小虎, 朱翔宇, 史洪飞, 王传之
生物多样性    2023, 31 (11): 23272-.   DOI: 10.17520/biods.2023272
摘要   (790 HTML474 PDF(pc) (2992KB)(998)  

监测生态系统中鸟类多样性的状态和趋势是一项重大挑战, 需要广泛适用的基于机器学习的鸟鸣识别算法。为准确把握基于机器学习的鸟声识别方法的研究现状与发展趋势, 本文介绍了鸟鸣识别任务的基本概念, 并从模型结构设计角度对基于机器学习的鸟鸣识别算法进行概述。鉴于基于机器学习的鸟鸣识别技术的跨学科性质, 根据研究方向将算法分为: 概率模型(probabilistic model)、模板匹配(template matching)、时序分析(time series analysis)、迁移学习(transfer learning)、数据融合(data fusion)、集成学习(ensemble learning)、度量学习(metric learning)和无监督聚类(unsupervised clustering)的鸟鸣识别算法。本文回顾了这些方法在完成鸟声识别任务时的技术脉络, 以及这些算法的特点和局限性, 并比较了它们在鸟鸣识别方面的有效性。本文还讨论了常用的标准化鸟声开源数据集和评估指标。最后, 本文指出当前方法所面临的挑战和该领域潜在的未来研究方向。本综述旨在为从事鸟声识别研究的学者和开发人员提供一个全面的参考框架, 以便更好地理解现有技术和潜在发展趋势。


方法文献
Literature
数据增强
Augmentation
评价标准
Evaluation criteria
实验结果
Test result (%)
鸟类种数
Number of bird species
测试数据集
Test dataset
韩雪等, 2023 否 No 识别平均精度 c-mAP 95.31 11 Macaulay library
颜鑫和李应, 2013 否 No 识别平均精度 c-mAP 94.12 34 Freesound
Joly et al, 2014 否 No 识别平均精度 c-mAP 36.5 501 Xeno-canto
Zabidi et al, 2022 否 No 识别平均精度 c-mAP 94.08 10 Xeno-canto
吴科毅等, 2023 否 No 识别平均精度 c-mAP 89.6 10 白云山数据集 Baiyunshan dataset
Kahl et al, 2021 是 Yes 识别平均精度 c-mAP 79.1 84 Xeno-canto
Ntalampiras, 2018 是 Yes 识别平均精度 c-mAP 92.5 10 Xeno-canto
Lasseck, 2019 是 Yes 识别平均精度 c-mAP 35.6 659 Xeno-canto
Carvalho & Gomes, 2023 否 No 识别平均精度 c-mAP 44.3 91 自建库 Self-building database
LeBien et al, 2020 否 No 识别平均精度 c-mAP 89.3 24 Elyunk National Forest
Xie et al, 2023 否 No 识别平均精度 c-mAP 96.9 10 Xeno-canto
孙斌等, 2015 否 No 识别平均精度 c-mAP 96.0 40 自建库 Self-building database
Salamon et al, 2017 是 Yes 识别平均精度 c-mAP 96.0 43 CLO-43DS
Xie et al, 2019 否 No 识别平均精度 c-mAP 86.3 43 CLO-43DS
谢将剑等, 2020 否 No 识别平均精度 c-mAP 89.4 35 ICML4B
Morgan & Braasch, 2022 否 No 准确率 Accuracy 92.4 12 自建库 Self-building database
Acconcjaioco & Ntalampiras, 2021 否 No 准确率 Accuracy 97.4 6
Xeno-canto
View table in article
表2 不同鸟声识别算法的实验结果比较
正文中引用本图/表的段落
融合策略1中每个网络输出的高维特征通过线性加权融合被连接起来, 并输入到一个额外的完全连接层进行最终分类。策略2则使用简单的求和或乘法操作来对每个网络中获得的决策结果实施融合。策略3通过执行两个向量的张量乘法, 将每个网络的输出进行连接融合, 然后通过一个额外的全连接层将得到的融合向量进行分类。这种融合是两个特征之间成对相互作用的线性组合, 适用于维度完全一致的多源特征。策略4中, 每个网络分别专注于从鸟类图像和鸟声时频图中学习特征, 最终的分类计算为两个网络的softmax分数的平均值。这种策略适用于由不同的结构化网络组成的模型, 不需要考虑特征之间的交互关系。这些策略为鸟声单源融合方法的实施提供了参考。实验结果表明, 双流多模态CNN在策略2中的性能优于其他策略。但需要注意的是, 融合后数据特征维度过高易导致实时性差、系统性能降低的问题。多源数据引入噪声数据的概率更高, 模型需有良好的容错能力来克服这些弊端。
由于缺少统一的基准数据集和评估标准, 各种鸟声识别方法之间的直接比较存在一定困难。为了对上述方法的识别性能进行分析, 本文统计了这些经典算法的实验结果(表2)。绝大部分基于深度学习的方法在鸟类识别任务中达到了90%以上的识别率。然而, 这些实验往往都是在小规模样本数据集上进行的。为了验证深度学习模型在大规模数据集上的识别精度, Lasseck (2019)使用ResNet和Inception网络对659种鸟类的数据集进行了实验, 其分类识别精度c-mAP仅为35.6%。上述研究表明, 围绕深度学习方法开展鸟声识别技术具有巨大发展潜力, 找到有效的数据增强技术和多标签分类模型是提升鸟类识别精度的关键研究方向。
本文的其它图/表