Please wait a minute...
图/表 详细信息
基于机器学习鸟声识别算法研究进展
申小虎, 朱翔宇, 史洪飞, 王传之
生物多样性    2023, 31 (11): 23272-.   DOI: 10.17520/biods.2023272
摘要   (790 HTML474 PDF(pc) (2992KB)(998)  

监测生态系统中鸟类多样性的状态和趋势是一项重大挑战, 需要广泛适用的基于机器学习的鸟鸣识别算法。为准确把握基于机器学习的鸟声识别方法的研究现状与发展趋势, 本文介绍了鸟鸣识别任务的基本概念, 并从模型结构设计角度对基于机器学习的鸟鸣识别算法进行概述。鉴于基于机器学习的鸟鸣识别技术的跨学科性质, 根据研究方向将算法分为: 概率模型(probabilistic model)、模板匹配(template matching)、时序分析(time series analysis)、迁移学习(transfer learning)、数据融合(data fusion)、集成学习(ensemble learning)、度量学习(metric learning)和无监督聚类(unsupervised clustering)的鸟鸣识别算法。本文回顾了这些方法在完成鸟声识别任务时的技术脉络, 以及这些算法的特点和局限性, 并比较了它们在鸟鸣识别方面的有效性。本文还讨论了常用的标准化鸟声开源数据集和评估指标。最后, 本文指出当前方法所面临的挑战和该领域潜在的未来研究方向。本综述旨在为从事鸟声识别研究的学者和开发人员提供一个全面的参考框架, 以便更好地理解现有技术和潜在发展趋势。



View image in article
图5 迁移学习方法框架
正文中引用本图/表的段落
迁移学习作为一种利用其他领域知识和经验的方法, 已被成功地应用于音频特征的提取中。此方法主要采用预先训练好的神经网络, 将源领域(source domain)的任务知识迁移到目标领域, 达到更好的分类效果, 如图5所示。迁移学习需要关注两个基本问题: (1)源领域任务的选择: 现有研究涉及到的任务包括鸟声识别(Zhang FY et al, 2021)、图像识别(Fritzler et al, 2017)和音乐识别(Ntalampiras, 2018)等。(2)领域模型的选择: 部分研究已选择了CNN、ResNet、Inception-V3等深层模型来解决鸟声识别的复杂场景。
本文概述了基于机器学习的鸟声识别方法, 比较了当前先进识别方法之间的优劣, 并对这些方法的性能进行了分析.尽管目前基于深度学习的鸟声识别方法取得了一定的成绩, 但面向大规模数据样本时, 其准确性和鲁棒性还需要进一步提高, 推广应用仍面临以下挑战: ...
Blind source separation-based IVA-Xception model for bird sound recognition in complex acoustic environments
1
2021
... 基于本文提出的鸟声识别算法分类, 表1列出了具有代表性的鸟声识别方法的特点.从表1中可以看出, 尽管这些鸟声识别算法流程相对统一, 但它们各自针对的任务存在差异.为适应不同的识别任务, 研究者需要选择或设计具有任务适应性强的鸟声识别方法.例如, Lasseck (2019)在多标签训练中发现, 相较于Inception基础网络, ResNet在鸟声物种识别上展现出更出色的效果.Dai等(2021)针对Inception-V3、Xception、EfficientNet-B3这3种CNN架构的改进网络模型进行了鸟声识别效果的评估, 研究指出, 由于Xception结构解耦了跨通道相关性与空间相关性, 因此更适合应用于鲁棒度高的鸟声识别任务.在实际的实施过程中, 也需要考虑代码移植与结构设计的复杂性.例如, Xception结构是由深度可分离卷积层的线性堆栈与残差连接组成, 它能够进行简单的定义和设计修改, 并且存在多个开源实现版本. ...
1
2020
... 在近几年的跨学科研究中, 机器学习技术与鸟声识别的结合引起了广泛的关注.为了深入探究这一主题, 本研究集中分析了自2017年起在多个国际期刊(如Journal of Avian BiologyEcological InformaticsApplied Acoustics)和国内期刊(如《生物多样性》《声学学报》《应用声学》《机器智能研究(英文版)》等)及顶级学术会议(如International Conference on Acoustics, Speech and Signal Processing、International Speech Communication Association、International Conference on Neural Information Processing)上发表的相关文章, 这些文章涵盖了鸟类学、声学技术和人工智能等领域.通过文献检索, 我们发现深度学习已成为鸟声识别研究的主导方法.然而, 一些传统的机器学习方法仍然适用于某些特定场景的鸟声识别(Mehyadin et al, 2021; Xie et al, 2021; 李大鹏等, 2022), 因此在实际应用中需结合数据条件与任务需求决定是否采用深度学习方法(Ghani & Hallerberg, 2021).基于上述考虑, 本文对近年来基于机器学习, 重点是基于深度学习的鸟声识别方法进行了总结与分析, 比较了不同方法之间的性能优劣, 以期为未来的鸟类识别算法研究提供帮助.截至目前, 国内外已有研究学者对鸟声识别技术开展过类似的综述工作.在国内综述文献中, 乔玉等(2020)针对中文文献进行了综述, 重点放在传统机器学习方法上, 对深度学习方法在鸟声识别中的应用介绍得较少, 忽略了深度学习策略对提升鸟声识别精度的帮助; 在国外综述文献中, 学者Priyadarshani等(2018)、Das等(2020)和Xie等(2023)均从信号处理的观点出发对鸟声物种识别的机器学习模型进行过归纳, 但重点放在鸟声预处理、特征提取方法和识别方法的总结上, 缺少对模型架构与学习策略的系统分析.随着近年来深度学习技术在鸟声识别中的进一步应用, 本文拟进一步完善鸟声识别算法的文献综述.本文的工作主要体现在以下3个方面: ...
Speeding up training of automated bird recognizers by data reduction of audio features
1
2020
... 基于概率模型的识别法在鸟声识别中的效果很大程度上依赖于所提取的特征的质量.但同时, 一些传统的分类器, 例如SVM和随机森林(random forest), 在处理大规模数据集时效率较低, 训练时间过长, 且选择核函数和参数调优的过程较为复杂.此外, 手工特征在模型训练中可能导致过拟合现象(De Oliveira et al, 2020), 而某些分类器, 如KNN, 对特征的缩放和噪声敏感, 在克服噪声干扰和提升识别算法稳定性上存在一定的局限性.这些局限性限制了基于概率模型的识别法在鸟声识别领域的进一步发展. ...
1
1882
... 迁移学习作为一种利用其他领域知识和经验的方法, 已被成功地应用于音频特征的提取中.此方法主要采用预先训练好的神经网络, 将源领域(source domain)的任务知识迁移到目标领域, 达到更好的分类效果, 如图5所示.迁移学习需要关注两个基本问题: (1)源领域任务的选择: 现有研究涉及到的任务包括鸟声识别(Zhang FY et al, 2021)、图像识别(Fritzler et al, 2017)和音乐识别(Ntalampiras, 2018)等.(2)领域模型的选择: 部分研究已选择了CNN、ResNet、Inception-V3等深层模型来解决鸟声识别的复杂场景. ...
A randomized bag-of-birds approach to study robustness of automated audio based bird species classification
1
2021
... 在近几年的跨学科研究中, 机器学习技术与鸟声识别的结合引起了广泛的关注.为了深入探究这一主题, 本研究集中分析了自2017年起在多个国际期刊(如Journal of Avian BiologyEcological InformaticsApplied Acoustics)和国内期刊(如《生物多样性》《声学学报》《应用声学》《机器智能研究(英文版)》等)及顶级学术会议(如International Conference on Acoustics, Speech and Signal Processing、International Speech Communication Association、International Conference on Neural Information Processing)上发表的相关文章, 这些文章涵盖了鸟类学、声学技术和人工智能等领域.通过文献检索, 我们发现深度学习已成为鸟声识别研究的主导方法.然而, 一些传统的机器学习方法仍然适用于某些特定场景的鸟声识别(Mehyadin et al, 2021; Xie et al, 2021; 李大鹏等, 2022), 因此在实际应用中需结合数据条件与任务需求决定是否采用深度学习方法(Ghani & Hallerberg, 2021).基于上述考虑, 本文对近年来基于机器学习, 重点是基于深度学习的鸟声识别方法进行了总结与分析, 比较了不同方法之间的性能优劣, 以期为未来的鸟类识别算法研究提供帮助.截至目前, 国内外已有研究学者对鸟声识别技术开展过类似的综述工作.在国内综述文献中, 乔玉等(2020)针对中文文献进行了综述, 重点放在传统机器学习方法上, 对深度学习方法在鸟声识别中的应用介绍得较少, 忽略了深度学习策略对提升鸟声识别精度的帮助; 在国外综述文献中, 学者Priyadarshani等(2018)、Das等(2020)和Xie等(2023)均从信号处理的观点出发对鸟声物种识别的机器学习模型进行过归纳, 但重点放在鸟声预处理、特征提取方法和识别方法的总结上, 缺少对模型架构与学习策略的系统分析.随着近年来深度学习技术在鸟声识别中的进一步应用, 本文拟进一步完善鸟声识别算法的文献综述.本文的工作主要体现在以下3个方面: ...
Comparing recurrent convolutional neural networks for large scale bird species classification
2
2021
... 基于时间序列的识别法面临算法复杂度高的问题, 但新型时序模型, 如Gupta等(2021)引入的勒让德记忆单元(Legendre memory units, LMU) (Voelker et al, 2019), 为鸟声识别提供了新的思路.LMU的核心是Legendre多项式, 它是一组递归的正交多项式.相较于LSTM、GRU等传统时序模型, LMU的工作原理是将整个隐藏状态和输入(时序记忆)重复投影到多个Legendre多项式上.图4展示了经典时序模型的内部结构.可以看到, LSTM有3个门(遗忘门、输入门和输出门), 而GRU仅有两个门(更新门与重置门).GRU具有一个紧凑的门控机制可直接将隐藏状态h传给下一个单元, 而LSTM则用记忆单元把隐藏状态h包装起来, 其状态更新方程分别如式(1)、式(2)所示.LMU相当于没有门控机制的LSTM, 转而使用存储单元概念, 将一个n维状态向量(h)与一个d维内存向量(m)动态耦合, 投影更新方程如式(3)所示. ...

虽然某些文献使用了相同的鸟声数据库构建训练、验证和测试数据集, 但由于具体实验样本和选择的鸟种存在差异, 简单地通过实验结果进行性能对比是不合适的.然而, 可以明确的是, 随着识别的鸟类数量的增加, 识别精度呈现下降趋势(Lasseck, 2019).相较于在大量物种条件下采用数据增强技术的算法(Salamon et al, 2017; Kahl et al, 2021), 那些未采用数据增强技术的方法(LeBien et al, 2020; Carvalho & Gomes, 2023)在鸟声识别精度上仍存在很大的提升空间.如迁移学习可以增强模型的泛化能力, 使模型在鸟声识别任务上更好地适应未知数据.但当源领域与目标领域差异过大时, 可能会出现负迁移的情况, 这也解释了为何某些算法实验(Lasseck, 2019; LeBien et al, 2020)没有达到最佳性能.此外, 由于部分文献(Acconcjaioco & Ntalampiras, 2021; Morgan & Braasch, 2022)采用的是开放数据集, 因此选择评估标准为识别准确率(accuracy, Acc), 物种数是指带标签样本的物种数. ...
Semantic segmentation of aerial imagery via split-attention networks with disentangled nonlocal and edge supervision
1
2021
... 为了进一步推动鸟声识别技术的研究与标准数据集的建立, 国内外相关组织举办了多项鸟声识别挑战赛.例如, BirdCLEF专注于鸟声物种识别, DCASE专注于鸟声事件检测, 科大讯飞则自2021年起开始组织国内的鸟类识别挑战赛.其中, 历年BirdCLEF的任务是识别所提供的声景测试集中的所有鸟类, 均为多标签分类任务(含鸟类物种、录音位置、录音时间等).每个声景被分成5 s左右的片段, 参赛团队需对每个片段生成一个与概率分数相关的物种列表.近几年BirdCLEF的获胜团队所采用的模型和分数都被详细列在表3中.参赛者通常会尝试最新的网络结构作为预训练模型.在BirdCLEF2020中, 冠军团队所提出的算法没有使用预训练模型, 转而采用网络结构搜索(neural architecture search, NAS)进行建模, 可根据特定任务进行自适应调整网络架构.而在BirdCLEF2021中, 冠军团队采用了ResNet的变体——注意力分割网络(split-attention networks, ResNeSt) (Zhang C et al, 2021)作为鸟声识别模型.在BirdCLEF2022中, 冠、亚军团队分别采用了NFNet (normalizer-free ResNets) (Brock et al, 2021)和ReNeXt (Xie et al, 2017)模型.这些模型都是在其他鸟声识别研究中未被采用过的.在BirdCLEF2023中, 有参赛团队通过引入新的ConvNeXt网络(Liu et al, 2022)开展集成学习, 并获得了当年的竞赛冠军.该模型以Inception- V4为基础, 参考Transformer结构和训练策略, 采用了更加灵活的多尺度卷积设计.由此可见, 不断地引入新的网络模型和集成学习策略是取得竞赛胜利的关键, 而鸟声识别技术在未来也将持续地从实验室走向实际应用. ...
An efficient time-domain end-to-end single-channel bird sound separation network
1
2022
... 多头注意力的优势在于: 一方面可以扩展模型获得关注长时鸟声时频图中不同位置的能力; 另一方面赋予注意力层多个表示子空间, 并将时频特征序列映射到不同的空间从而获得更强的长时依赖能力.近期, Transformer模型已被多项研究应用于鸟声检测分离(Zhang et al, 2022)、鸟声特征编码(Tang et al, 2023; 王基豪等, 2023)、端到端鸟声识别(Rauch et al, 2023), 但其在鸟声识别中的进一步优化设计仍是未来研究的焦点. ...
Bird species identification using spectrogram based on multi-channel fusion of DCNNs
3
2021
... 迁移学习作为一种利用其他领域知识和经验的方法, 已被成功地应用于音频特征的提取中.此方法主要采用预先训练好的神经网络, 将源领域(source domain)的任务知识迁移到目标领域, 达到更好的分类效果, 如图5所示.迁移学习需要关注两个基本问题: (1)源领域任务的选择: 现有研究涉及到的任务包括鸟声识别(Zhang FY et al, 2021)、图像识别(Fritzler et al, 2017)和音乐识别(Ntalampiras, 2018)等.(2)领域模型的选择: 部分研究已选择了CNN、ResNet、Inception-V3等深层模型来解决鸟声识别的复杂场景. ...

本文的其它图/表