Please wait a minute...
图/表 详细信息
基于机器学习鸟声识别算法研究进展
申小虎, 朱翔宇, 史洪飞, 王传之
生物多样性    2023, 31 (11): 23272-.   DOI: 10.17520/biods.2023272
摘要   (790 HTML474 PDF(pc) (2992KB)(998)  

监测生态系统中鸟类多样性的状态和趋势是一项重大挑战, 需要广泛适用的基于机器学习的鸟鸣识别算法。为准确把握基于机器学习的鸟声识别方法的研究现状与发展趋势, 本文介绍了鸟鸣识别任务的基本概念, 并从模型结构设计角度对基于机器学习的鸟鸣识别算法进行概述。鉴于基于机器学习的鸟鸣识别技术的跨学科性质, 根据研究方向将算法分为: 概率模型(probabilistic model)、模板匹配(template matching)、时序分析(time series analysis)、迁移学习(transfer learning)、数据融合(data fusion)、集成学习(ensemble learning)、度量学习(metric learning)和无监督聚类(unsupervised clustering)的鸟鸣识别算法。本文回顾了这些方法在完成鸟声识别任务时的技术脉络, 以及这些算法的特点和局限性, 并比较了它们在鸟鸣识别方面的有效性。本文还讨论了常用的标准化鸟声开源数据集和评估指标。最后, 本文指出当前方法所面临的挑战和该领域潜在的未来研究方向。本综述旨在为从事鸟声识别研究的学者和开发人员提供一个全面的参考框架, 以便更好地理解现有技术和潜在发展趋势。



View image in article
图8 Bagging与Boosting集成策略的区别
正文中引用本图/表的段落
集成学习是一种混合建模技术, 能够结合不同模型的分类优势来优化决策。其中, Bagging和Boosting是两种经典的集成策略(徐继伟和杨云, 2018)。图8展示了两者的差异:
虽然某些文献使用了相同的鸟声数据库构建训练、验证和测试数据集, 但由于具体实验样本和选择的鸟种存在差异, 简单地通过实验结果进行性能对比是不合适的.然而, 可以明确的是, 随着识别的鸟类数量的增加, 识别精度呈现下降趋势(Lasseck, 2019).相较于在大量物种条件下采用数据增强技术的算法(Salamon et al, 2017; Kahl et al, 2021), 那些未采用数据增强技术的方法(LeBien et al, 2020; Carvalho & Gomes, 2023)在鸟声识别精度上仍存在很大的提升空间.如迁移学习可以增强模型的泛化能力, 使模型在鸟声识别任务上更好地适应未知数据.但当源领域与目标领域差异过大时, 可能会出现负迁移的情况, 这也解释了为何某些算法实验(Lasseck, 2019; LeBien et al, 2020)没有达到最佳性能.此外, 由于部分文献(Acconcjaioco & Ntalampiras, 2021; Morgan & Braasch, 2022)采用的是开放数据集, 因此选择评估标准为识别准确率(accuracy, Acc), 物种数是指带标签样本的物种数. ...
1
2017
... 为了进一步推动鸟声识别技术的研究与标准数据集的建立, 国内外相关组织举办了多项鸟声识别挑战赛.例如, BirdCLEF专注于鸟声物种识别, DCASE专注于鸟声事件检测, 科大讯飞则自2021年起开始组织国内的鸟类识别挑战赛.其中, 历年BirdCLEF的任务是识别所提供的声景测试集中的所有鸟类, 均为多标签分类任务(含鸟类物种、录音位置、录音时间等).每个声景被分成5 s左右的片段, 参赛团队需对每个片段生成一个与概率分数相关的物种列表.近几年BirdCLEF的获胜团队所采用的模型和分数都被详细列在表3中.参赛者通常会尝试最新的网络结构作为预训练模型.在BirdCLEF2020中, 冠军团队所提出的算法没有使用预训练模型, 转而采用网络结构搜索(neural architecture search, NAS)进行建模, 可根据特定任务进行自适应调整网络架构.而在BirdCLEF2021中, 冠军团队采用了ResNet的变体——注意力分割网络(split-attention networks, ResNeSt) (Zhang C et al, 2021)作为鸟声识别模型.在BirdCLEF2022中, 冠、亚军团队分别采用了NFNet (normalizer-free ResNets) (Brock et al, 2021)和ReNeXt (Xie et al, 2017)模型.这些模型都是在其他鸟声识别研究中未被采用过的.在BirdCLEF2023中, 有参赛团队通过引入新的ConvNeXt网络(Liu et al, 2022)开展集成学习, 并获得了当年的竞赛冠军.该模型以Inception- V4为基础, 参考Transformer结构和训练策略, 采用了更加灵活的多尺度卷积设计.由此可见, 不断地引入新的网络模型和集成学习策略是取得竞赛胜利的关键, 而鸟声识别技术在未来也将持续地从实验室走向实际应用. ...
1
2021
... 在近几年的跨学科研究中, 机器学习技术与鸟声识别的结合引起了广泛的关注.为了深入探究这一主题, 本研究集中分析了自2017年起在多个国际期刊(如Journal of Avian BiologyEcological InformaticsApplied Acoustics)和国内期刊(如《生物多样性》《声学学报》《应用声学》《机器智能研究(英文版)》等)及顶级学术会议(如International Conference on Acoustics, Speech and Signal Processing、International Speech Communication Association、International Conference on Neural Information Processing)上发表的相关文章, 这些文章涵盖了鸟类学、声学技术和人工智能等领域.通过文献检索, 我们发现深度学习已成为鸟声识别研究的主导方法.然而, 一些传统的机器学习方法仍然适用于某些特定场景的鸟声识别(Mehyadin et al, 2021; Xie et al, 2021; 李大鹏等, 2022), 因此在实际应用中需结合数据条件与任务需求决定是否采用深度学习方法(Ghani & Hallerberg, 2021).基于上述考虑, 本文对近年来基于机器学习, 重点是基于深度学习的鸟声识别方法进行了总结与分析, 比较了不同方法之间的性能优劣, 以期为未来的鸟类识别算法研究提供帮助.截至目前, 国内外已有研究学者对鸟声识别技术开展过类似的综述工作.在国内综述文献中, 乔玉等(2020)针对中文文献进行了综述, 重点放在传统机器学习方法上, 对深度学习方法在鸟声识别中的应用介绍得较少, 忽略了深度学习策略对提升鸟声识别精度的帮助; 在国外综述文献中, 学者Priyadarshani等(2018)、Das等(2020)和Xie等(2023)均从信号处理的观点出发对鸟声物种识别的机器学习模型进行过归纳, 但重点放在鸟声预处理、特征提取方法和识别方法的总结上, 缺少对模型架构与学习策略的系统分析.随着近年来深度学习技术在鸟声识别中的进一步应用, 本文拟进一步完善鸟声识别算法的文献综述.本文的工作主要体现在以下3个方面: ...
面向鸟鸣声识别任务的深度学习技术
1
2023
... 在单源特征融合的应用中, Xie等(2019)提出了一个简单朴素的单源特征融合方法.在预处理阶段, 该方法在Mel时频图的基础上进一步提取谐波分量(harmonic component)和瞬态响应分量(transient response component), 用于表征不同声学成分的鸟声时频.上述时频分量图谱分别输入卷积神经网络用于提取高层特征, 并在卷积池化后进行特征拼接融合.谢将剑等(2020)则提出一种基于自适应加权求和的特征级融合鸟声识别方法.该方法通过STFT、Mel倒谱、线性调频小波3类变换分别得到STFT语图、Mel语图和Chirplet语图, 再融合后输入softmax实现分类.上述单源特征融合的相关文献更多关注如何体现不同时频图对鸟声信号更加全面的表征与信息互补.与其他融合方法不同, 谢卓钒等(2023)的研究则更注重高层特征提取器的改造.该研究首先将梅尔谱特征与特征时间维度上的一阶、二阶特征相结合, 对鸟声信息进行表征并完成特征拼接融合.这种数据表征方式的主要创新在于通过DenseNet深层网络模型并引入自注意力机制提升了特征表达能力, 并通过结合交叉熵与中心损失函数来进一步优化网络训练. ...
面向鸟鸣声识别任务的深度学习技术
1
2023
... 在单源特征融合的应用中, Xie等(2019)提出了一个简单朴素的单源特征融合方法.在预处理阶段, 该方法在Mel时频图的基础上进一步提取谐波分量(harmonic component)和瞬态响应分量(transient response component), 用于表征不同声学成分的鸟声时频.上述时频分量图谱分别输入卷积神经网络用于提取高层特征, 并在卷积池化后进行特征拼接融合.谢将剑等(2020)则提出一种基于自适应加权求和的特征级融合鸟声识别方法.该方法通过STFT、Mel倒谱、线性调频小波3类变换分别得到STFT语图、Mel语图和Chirplet语图, 再融合后输入softmax实现分类.上述单源特征融合的相关文献更多关注如何体现不同时频图对鸟声信号更加全面的表征与信息互补.与其他融合方法不同, 谢卓钒等(2023)的研究则更注重高层特征提取器的改造.该研究首先将梅尔谱特征与特征时间维度上的一阶、二阶特征相结合, 对鸟声信息进行表征并完成特征拼接融合.这种数据表征方式的主要创新在于通过DenseNet深层网络模型并引入自注意力机制提升了特征表达能力, 并通过结合交叉熵与中心损失函数来进一步优化网络训练. ...
基于C-LSTM的鸟鸣声识别方法
1
2021
... Adavanne等(2017)成功使用CRNN执行长时鸟声识别任务.Bai等(2018)也在DCASE2018挑战任务3中, 将降噪后的对数质谱图与MFCC谱图输入自定义激活函数的CRNN中进行鸟声事件检测, 达到预期的鸟声识别效果.CRNN结合了CNN和RNN的特点, 将CNN最后的卷积层改为RNN.在CRNN中, CNN和RNN分别承担特征提取和时间聚合的功能.针对RNN存在的梯度消失问题, 有研究(邢照亮等, 2021)将LSTM、GRU等时序模型与其他卷积网络进行比较, 发现CNN-LSTM模型更适合鸟声识别.此外, Carvalho和Gomes (2023)则较为全面地比较了CNN、RNN、LSTM、GRU、CNN-LSTM、CNN-GRU时序模型在91类物种上的表现, 同样得出CRNN及其变种可以更好地适用于鸟声识别的结论.此外, Qiao等(2020)使用Seq2Seq的深度学习方法, 用于无监督条件下的鸟声识别.该方法结合RNN与编码器- 解码器(encoder-decoder)范式来学习高层表示, 并选择使用SVM和多层感知器(multi-layer perceptron, MLP)进行决策输出鸟声类别. ...
基于C-LSTM的鸟鸣声识别方法
1
2021
... Adavanne等(2017)成功使用CRNN执行长时鸟声识别任务.Bai等(2018)也在DCASE2018挑战任务3中, 将降噪后的对数质谱图与MFCC谱图输入自定义激活函数的CRNN中进行鸟声事件检测, 达到预期的鸟声识别效果.CRNN结合了CNN和RNN的特点, 将CNN最后的卷积层改为RNN.在CRNN中, CNN和RNN分别承担特征提取和时间聚合的功能.针对RNN存在的梯度消失问题, 有研究(邢照亮等, 2021)将LSTM、GRU等时序模型与其他卷积网络进行比较, 发现CNN-LSTM模型更适合鸟声识别.此外, Carvalho和Gomes (2023)则较为全面地比较了CNN、RNN、LSTM、GRU、CNN-LSTM、CNN-GRU时序模型在91类物种上的表现, 同样得出CRNN及其变种可以更好地适用于鸟声识别的结论.此外, Qiao等(2020)使用Seq2Seq的深度学习方法, 用于无监督条件下的鸟声识别.该方法结合RNN与编码器- 解码器(encoder-decoder)范式来学习高层表示, 并选择使用SVM和多层感知器(multi-layer perceptron, MLP)进行决策输出鸟声类别. ...
集成学习方法: 研究综述
1
2018
... 集成学习是一种混合建模技术, 能够结合不同模型的分类优势来优化决策.其中, Bagging和Boosting是两种经典的集成策略(徐继伟和杨云, 2018).图8展示了两者的差异: ...
集成学习方法: 研究综述
1
2018
... 集成学习是一种混合建模技术, 能够结合不同模型的分类优势来优化决策.其中, Bagging和Boosting是两种经典的集成策略(徐继伟和杨云, 2018).图8展示了两者的差异: ...
基于MFCC和时频图等多种特征的综合鸟声识别分类器设计
1
2018
... Kaewtip及其合作者于2015年的研究中, 首次提到了“高能显著区域” (high-energy prominent regions)这一术语, 并结合DTW和SVM, 成功地对鸟声片段进行了分割(Kaewtip et al, 2015).不久后, 在2016年, Kaewtip等基于传统的DTW方法, 设计出了一种适合小样本训练数据的稳健的鸟声检测策略(Kaewtip et al, 2016).这一策略的核心步骤是: 首先对时频图进行对齐处理, 然后利用高能显著时频区域来提取对抗噪声(anti-noise)的模板.在模型的训练阶段, 算法通过迭代的方式从训练数据中抽取出可信赖的信息, 并据此为每一种鸟声生成一个匹配模板.值得注意的是, 每一个模板都包括三大部分: 参考时频图、显著区域和1个帧加权函数.而在分类阶段, 给定的时频图会通过动态规划与每一种模板进行比对.另外, 孙斌等(2015)指出, 传统时频图的一大问题是其具有非稳态的特点.为了解决这一问题, 他们提出了一种自适应最优核时频分布(adaptive optimal kernel, AOK)时频图, 能够更好地表示在不同时频尺度下的能量分布.基于AOK时频图, 他们计算了灰度共生矩阵, 进而生成了特征模板, 这些模板随后被用于DTW模板匹配.这种方法在一定程度上提高了模板匹配的效率, 但计算灰度共生矩阵的过程却需要消耗大量的计算资源. DTW还可以与其他手工特征进行融合, 以形成综合特征.例如, 徐淑正等(2018)基于时频纹理特征, 在研究中进一步加入了音节长度、MFCC、DTW等特征, 并采用多分类器的策略进行鸟声分类. ...
基于MFCC和时频图等多种特征的综合鸟声识别分类器设计
1
2018
... Kaewtip及其合作者于2015年的研究中, 首次提到了“高能显著区域” (high-energy prominent regions)这一术语, 并结合DTW和SVM, 成功地对鸟声片段进行了分割(Kaewtip et al, 2015).不久后, 在2016年, Kaewtip等基于传统的DTW方法, 设计出了一种适合小样本训练数据的稳健的鸟声检测策略(Kaewtip et al, 2016).这一策略的核心步骤是: 首先对时频图进行对齐处理, 然后利用高能显著时频区域来提取对抗噪声(anti-noise)的模板.在模型的训练阶段, 算法通过迭代的方式从训练数据中抽取出可信赖的信息, 并据此为每一种鸟声生成一个匹配模板.值得注意的是, 每一个模板都包括三大部分: 参考时频图、显著区域和1个帧加权函数.而在分类阶段, 给定的时频图会通过动态规划与每一种模板进行比对.另外, 孙斌等(2015)指出, 传统时频图的一大问题是其具有非稳态的特点.为了解决这一问题, 他们提出了一种自适应最优核时频分布(adaptive optimal kernel, AOK)时频图, 能够更好地表示在不同时频尺度下的能量分布.基于AOK时频图, 他们计算了灰度共生矩阵, 进而生成了特征模板, 这些模板随后被用于DTW模板匹配.这种方法在一定程度上提高了模板匹配的效率, 但计算灰度共生矩阵的过程却需要消耗大量的计算资源. DTW还可以与其他手工特征进行融合, 以形成综合特征.例如, 徐淑正等(2018)基于时频纹理特征, 在研究中进一步加入了音节长度、MFCC、DTW等特征, 并采用多分类器的策略进行鸟声分类. ...
利用抗噪幂归一化倒谱系数的鸟类声音识别
3
2013
... 基于概率模型的识别法在传统的人声识别研究领域得到了广泛应用, 后来也被成功应用于鸟声识别(Jancovic & Kokuerl, 2011; 颜鑫和李应, 2013).其中, MFCC和LPCC这类声学特征, 因为与人耳听觉特性相契合, 并与频率具有非线性关系, 因而在多种声学特征描述中被采用.不少相关研究(王恩泽和何东健, 2014; Stastny et al, 2018)均使用这些基础特征, 并在其基础上进行进一步的特征设计与实验对比. ...

本文的其它图/表