基于机器学习鸟声识别算法研究进展
申小虎, 朱翔宇, 史洪飞, 王传之
生物多样性
2023, 31 ( 11):
23272-.
DOI: 10.17520/biods.2023272
监测生态系统中鸟类多样性的状态和趋势是一项重大挑战, 需要广泛适用的基于机器学习的鸟鸣识别算法。为准确把握基于机器学习的鸟声识别方法的研究现状与发展趋势, 本文介绍了鸟鸣识别任务的基本概念, 并从模型结构设计角度对基于机器学习的鸟鸣识别算法进行概述。鉴于基于机器学习的鸟鸣识别技术的跨学科性质, 根据研究方向将算法分为: 概率模型(probabilistic model)、模板匹配(template matching)、时序分析(time series analysis)、迁移学习(transfer learning)、数据融合(data fusion)、集成学习(ensemble learning)、度量学习(metric learning)和无监督聚类(unsupervised clustering)的鸟鸣识别算法。本文回顾了这些方法在完成鸟声识别任务时的技术脉络, 以及这些算法的特点和局限性, 并比较了它们在鸟鸣识别方面的有效性。本文还讨论了常用的标准化鸟声开源数据集和评估指标。最后, 本文指出当前方法所面临的挑战和该领域潜在的未来研究方向。本综述旨在为从事鸟声识别研究的学者和开发人员提供一个全面的参考框架, 以便更好地理解现有技术和潜在发展趋势。
文献方法 Literature | 所属类别 Category | 输入 Input | 基础网络 Basic network | 优点 Advantage | 缺点 Disadvantage | 特定问题 Specific issue | 颜鑫和李应, 2013 | 概率模型 Probabilistic model | 抗噪幂归一化倒谱系数 Anti-noise power normalized cepstral coefficients (APNCC) | SVM | 两阶段去噪得到更好的抗噪信息表征 Two-stage denoising for better anti-noise information representation | 滤除部分前景信息, 在纯净条件下识别率下降 Causing a decrease in recognition rate under pure conditions | 环境中的非平稳噪声 Non-stationary noise | Joly et al, 2014 | 概率模型 Probabilistic model | 梅尔倒谱系数 Mel frequency cepstral coefficient (MFCC) | KNN | 采用语义过滤方案过滤了非相关信息 Using semantic filtering to filter out irrelevant information | 弱监督学习容易导致标签噪声 Weak supervised learning can easily lead to label noise | ? | Lasseck, 2015 | 概率模型 Probabilistic model | 低级描述符 Low-level descriptors (LLDs) | DT | 借助特征关注区域降低了模板匹配时间, 提升了泛用性 By utilizing feature focus areas, template matching time is reduced and universality is improved | 特征选择的过程较为复杂 The process of feature selection is relatively complex | ? | 杨春勇等, 2020 | 概率模型 Probabilistic model | 局部二值模式、方向梯度直方图 Local binary pattern (LBP), histogram of oriented gradient (HOG) | KNN | 鸣声能量谱图边缘特征能较好拟合鸟声信息 The edge features of sound energy spectrum are well fitted with bird sound information | HOG特征维度大, 不利于大规模计算 The large dimensionality of HOG features is not conducive to large-scale computing | ? | 韩鹏飞和陈晓, 2022 | 概率模型 Probabilistic model | 梅尔倒谱系数、翻转梅尔倒谱系数 Mel frequency cepstral coefficient (MFCC), Inverted Mel frequency cepstral coefficient (IMFCC) | GA-SVM | 利用IMFCC表征稀疏的高频部分信息 Using IMFCC to represent sparse high-frequency information | 特征权重具有随机性 The feature weights have randomness | ? | Kaewtip et al, 2015 | 模板匹配 Template matching | 时频图 Spectrogram | SVM | 利用DTW和高能时频区域获得噪声鲁棒模板 Using DTW and high-energy time-frequency regions to obtain noise-robust templates | 噪声能量导致高能区域被覆盖, 其算法性能会产生退化 Noise energy causes high-energy areas to be covered, resulting in degradation of algorithm performance | 有限训练数据 Limited training data | 孙斌等, 2015 | 模板匹配 Template matching | 最优核时频分布 Adaptive optimal kernel (AOK) | ? | 时频模板特征数据量小可降低匹配计算量 The small amount of feature data in time-frequency templates can reduce the amount of matching computation | 灰度共生法提取特征计算量较大, 算法复杂性高 The gray level co-occurrence method requires a large amount of computation for feature extraction and has high algorithm complexity | ? | Gupta et al, 2021 | 时间序列 Timing analysis | 时频图 Spectrogram | CNN-LSTM CNN-GRU CNN-LMU | LMU单元使用差异化正交化记忆机制, 提升长时依赖能力并减少了模型参数 The LMU unit uses a differentiated orthogonalization memory mechanism to enhance long-term dependency and reduce model parameters | ? | 大规模鸟类预测 Large scale bird species prediction | Qiao et al, 2020 | 时间序列 Timing analysis | 时频图 Spectrogram | BiRNN-BiRNN | 无监督序列到序列模型来学习更高层表示, 从而有效获得上下文信息 Unsupervised sequence to sequence model for learning higher-level representations and effectively obtaining effective contextual information | 缺乏合理的缺失值处理机制 Lack of a mechanism for handling missing values | ? | Carvalho & Gomes, 2023 | 时间序列 Timing analysis | 梅尔倒谱系数、梅尔时 频图 MFCC, Mel spectrogram | LSTM、GRU、CRNN等 | CNN-GRU降低了计算复杂度, 更易收敛 CNN-GRU reduces computational complexity and makes convergence easier | 仍然不能完全解决梯度消失问题 Still unable to completely solve the problem of gradient disappearance | ? | 文献方法 Literature | 所属类别 Category | 输入 Input | 基础网络 Basic network | 优点 Advantage | 缺点 Disadvantage | 特定问题 Specific issue | Lasseck, 2019 | 迁移学习 Transfer learning | 时频图 Spectrogram | Inception ResNet | 采用不同数据增强技术提升了精度与模型泛用性 Utilizing different data augmentation techniques to improve accuracy and model universality | 训练时间长 Learning for more time | 多标签分类问题 Multi- label classification issues | Ntalampiras, 2018 | 迁移学习 Transfer learning | 梅尔倒谱系数 MFCC | HMM | 通过音乐分类概率密度分布来获取鸟声分类知识 Obtaining knowledge of bird sound classification through probability density distribution of music classification | 非平稳噪声会导致知识迁移效果差 Non stationary noise leads to poor knowledge transfer performance | 非深度框架的迁移学习 Transfer learning in traditional machine learning frameworks | LeBien et al, 2020 | 迁移学习 Transfer learning | 时频图 Spectrogram | ResNet50 | 通过假阳性检测训练来整合每个类的相关缺失信息 Integrate relevant missing information for each class by false positive detection training | ? | 跨物种知识迁移 Cross species knowledge transfer | 谢将剑等, 2020 | 数据融合 Data-fusion | 短时傅里叶变换、Mel倒谱变换、线调频小波变换 Short-time Fourier transform (STFT), Mel frequency cepstral transform (MFCT), Chirplet transform (CT) | VGG | 特征加权确保在特征融合下不增加特征维度 Feature weighting ensures that feature dimensions are not added during feature fusion | 未考虑不同语图条件下的模型结构 Model structure without considering different spectrograms | ? | Xie et al, 2019 | 数据融合 Data-fusion | 梅尔时频图、谐波谱图、瞬态响应谱图 Mel-spectrogram, Harmonic-component, Percussive- component | VGG | 三种谱图表征了鸟声中的不同成分, 同时分别训练避免不同特征分量间的干扰 Three spectrograms represent different components of birdsong, while training separately to avoid interference between different feature components | 训练效率较低 Low training efficiency | ? | Salamon et al, 2017 | 数据融合 Data-fusion | 时频图 Spectrogram | SKM、CNN | 充分挖掘了模型对不同特征预测的互补特性 Fully mining the complementary characteristics of the model for predicting different features | 易产生决策结果偏差 Easy to generate deviation in decision results | ? | Bold et al, 2019 | 数据融合 Data-fusion | 鸟类图像、时频图 Bird images, spectrograms | CaffeNet | 双流多模态CNN在后期的融合策略使鸟类原始图像成为鸟声识别的有效补充 The dual-stream multimodal CNN fusion strategy in the later stage makes the bird images an effective supplement to bird sound recognition | 融合后数据特征维度过高易导致实时性差、系统性能降低 High dimensionality of fused data features can lead to poor real-time performance and reduced system performance | ? | Xie et al, 2023 | 数据融合 Data-fusion | MFCC融合特征图 MFCC fusion feature map | DenseNet 121 | 模型空间复杂度较低 Low model space complexity | 训练过度消耗内存, 不适合大规模训练 Excessive memory consumption during training, not suitable for large-scale training | | Conde et al, 2021 | 集成学习 Ensemble learning | 时频图 Spectrogram | ResNeSt-50 EfficientNet DenseNet 121 | 使用多标签来提升鸟类种类的预测概率 Using multi- lables to improve the prediction probability of bird species | 模型堆叠泛用性不高 Low universality of model stacking | 弱监督鸟声分类问题 Weak supervised birdsong classification problem | 文献方法 Literature | 所属类别 Category | 输入 Input | 基础网络 Basic network | 优点 Advantage | 缺点 Disadvantage | 特定问题 Specific issue | Morgan & Braasch, 2022 | 度量学习 Metric learning | 时频图 Spectrogram | VGG16 | 分层网络在无标记数据条件下实现显著的性能提升 Layered networks achieve significant performance improvement under unlabeled data conditions | 过多依赖数据假设 Excessive reliance on data assumptions | 开放数据集 Open dataset | Acconcjai-oco & Ntalampir-as, 2021 | 度量学习 Metric learning | 时频图 Spectrogram | SNN | 同时对未知鸟类与已知鸟类之间的相似性和差异性进行度量 Simultaneously measuring the similarity and difference between unknown and known birds | 训练中对未标记数据的验证增加了算法复杂性 The validation of unlabeled data during training increases algorithm complexity | 开放数据集Open dataset | 吴科毅等, 2023 | 无监督聚类 Unsupervised clustering | 时频图 Spectrogram | VAE | 过零率与能量的辅助判定, 可避免特征提取过程中产生的漏检 Assisted determination of zero crossing rate and energy to avoid missed detections during feature extraction process | 需要推断聚类数量 Need to infer the number of clusters | 多物种鸟鸣混叠音节Mixed syllables of bird songs from multiple species | Kahl et al, 2021 | 传统深度学习 radition -al deep learning | 时频图 Spectrogram | ResNet-157 | 多标签分类与混合训练提高了识别任务的整体性能 Multi label classification and mixed training improve the overall performance of recognition tasks | 对训练和推理计算能力要求较高 High requirements for training and reasoning and computing abilities | ? |
View table in article
表1
基于机器学习的典型鸟声识别方法比较
正文中引用本图/表的段落
基于本文提出的鸟声识别算法分类, 表1列出了具有代表性的鸟声识别方法的特点。从表1中可以看出, 尽管这些鸟声识别算法流程相对统一, 但它们各自针对的任务存在差异。为适应不同的识别任务, 研究者需要选择或设计具有任务适应性强的鸟声识别方法。例如, Lasseck (2019)在多标签训练中发现, 相较于Inception基础网络, ResNet在鸟声物种识别上展现出更出色的效果。Dai等(2021)针对Inception-V3、Xception、EfficientNet-B3这3种CNN架构的改进网络模型进行了鸟声识别效果的评估, 研究指出, 由于Xception结构解耦了跨通道相关性与空间相关性, 因此更适合应用于鲁棒度高的鸟声识别任务。在实际的实施过程中, 也需要考虑代码移植与结构设计的复杂性。例如, Xception结构是由深度可分离卷积层的线性堆栈与残差连接组成, 它能够进行简单的定义和设计修改, 并且存在多个开源实现版本。
本文概述了基于机器学习的鸟声识别方法, 比较了当前先进识别方法之间的优劣, 并对这些方法的性能进行了分析.尽管目前基于深度学习的鸟声识别方法取得了一定的成绩, 但面向大规模数据样本时, 其准确性和鲁棒性还需要进一步提高, 推广应用仍面临以下挑战: ... Blind source separation-based IVA-Xception model for bird sound recognition in complex acoustic environments 1 2021 ... 基于本文提出的鸟声识别算法分类, 表1列出了具有代表性的鸟声识别方法的特点.从表1中可以看出, 尽管这些鸟声识别算法流程相对统一, 但它们各自针对的任务存在差异.为适应不同的识别任务, 研究者需要选择或设计具有任务适应性强的鸟声识别方法.例如, Lasseck (2019)在多标签训练中发现, 相较于Inception基础网络, ResNet在鸟声物种识别上展现出更出色的效果.Dai等(2021)针对Inception-V3、Xception、EfficientNet-B3这3种CNN架构的改进网络模型进行了鸟声识别效果的评估, 研究指出, 由于Xception结构解耦了跨通道相关性与空间相关性, 因此更适合应用于鲁棒度高的鸟声识别任务.在实际的实施过程中, 也需要考虑代码移植与结构设计的复杂性.例如, Xception结构是由深度可分离卷积层的线性堆栈与残差连接组成, 它能够进行简单的定义和设计修改, 并且存在多个开源实现版本. ... 1 2020 ... 在近几年的跨学科研究中, 机器学习技术与鸟声识别的结合引起了广泛的关注.为了深入探究这一主题, 本研究集中分析了自2017年起在多个国际期刊(如Journal of Avian Biology、Ecological Informatics、Applied Acoustics)和国内期刊(如《生物多样性》《声学学报》《应用声学》《机器智能研究(英文版)》等)及顶级学术会议(如International Conference on Acoustics, Speech and Signal Processing、International Speech Communication Association、International Conference on Neural Information Processing)上发表的相关文章, 这些文章涵盖了鸟类学、声学技术和人工智能等领域.通过文献检索, 我们发现深度学习已成为鸟声识别研究的主导方法.然而, 一些传统的机器学习方法仍然适用于某些特定场景的鸟声识别(Mehyadin et al, 2021; Xie et al, 2021; 李大鹏等, 2022), 因此在实际应用中需结合数据条件与任务需求决定是否采用深度学习方法(Ghani & Hallerberg, 2021).基于上述考虑, 本文对近年来基于机器学习, 重点是基于深度学习的鸟声识别方法进行了总结与分析, 比较了不同方法之间的性能优劣, 以期为未来的鸟类识别算法研究提供帮助.截至目前, 国内外已有研究学者对鸟声识别技术开展过类似的综述工作.在国内综述文献中, 乔玉等(2020)针对中文文献进行了综述, 重点放在传统机器学习方法上, 对深度学习方法在鸟声识别中的应用介绍得较少, 忽略了深度学习策略对提升鸟声识别精度的帮助; 在国外综述文献中, 学者Priyadarshani等(2018)、Das等(2020)和Xie等(2023)均从信号处理的观点出发对鸟声物种识别的机器学习模型进行过归纳, 但重点放在鸟声预处理、特征提取方法和识别方法的总结上, 缺少对模型架构与学习策略的系统分析.随着近年来深度学习技术在鸟声识别中的进一步应用, 本文拟进一步完善鸟声识别算法的文献综述.本文的工作主要体现在以下3个方面: ... Speeding up training of automated bird recognizers by data reduction of audio features 1 2020 ... 基于概率模型的识别法在鸟声识别中的效果很大程度上依赖于所提取的特征的质量.但同时, 一些传统的分类器, 例如SVM和随机森林(random forest), 在处理大规模数据集时效率较低, 训练时间过长, 且选择核函数和参数调优的过程较为复杂.此外, 手工特征在模型训练中可能导致过拟合现象(De Oliveira et al, 2020), 而某些分类器, 如KNN, 对特征的缩放和噪声敏感, 在克服噪声干扰和提升识别算法稳定性上存在一定的局限性.这些局限性限制了基于概率模型的识别法在鸟声识别领域的进一步发展. ... 1 1882 ... 迁移学习作为一种利用其他领域知识和经验的方法, 已被成功地应用于音频特征的提取中.此方法主要采用预先训练好的神经网络, 将源领域(source domain)的任务知识迁移到目标领域, 达到更好的分类效果, 如图5所示.迁移学习需要关注两个基本问题: (1)源领域任务的选择: 现有研究涉及到的任务包括鸟声识别(Zhang FY et al, 2021)、图像识别(Fritzler et al, 2017)和音乐识别(Ntalampiras, 2018)等.(2)领域模型的选择: 部分研究已选择了CNN、ResNet、Inception-V3等深层模型来解决鸟声识别的复杂场景. ... A randomized bag-of-birds approach to study robustness of automated audio based bird species classification 1 2021 ... 在近几年的跨学科研究中, 机器学习技术与鸟声识别的结合引起了广泛的关注.为了深入探究这一主题, 本研究集中分析了自2017年起在多个国际期刊(如Journal of Avian Biology、Ecological Informatics、Applied Acoustics)和国内期刊(如《生物多样性》《声学学报》《应用声学》《机器智能研究(英文版)》等)及顶级学术会议(如International Conference on Acoustics, Speech and Signal Processing、International Speech Communication Association、International Conference on Neural Information Processing)上发表的相关文章, 这些文章涵盖了鸟类学、声学技术和人工智能等领域.通过文献检索, 我们发现深度学习已成为鸟声识别研究的主导方法.然而, 一些传统的机器学习方法仍然适用于某些特定场景的鸟声识别(Mehyadin et al, 2021; Xie et al, 2021; 李大鹏等, 2022), 因此在实际应用中需结合数据条件与任务需求决定是否采用深度学习方法(Ghani & Hallerberg, 2021).基于上述考虑, 本文对近年来基于机器学习, 重点是基于深度学习的鸟声识别方法进行了总结与分析, 比较了不同方法之间的性能优劣, 以期为未来的鸟类识别算法研究提供帮助.截至目前, 国内外已有研究学者对鸟声识别技术开展过类似的综述工作.在国内综述文献中, 乔玉等(2020)针对中文文献进行了综述, 重点放在传统机器学习方法上, 对深度学习方法在鸟声识别中的应用介绍得较少, 忽略了深度学习策略对提升鸟声识别精度的帮助; 在国外综述文献中, 学者Priyadarshani等(2018)、Das等(2020)和Xie等(2023)均从信号处理的观点出发对鸟声物种识别的机器学习模型进行过归纳, 但重点放在鸟声预处理、特征提取方法和识别方法的总结上, 缺少对模型架构与学习策略的系统分析.随着近年来深度学习技术在鸟声识别中的进一步应用, 本文拟进一步完善鸟声识别算法的文献综述.本文的工作主要体现在以下3个方面: ... Comparing recurrent convolutional neural networks for large scale bird species classification 2 2021 ... 基于时间序列的识别法面临算法复杂度高的问题, 但新型时序模型, 如Gupta等(2021)引入的勒让德记忆单元(Legendre memory units, LMU) (Voelker et al, 2019), 为鸟声识别提供了新的思路.LMU的核心是Legendre多项式, 它是一组递归的正交多项式.相较于LSTM、GRU等传统时序模型, LMU的工作原理是将整个隐藏状态和输入(时序记忆)重复投影到多个Legendre多项式上.图4展示了经典时序模型的内部结构.可以看到, LSTM有3个门(遗忘门、输入门和输出门), 而GRU仅有两个门(更新门与重置门).GRU具有一个紧凑的门控机制可直接将隐藏状态h传给下一个单元, 而LSTM则用记忆单元把隐藏状态h包装起来, 其状态更新方程分别如式(1)、式(2)所示.LMU相当于没有门控机制的LSTM, 转而使用存储单元概念, 将一个n维状态向量(h)与一个d维内存向量(m)动态耦合, 投影更新方程如式(3)所示. ...
本文的其它图/表
|