|
||
基于机器学习鸟声识别算法研究进展
生物多样性
2023, 31 (11):
23272-.
DOI: 10.17520/biods.2023272
监测生态系统中鸟类多样性的状态和趋势是一项重大挑战, 需要广泛适用的基于机器学习的鸟鸣识别算法。为准确把握基于机器学习的鸟声识别方法的研究现状与发展趋势, 本文介绍了鸟鸣识别任务的基本概念, 并从模型结构设计角度对基于机器学习的鸟鸣识别算法进行概述。鉴于基于机器学习的鸟鸣识别技术的跨学科性质, 根据研究方向将算法分为: 概率模型(probabilistic model)、模板匹配(template matching)、时序分析(time series analysis)、迁移学习(transfer learning)、数据融合(data fusion)、集成学习(ensemble learning)、度量学习(metric learning)和无监督聚类(unsupervised clustering)的鸟鸣识别算法。本文回顾了这些方法在完成鸟声识别任务时的技术脉络, 以及这些算法的特点和局限性, 并比较了它们在鸟鸣识别方面的有效性。本文还讨论了常用的标准化鸟声开源数据集和评估指标。最后, 本文指出当前方法所面临的挑战和该领域潜在的未来研究方向。本综述旨在为从事鸟声识别研究的学者和开发人员提供一个全面的参考框架, 以便更好地理解现有技术和潜在发展趋势。 ![]() View image in article
图5
迁移学习方法框架
正文中引用本图/表的段落
迁移学习作为一种利用其他领域知识和经验的方法, 已被成功地应用于音频特征的提取中。此方法主要采用预先训练好的神经网络, 将源领域(source domain)的任务知识迁移到目标领域, 达到更好的分类效果, 如图5所示。迁移学习需要关注两个基本问题: (1)源领域任务的选择: 现有研究涉及到的任务包括鸟声识别(Zhang FY et al, 2021)、图像识别(Fritzler et al, 2017)和音乐识别(Ntalampiras, 2018)等。(2)领域模型的选择: 部分研究已选择了CNN、ResNet、Inception-V3等深层模型来解决鸟声识别的复杂场景。
本文概述了基于机器学习的鸟声识别方法, 比较了当前先进识别方法之间的优劣, 并对这些方法的性能进行了分析.尽管目前基于深度学习的鸟声识别方法取得了一定的成绩, 但面向大规模数据样本时, 其准确性和鲁棒性还需要进一步提高, 推广应用仍面临以下挑战: ... Blind source separation-based IVA-Xception model for bird sound recognition in complex acoustic environments 1 2021 ... 基于本文提出的鸟声识别算法分类, 1 2020 ... 在近几年的跨学科研究中, 机器学习技术与鸟声识别的结合引起了广泛的关注.为了深入探究这一主题, 本研究集中分析了自2017年起在多个国际期刊(如Journal of Avian Biology、Ecological Informatics、Applied Acoustics)和国内期刊(如《生物多样性》《声学学报》《应用声学》《机器智能研究(英文版)》等)及顶级学术会议(如International Conference on Acoustics, Speech and Signal Processing、International Speech Communication Association、International Conference on Neural Information Processing)上发表的相关文章, 这些文章涵盖了鸟类学、声学技术和人工智能等领域.通过文献检索, 我们发现深度学习已成为鸟声识别研究的主导方法.然而, 一些传统的机器学习方法仍然适用于某些特定场景的鸟声识别(Mehyadin et al, Speeding up training of automated bird recognizers by data reduction of audio features 1 2020 ... 基于概率模型的识别法在鸟声识别中的效果很大程度上依赖于所提取的特征的质量.但同时, 一些传统的分类器, 例如SVM和随机森林(random forest), 在处理大规模数据集时效率较低, 训练时间过长, 且选择核函数和参数调优的过程较为复杂.此外, 手工特征在模型训练中可能导致过拟合现象(De Oliveira et al, 1 1882 ... 迁移学习作为一种利用其他领域知识和经验的方法, 已被成功地应用于音频特征的提取中.此方法主要采用预先训练好的神经网络, 将源领域(source domain)的任务知识迁移到目标领域, 达到更好的分类效果, 如 A randomized bag-of-birds approach to study robustness of automated audio based bird species classification 1 2021 ... 在近几年的跨学科研究中, 机器学习技术与鸟声识别的结合引起了广泛的关注.为了深入探究这一主题, 本研究集中分析了自2017年起在多个国际期刊(如Journal of Avian Biology、Ecological Informatics、Applied Acoustics)和国内期刊(如《生物多样性》《声学学报》《应用声学》《机器智能研究(英文版)》等)及顶级学术会议(如International Conference on Acoustics, Speech and Signal Processing、International Speech Communication Association、International Conference on Neural Information Processing)上发表的相关文章, 这些文章涵盖了鸟类学、声学技术和人工智能等领域.通过文献检索, 我们发现深度学习已成为鸟声识别研究的主导方法.然而, 一些传统的机器学习方法仍然适用于某些特定场景的鸟声识别(Mehyadin et al, Comparing recurrent convolutional neural networks for large scale bird species classification 2 2021 ... 基于时间序列的识别法面临算法复杂度高的问题, 但新型时序模型, 如Gupta等(
虽然某些文献使用了相同的鸟声数据库构建训练、验证和测试数据集, 但由于具体实验样本和选择的鸟种存在差异, 简单地通过实验结果进行性能对比是不合适的.然而, 可以明确的是, 随着识别的鸟类数量的增加, 识别精度呈现下降趋势(Lasseck, Semantic segmentation of aerial imagery via split-attention networks with disentangled nonlocal and edge supervision 1 2021 ... 为了进一步推动鸟声识别技术的研究与标准数据集的建立, 国内外相关组织举办了多项鸟声识别挑战赛.例如, BirdCLEF专注于鸟声物种识别, DCASE专注于鸟声事件检测, 科大讯飞则自2021年起开始组织国内的鸟类识别挑战赛.其中, 历年BirdCLEF的任务是识别所提供的声景测试集中的所有鸟类, 均为多标签分类任务(含鸟类物种、录音位置、录音时间等).每个声景被分成5 s左右的片段, 参赛团队需对每个片段生成一个与概率分数相关的物种列表.近几年BirdCLEF的获胜团队所采用的模型和分数都被详细列在 An efficient time-domain end-to-end single-channel bird sound separation network 1 2022 ... 多头注意力的优势在于: 一方面可以扩展模型获得关注长时鸟声时频图中不同位置的能力; 另一方面赋予注意力层多个表示子空间, 并将时频特征序列映射到不同的空间从而获得更强的长时依赖能力.近期, Transformer模型已被多项研究应用于鸟声检测分离(Zhang et al, Bird species identification using spectrogram based on multi-channel fusion of DCNNs 3 2021 ... 迁移学习作为一种利用其他领域知识和经验的方法, 已被成功地应用于音频特征的提取中.此方法主要采用预先训练好的神经网络, 将源领域(source domain)的任务知识迁移到目标领域, 达到更好的分类效果, 如
本文的其它图/表
|