|
||
基于机器学习鸟声识别算法研究进展
生物多样性
2023, 31 (11):
23272-.
DOI: 10.17520/biods.2023272
监测生态系统中鸟类多样性的状态和趋势是一项重大挑战, 需要广泛适用的基于机器学习的鸟鸣识别算法。为准确把握基于机器学习的鸟声识别方法的研究现状与发展趋势, 本文介绍了鸟鸣识别任务的基本概念, 并从模型结构设计角度对基于机器学习的鸟鸣识别算法进行概述。鉴于基于机器学习的鸟鸣识别技术的跨学科性质, 根据研究方向将算法分为: 概率模型(probabilistic model)、模板匹配(template matching)、时序分析(time series analysis)、迁移学习(transfer learning)、数据融合(data fusion)、集成学习(ensemble learning)、度量学习(metric learning)和无监督聚类(unsupervised clustering)的鸟鸣识别算法。本文回顾了这些方法在完成鸟声识别任务时的技术脉络, 以及这些算法的特点和局限性, 并比较了它们在鸟鸣识别方面的有效性。本文还讨论了常用的标准化鸟声开源数据集和评估指标。最后, 本文指出当前方法所面临的挑战和该领域潜在的未来研究方向。本综述旨在为从事鸟声识别研究的学者和开发人员提供一个全面的参考框架, 以便更好地理解现有技术和潜在发展趋势。 ![]() View image in article
图7
不同的后期融合方法
正文中引用本图/表的段落
多源决策融合方法可从多模态数据信息中挖掘细节信息, 提升系统识别精度与鲁棒性。在鸟类识别研究领域, 鸟类图像信息与声音信息是最常用的两类模态信息。Bold等(2019)提出了多模态CNN鸟声识别体系结构, 并论证了图像和音频数据多模态下的后期融合方式。图7展示了该研究实验中采用的4类后期融合方式。
本文概述了基于机器学习的鸟声识别方法, 比较了当前先进识别方法之间的优劣, 并对这些方法的性能进行了分析.尽管目前基于深度学习的鸟声识别方法取得了一定的成绩, 但面向大规模数据样本时, 其准确性和鲁棒性还需要进一步提高, 推广应用仍面临以下挑战: ... 0 2019 1 ... Adavanne等( 1 2016 ... 此外, Morgan和Braasch ( Cross-domain deep feature combination for bird species classification with audio-visual data 1 2019 ... 多源决策融合方法可从多模态数据信息中挖掘细节信息, 提升系统识别精度与鲁棒性.在鸟类识别研究领域, 鸟类图像信息与声音信息是最常用的两类模态信息.Bold等( Design and implementation of a robust acoustic recognition system for waterbird species using TMS320C6713 DSK 1 2017 ... 总的来说, 深度学习的鸟声识别可以省去复杂的特征工程, 并能够学习到鸟声与物种之间的复杂映射关系, 但这需要利用较大规模的鸟声样本进行训练.因此, 除上述学习策略外, 网络压缩在鸟声识别研究中也占据重要的位置.虽然相较于传统方法, 深度学习模型在鸟声检测上具有优势, 但是深度学习模型需要大量的计算资源和存储空间, 导致这些模型在嵌入式设备(Boulmaiz et al, 1 2009 ... 基于机器学习(machine learning)的鸟声识别技术在生态监测中至关重要, 其通过自动识别和分类鸟声, 能够高效地追踪生物多样性的现状与变化趋势, 从而显著减少了对人类专家的依赖, 提高了处理效率.此外, 机器学习方法还可解决诸多实际问题, 如噪声干扰、类别不平衡以及鸟类声音的多样性.国外基于机器学习的鸟声识别研究相对广泛且起步较早(Priyadarshani et al, 2018), 可以追溯到20世纪90年代(Anderson et al, High-performance large-scale image recognition without normalization 1 2021 ... 为了进一步推动鸟声识别技术的研究与标准数据集的建立, 国内外相关组织举办了多项鸟声识别挑战赛.例如, BirdCLEF专注于鸟声物种识别, DCASE专注于鸟声事件检测, 科大讯飞则自2021年起开始组织国内的鸟类识别挑战赛.其中, 历年BirdCLEF的任务是识别所提供的声景测试集中的所有鸟类, 均为多标签分类任务(含鸟类物种、录音位置、录音时间等).每个声景被分成5 s左右的片段, 参赛团队需对每个片段生成一个与概率分数相关的物种列表.近几年BirdCLEF的获胜团队所采用的模型和分数都被详细列在 Automatic classification of bird sounds: Using MFCC and Mel spectrogram features with deep learning 5 2023 ... 在深度学习框架下, 鸟声识别常被视作时频图(语图)的图像识别问题, 寻找适用的深度模型结构是鸟声识别的重要研究方向之一.除了CNN外, 循环神经网络(recurrent neural network, RNN) (Adavanne et al,
本文的其它图/表
|