Please wait a minute...
图/表 详细信息
基于机器学习鸟声识别算法研究进展
申小虎, 朱翔宇, 史洪飞, 王传之
生物多样性    2023, 31 (11): 23272-.   DOI: 10.17520/biods.2023272
摘要   (790 HTML474 PDF(pc) (2992KB)(998)  

监测生态系统中鸟类多样性的状态和趋势是一项重大挑战, 需要广泛适用的基于机器学习的鸟鸣识别算法。为准确把握基于机器学习的鸟声识别方法的研究现状与发展趋势, 本文介绍了鸟鸣识别任务的基本概念, 并从模型结构设计角度对基于机器学习的鸟鸣识别算法进行概述。鉴于基于机器学习的鸟鸣识别技术的跨学科性质, 根据研究方向将算法分为: 概率模型(probabilistic model)、模板匹配(template matching)、时序分析(time series analysis)、迁移学习(transfer learning)、数据融合(data fusion)、集成学习(ensemble learning)、度量学习(metric learning)和无监督聚类(unsupervised clustering)的鸟鸣识别算法。本文回顾了这些方法在完成鸟声识别任务时的技术脉络, 以及这些算法的特点和局限性, 并比较了它们在鸟鸣识别方面的有效性。本文还讨论了常用的标准化鸟声开源数据集和评估指标。最后, 本文指出当前方法所面临的挑战和该领域潜在的未来研究方向。本综述旨在为从事鸟声识别研究的学者和开发人员提供一个全面的参考框架, 以便更好地理解现有技术和潜在发展趋势。



View image in article
图6 三类数据融合方法的区别
正文中引用本图/表的段落
部分文献(Zhang FY et al, 2021)仅将数据融合方法分为特征级融合与决策级融合, 但鉴于鸟类图像、地理信息也能与鸟声信息融合以完成物种识别, 本文将数据融合的方法进一步细化为单源特征融合、单源决策融合及多源决策融合, 如图6所示。单源特征融合经过预处理获得不同的时频图并得到对应的高维特征, 再对相关特征进行关联融合, 通过一个统一的分类器来获得决策。单源决策融合则分别对每类数据进行分类决策后再通过一个后处理算法获得最终分类结果。多源融合的数据属于异构信息, 由于围绕数据级融合与特征级融合开展研究的文献较少, 因此本文仅对多源决策融合进行讨论。
本文的其它图/表