鸟声标注技术及其在被动声学监测中的应用
郭倩茸, 段淑斐, 谢捷, 董雪燕, 肖治术
生物多样性
2024, 32 ( 10):
24313-.
DOI: 10.17520/biods.2024313
鸟声标注用于标记声音中的鸟类信息, 如种类、声音结构等, 是鸟类被动声学监测及相关声学数据分析、物种自动识别分类的重要基础。本文以鸟声标注为重点, 比较了人工标注、自动标注和半自动标注等常用方法的优势, 点明了各自在数据质量、标注一致性和标注效率等方面面临的挑战, 同时探讨了这些标注方法在被动声学监测中的应用进展, 提出了自动标注模型优化、跨地区数据集建立和半自动标注系统完善等未来发展方向。尽管目前自动标注方法取得了显著进展, 但鸟声标注仍面临冷启动问题, 亟需更大规模的跨地区数据集和高效的质量检测半自动标注系统, 以满足标注数量和质量的双重要求。本综述有助于帮助鸟声数据集创建者和标注者更好地理解现有标注技术及其潜在的发展趋势, 为大规模鸟类声学监测数据的高效物种自动识别提供技术支撑。

View image in article
图1
标注技术在被动声学监测中的应用场景
正文中引用本图/表的段落
随着人工智能的不断发展, 被动声学监测受到越来越多的关注(Pimm et al, 2015)。然而, 由于声音传感器同时记录了各种非生物噪声和生物声音, 使得音频数据的存储、运行、管理成本显著增加(Ross et al, 2023)。动物的声音也会随着时间、季节和环境变化而发生动态变化, 例如黎明和黄昏的鸟类合唱现象(Duan, 2014)。噪声干扰和声音可变性是录制野外动物声音数据时面临的两个主要挑战(Towsey & Planitz, 2011)。在此背景下, 准确的标注工作成为被动声学监测中不可或缺的环节。标注不仅能够帮助有效地分离声音信号中的有声段和静默段, 从而减少数据量, 还能降低存储和处理的负担。此外, 在进行物种自动识别时, 标注的质量直接影响识别系统的性能。噪声和环境复杂性常常导致高假阳性率问题(Cragg et al, 2015)。通过创建高质量的标注数据集, 算法可以更好地学习不同物种的声音特征, 提高物种识别的准确性和可靠性, 减少错误分类。标注精度越高, 自动化识别结果越准确, 尤其是在物种多样性和声音结构复杂的环境下, 标注技术对结果的影响尤为显著。在声景研究中, 通常不关注单个物种, 而是比较分析不同声学群落的整体活动模式(Sueur et al, 2008)。标注工作通过标注明确记录的数据中包含的物种数量、群体活动模式、活动范围和活跃水平等关键指标, 可使研究人员更好地理解声学活动群落及其与环境的复杂相互关系。这种标注工作不仅是生态声学数据分析的基础, 还为后续的生态管理和保护决策提供了可靠的数据支持。综上所述, 标注技术在被动声学监测中的核心作用体现在它能够帮助有效减少数据噪声、提高物种识别精度, 并为生态群落声学活动的深入研究奠定基础。这使得标注成为推动被动声学监测研究及其应用的关键要素。图1展示了标注技术在被动声学监测中的应用场景。
自动识别鸟类的软件有多种(表4)。Kaleidoscope Pro由Wildlife Acoustics公司推出, 能够识别鸟鸣声、青蛙叫声、蝙蝠叫声, 并提供用户指南和视频教程。BirdNET软件是康奈尔大学鸟类学实验室K. Lisa Yang保护生物声学中心和开姆尼茨理工大学媒体信息学主席推出的公民科学平台, 截至2023年6月可以识别出世界上大约6,552种最常见的鸟类。BirdNET利用双通道频谱图(覆盖0 Hz至15 kHz)进行声音分析, 能在手机上使用, 并且能够显示音频中每秒出现的最可能物种。Arbimon网页可以识别的物种大约为43,000种, 主要集中在大洋洲、北美洲和南美洲等。该平台可自动检测录音中的已知物种, 并进行大规模数据集的聚类分析, 比较不同时间和空间的生物群落。AviaNZ由数学家、数据科学家、保护生物学家合作提出, 模型训练完成之后, 人工审查音频段的标签。Avisoft-SASLab Pro软件通过频谱图互相关法对音节进行自动分类, 并且使用音频文件创建野外调查地图。Luscinia网站由伦敦玛丽女王大学的Robert Lachlan编写和维护, 能够测量15个声学参数, 作为有关复杂信号结构的轮廓和分层信息, 主要实现录音中音节的统计和比较。Merlin Bird ID由康奈尔大学鸟类学实验室推出, 可以通过声音和图片识别美国、加拿大、欧洲各国、印度等地区的1,054种鸟类, 用于探索用户附近的鸟的种类, 只支持在手机上使用。Shiny_PNW-Cnet (Ruff et al, 2023)专注于识别在太平洋西北地区发现的37种鸟类和哺乳动物的呼叫特征, 以及频谱图图像中的其他几种声音, 并允许用户重命名音频文件和保存频谱图。Raven Pro由康奈尔大学鸟类学实验室K. Lisa Yang保护生物声学中心创建, 支持手动或者自动选择时频范围。在当今的移动应用市场中, 如Smart Bird ID和Song Sleuth Bird Song Analyzer等应用程序也能识别鸟类叫声, 但不支持批量识别功能。2022年推出的TadariDeep脚本提供免费的批处理功能, 但在鸟声重叠情况下, 其分类效果较差, 需要进一步优化。在选择鸟类声音识别软件时, 用户应关注软件的最新版本和更新情况, 以确保满足不断变化的需求。
深度神经网络可显著提升声音识别的性能, 但网络参数随着层数的增加显著增长, 并且在不同环境下的识别效果是不同的(Pahuja & Kumar, 2021).卷积神经网络中的经典模型有LeNet-5 (LeCun et al, 1998)、AlexNet (Krizhevsky et al, 2017)、VGG16 (Simonyan & Zisserman, 2014)、Inception (Szegedy et al, 2015)、ResNet (He et al, 2016)、DenseNet (Huang et al, 2017)、EfficientNet (Tan & Le, 2019), 模型输入信号可以为人工特征也可以为原始音频, 并且识别鸟类发声效果比较好, 但是只能提取短时间帧的特征, 不能获取相邻帧之间的顺序特征.卷积递归神经网络(convolutional recurrent neural networks, CRNN)虽然可以获得时间帧之间的顺序相关性, 但CS-CLDNN (Convolutional Block Attention Module -Switch-CNN-LSTM-DNN) (Xie et al, 2022)、长短时记忆递归神经网络(long short term memory, LSTM)、门控循环单元(gated recurrent unit, GRU)、勒让德记忆单元(Legendre memory unit, LMU)等典型CRNN结合了卷积神经网络和递归神经网络, 需要大量的计算资源.支持向量机(颜鑫和李应, 2013)、K最近邻(Joly et al, 2014)、决策树(Lasseck, 2015)、隐含马尔柯夫模型(Ntalampiras, 2018)、球形K均值(Salamon et al, 2017)、变分编码器(吴科毅等, 2023)等方法也是典型鸟声识别方法.隐含马尔柯夫模型在非平稳噪声下的识别效果差, K最近邻弱监督学习容易导致标注噪声, 使用决策树方法时特征选择过程比较复杂.当标注数据较少时, 可使用基于半监督学习的识别方法, 比如高斯混合模型(Gaussian mixture model, GMM) (Ptacek et al, 2016)、孪生神经网络(siamese neural networks, SNNs) (Acconcjaioco & Ntalampiras, 2021)等算法.由于模型的结构、特征的选择、预处理等都会影响模型识别效果, 研究人员通常选择特征融合(Zhang et al, 2021; Wang et al, 2022)、关联多个分类器(Gupta et al, 2021)、选择合适的层数和卷积核(Kahl et al, 2021)、增加注意力机制(Xie et al, 2020, 2022)等方法提升识别效果.Zhang等(2021)分别采用短时傅里叶变换、梅尔频率倒谱变换和Chirplet变换生成频谱图, 并逐个训练单特征识别模型, 最终形成特征融合模型, 使得模型识别精度提升.Gupta等(2021)的实验结果表明, 卷积神经网络和循环神经网络(recurrent neural networks, RNN)结合起来的模型分类性能高于单独的卷积神经网络模型.Kahl等(2021)提出的BirdNET网络由127层2,700万个参数组成, 在单物种记录方面的平均精度为0.791.Xie等(2022)在CLDNN (CNN-LSTM-DNN)模型中引入卷积注意力机制, 使其分类性能提高. ... Simultaneous segmentation and classification of bird song using CNN 1 2017 ... 在附录1中, 公开数据集主要来源于鸟声识别挑战赛, 比如MLSP (Machine Learning for Signal Processing)、DCASE (Challenge on Detection and Classification of Acoustic Scenes and Events)等.这些比赛提供统一的数据集和评估指标, 以促进鸟声研究的发展.MLSP数据集由IEEE机器学习与信号处理国际会议发布, 包含美国俄勒冈州喀斯特山脉的H.J. Andrews实验森林中13个地点的19种鸟类, 共计645条10 s定长的.wav音频文件, 采样频率为16 kHz, 由专家根据原始数据和频谱图提供物种标签(Briggs et al, 2013; Koluguri et al, 2017; Narasimhan et al, 2017).ICML4B数据集由法国国立自然博物馆提供, 记录了法国巴黎舍夫勒斯地区自然公园的鸟声数据, 训练集包含35个30 s音频文件, 每个文件包含1个物种, 共35个物种(Go?au et al, 2014).测试集为90条150 s的音频文件, 采样频率为44.1 kHz.研究人员也从Xeno-canto、birder、Freesound等网站收集数据集.Xeno-canto是公认的数据来源网站, 包含450,000多条记录, 10,000多种鸟类, 包含采集地点、时间、记录评级等标签.研究人员通常可从多个网站下载数据, 比如Liu等(2022)从Xeno-canto和birder网站共收集30种鸟鸣声数据, 生成小波谱图.Zhang和Li (2015)从Freesound网站收集了30种鸟鸣声, 600个声音片段, 采样率为11.052 kHz.但Freesound网站收集的音频数据中噪声多, 适用于复杂环境下的鸟声研究.Hu等(2023)使用从Freesound网站收集的Urbansound8K数据集验证了分类模型的泛化能力, 该数据集是城市声音公共数据集, 包含27 h的音频, 有8,732个带注释的声音片段.此外, Macaulay自然声音博物馆、大英声音档案馆和柏林自然博物馆动物声音档案馆等也提供鸟声数据集.Macaulay自然声音博物馆有750,000份鸟类发声录音, 涵盖10,000多个物种. ... Bird species identification via transfer learning from music genres 1 2018 ... 深度神经网络可显著提升声音识别的性能, 但网络参数随着层数的增加显著增长, 并且在不同环境下的识别效果是不同的(Pahuja & Kumar, 2021).卷积神经网络中的经典模型有LeNet-5 (LeCun et al, 1998)、AlexNet (Krizhevsky et al, 2017)、VGG16 (Simonyan & Zisserman, 2014)、Inception (Szegedy et al, 2015)、ResNet (He et al, 2016)、DenseNet (Huang et al, 2017)、EfficientNet (Tan & Le, 2019), 模型输入信号可以为人工特征也可以为原始音频, 并且识别鸟类发声效果比较好, 但是只能提取短时间帧的特征, 不能获取相邻帧之间的顺序特征.卷积递归神经网络(convolutional recurrent neural networks, CRNN)虽然可以获得时间帧之间的顺序相关性, 但CS-CLDNN (Convolutional Block Attention Module -Switch-CNN-LSTM-DNN) (Xie et al, 2022)、长短时记忆递归神经网络(long short term memory, LSTM)、门控循环单元(gated recurrent unit, GRU)、勒让德记忆单元(Legendre memory unit, LMU)等典型CRNN结合了卷积神经网络和递归神经网络, 需要大量的计算资源.支持向量机(颜鑫和李应, 2013)、K最近邻(Joly et al, 2014)、决策树(Lasseck, 2015)、隐含马尔柯夫模型(Ntalampiras, 2018)、球形K均值(Salamon et al, 2017)、变分编码器(吴科毅等, 2023)等方法也是典型鸟声识别方法.隐含马尔柯夫模型在非平稳噪声下的识别效果差, K最近邻弱监督学习容易导致标注噪声, 使用决策树方法时特征选择过程比较复杂.当标注数据较少时, 可使用基于半监督学习的识别方法, 比如高斯混合模型(Gaussian mixture model, GMM) (Ptacek et al, 2016)、孪生神经网络(siamese neural networks, SNNs) (Acconcjaioco & Ntalampiras, 2021)等算法.由于模型的结构、特征的选择、预处理等都会影响模型识别效果, 研究人员通常选择特征融合(Zhang et al, 2021; Wang et al, 2022)、关联多个分类器(Gupta et al, 2021)、选择合适的层数和卷积核(Kahl et al, 2021)、增加注意力机制(Xie et al, 2020, 2022)等方法提升识别效果.Zhang等(2021)分别采用短时傅里叶变换、梅尔频率倒谱变换和Chirplet变换生成频谱图, 并逐个训练单特征识别模型, 最终形成特征融合模型, 使得模型识别精度提升.Gupta等(2021)的实验结果表明, 卷积神经网络和循环神经网络(recurrent neural networks, RNN)结合起来的模型分类性能高于单独的卷积神经网络模型.Kahl等(2021)提出的BirdNET网络由127层2,700万个参数组成, 在单物种记录方面的平均精度为0.791.Xie等(2022)在CLDNN (CNN-LSTM-DNN)模型中引入卷积注意力机制, 使其分类性能提高. ... Sound-spectrogram based automatic bird species recognition using MLP classifier 1 2021 ... 深度神经网络可显著提升声音识别的性能, 但网络参数随着层数的增加显著增长, 并且在不同环境下的识别效果是不同的(Pahuja & Kumar, 2021).卷积神经网络中的经典模型有LeNet-5 (LeCun et al, 1998)、AlexNet (Krizhevsky et al, 2017)、VGG16 (Simonyan & Zisserman, 2014)、Inception (Szegedy et al, 2015)、ResNet (He et al, 2016)、DenseNet (Huang et al, 2017)、EfficientNet (Tan & Le, 2019), 模型输入信号可以为人工特征也可以为原始音频, 并且识别鸟类发声效果比较好, 但是只能提取短时间帧的特征, 不能获取相邻帧之间的顺序特征.卷积递归神经网络(convolutional recurrent neural networks, CRNN)虽然可以获得时间帧之间的顺序相关性, 但CS-CLDNN (Convolutional Block Attention Module -Switch-CNN-LSTM-DNN) (Xie et al, 2022)、长短时记忆递归神经网络(long short term memory, LSTM)、门控循环单元(gated recurrent unit, GRU)、勒让德记忆单元(Legendre memory unit, LMU)等典型CRNN结合了卷积神经网络和递归神经网络, 需要大量的计算资源.支持向量机(颜鑫和李应, 2013)、K最近邻(Joly et al, 2014)、决策树(Lasseck, 2015)、隐含马尔柯夫模型(Ntalampiras, 2018)、球形K均值(Salamon et al, 2017)、变分编码器(吴科毅等, 2023)等方法也是典型鸟声识别方法.隐含马尔柯夫模型在非平稳噪声下的识别效果差, K最近邻弱监督学习容易导致标注噪声, 使用决策树方法时特征选择过程比较复杂.当标注数据较少时, 可使用基于半监督学习的识别方法, 比如高斯混合模型(Gaussian mixture model, GMM) (Ptacek et al, 2016)、孪生神经网络(siamese neural networks, SNNs) (Acconcjaioco & Ntalampiras, 2021)等算法.由于模型的结构、特征的选择、预处理等都会影响模型识别效果, 研究人员通常选择特征融合(Zhang et al, 2021; Wang et al, 2022)、关联多个分类器(Gupta et al, 2021)、选择合适的层数和卷积核(Kahl et al, 2021)、增加注意力机制(Xie et al, 2020, 2022)等方法提升识别效果.Zhang等(2021)分别采用短时傅里叶变换、梅尔频率倒谱变换和Chirplet变换生成频谱图, 并逐个训练单特征识别模型, 最终形成特征融合模型, 使得模型识别精度提升.Gupta等(2021)的实验结果表明, 卷积神经网络和循环神经网络(recurrent neural networks, RNN)结合起来的模型分类性能高于单独的卷积神经网络模型.Kahl等(2021)提出的BirdNET网络由127层2,700万个参数组成, 在单物种记录方面的平均精度为0.791.Xie等(2022)在CLDNN (CNN-LSTM-DNN)模型中引入卷积注意力机制, 使其分类性能提高. ... Recognizing bird species in audio recordings using deep convolutional neural networks 1 2016 ... 时频域中存在更多的去噪方法: (1)基于图像进行去噪.将时频特征以频谱图的形式呈现, 可以使用频谱图像素值减去像素平均值并将负值设置为0, 去除连续的低强度噪声(Stowell & Plumbley, 2014a).也可以通过白化(Ruiz-Mu?oz et al, 2016)或者中值滤波(Stowell et al, 2019)达到类似的效果, 但是去平均化的方法当信噪比较低时不适用.(2)可以通过设置相应的阈值降低噪声、增强鸟声信号实现频谱图的比例转换(Piczak, 2016), 这种方法的关键在于根据噪声设置相应的阈值.(3)基于小波的去噪, 这种方法更加适用于去除准稳态高斯近似噪声.随着深度学习的发展, 可以使用模型学习噪声属性, 实现去噪的效果, 比如自编码器(autoencoders, AE) (Sinha & Rajan, 2018)和深度神经网络(deep neural networks, DNN) (Xie et al, 2019). ... Emerging technologies to conserve biodiversity 1 2015 ... 随着人工智能的不断发展, 被动声学监测受到越来越多的关注(Pimm et al, 2015).然而, 由于声音传感器同时记录了各种非生物噪声和生物声音, 使得音频数据的存储、运行、管理成本显著增加(Ross et al, 2023).动物的声音也会随着时间、季节和环境变化而发生动态变化, 例如黎明和黄昏的鸟类合唱现象(Duan, 2014).噪声干扰和声音可变性是录制野外动物声音数据时面临的两个主要挑战(Towsey & Planitz, 2011).在此背景下, 准确的标注工作成为被动声学监测中不可或缺的环节.标注不仅能够帮助有效地分离声音信号中的有声段和静默段, 从而减少数据量, 还能降低存储和处理的负担.此外, 在进行物种自动识别时, 标注的质量直接影响识别系统的性能.噪声和环境复杂性常常导致高假阳性率问题(Cragg et al, 2015).通过创建高质量的标注数据集, 算法可以更好地学习不同物种的声音特征, 提高物种识别的准确性和可靠性, 减少错误分类.标注精度越高, 自动化识别结果越准确, 尤其是在物种多样性和声音结构复杂的环境下, 标注技术对结果的影响尤为显著.在声景研究中, 通常不关注单个物种, 而是比较分析不同声学群落的整体活动模式(Sueur et al, 2008).标注工作通过标注明确记录的数据中包含的物种数量、群体活动模式、活动范围和活跃水平等关键指标, 可使研究人员更好地理解声学活动群落及其与环境的复杂相互关系.这种标注工作不仅是生态声学数据分析的基础, 还为后续的生态管理和保护决策提供了可靠的数据支持.综上所述, 标注技术在被动声学监测中的核心作用体现在它能够帮助有效减少数据噪声、提高物种识别精度, 并为生态群落声学活动的深入研究奠定基础.这使得标注成为推动被动声学监测研究及其应用的关键要素.图1展示了标注技术在被动声学监测中的应用场景. ... Automated birdsong recognition in complex acoustic environments: A review 1 2018 ... 在最新的鸟声研究综述中, 乔玉等(2020)总结了中文文献中鸟声识别的机器学习方法, Priyadarshani等(2018)、Das等(2020)和Xie等(2023)均从信号处理的观点总结了自动鸟声物种识别的方法, 申小虎等(2023)则总结了鸟声识别的机器学习算法.然而, 这些文献缺少对于标注方法和标注平台的总结.我们在2012-2024年发表的出版物中, 检索了鸟类声音、鸟声标注、鸟鸣声、鸟声音节、众包信誉管理、鸟声分类、鸟声识别或鸟声检测、被动声学监测, 以及相关的程序、软件或方法等关键词, 旨在深入探索鸟类声音标注技术的最新进展, 并分析其在被动声学监测中的广泛应用和实际挑战.本文的工作主要体现在以下3个方面: (1)简述鸟类发声原理、原始音频数据特性、鸟鸣声复杂的层次结构和鸟声标注技术在被动声学监测中的应用.梳理了近10年鸟声研究常用的公开数据集, 包括数据集的物种数、录音时长、文件数、发布方等, 分析了不同类型数据集的特点.(2)以鸟声标注为重点, 比较了现有文献中的各种标注方法, 并详细介绍了它们的优缺点和在被动声学监测中的应用.整理了人工标注中的众包项目和鸟类自动识别软件, 并介绍了各软件的特点.概述了特别是随着深度学习的发展, 自动标注依赖的鸟声识别研究的基本步骤, 总结了声学事件检测相关竞赛结果, 并分析了常用模型的优缺点.(3)分析了当前常用的标注方法面临的现实问题和技术挑战, 并指出了这些方法在应用过程中存在的具体困难, 包括数据标注的一致性、标注效率低下、人工成本高昂以及自动化程度不足等问题.本文还探讨了标注技术在处理多样化和复杂数据时的局限性.针对这些问题, 本文提出了未来标注技术的发展方向和展望. ... Automatic recognition of bird individuals on an open set using as-is recordings 1 2016 ... 深度神经网络可显著提升声音识别的性能, 但网络参数随着层数的增加显著增长, 并且在不同环境下的识别效果是不同的(Pahuja & Kumar, 2021).卷积神经网络中的经典模型有LeNet-5 (LeCun et al, 1998)、AlexNet (Krizhevsky et al, 2017)、VGG16 (Simonyan & Zisserman, 2014)、Inception (Szegedy et al, 2015)、ResNet (He et al, 2016)、DenseNet (Huang et al, 2017)、EfficientNet (Tan & Le, 2019), 模型输入信号可以为人工特征也可以为原始音频, 并且识别鸟类发声效果比较好, 但是只能提取短时间帧的特征, 不能获取相邻帧之间的顺序特征.卷积递归神经网络(convolutional recurrent neural networks, CRNN)虽然可以获得时间帧之间的顺序相关性, 但CS-CLDNN (Convolutional Block Attention Module -Switch-CNN-LSTM-DNN) (Xie et al, 2022)、长短时记忆递归神经网络(long short term memory, LSTM)、门控循环单元(gated recurrent unit, GRU)、勒让德记忆单元(Legendre memory unit, LMU)等典型CRNN结合了卷积神经网络和递归神经网络, 需要大量的计算资源.支持向量机(颜鑫和李应, 2013)、K最近邻(Joly et al, 2014)、决策树(Lasseck, 2015)、隐含马尔柯夫模型(Ntalampiras, 2018)、球形K均值(Salamon et al, 2017)、变分编码器(吴科毅等, 2023)等方法也是典型鸟声识别方法.隐含马尔柯夫模型在非平稳噪声下的识别效果差, K最近邻弱监督学习容易导致标注噪声, 使用决策树方法时特征选择过程比较复杂.当标注数据较少时, 可使用基于半监督学习的识别方法, 比如高斯混合模型(Gaussian mixture model, GMM) (Ptacek et al, 2016)、孪生神经网络(siamese neural networks, SNNs) (Acconcjaioco & Ntalampiras, 2021)等算法.由于模型的结构、特征的选择、预处理等都会影响模型识别效果, 研究人员通常选择特征融合(Zhang et al, 2021; Wang et al, 2022)、关联多个分类器(Gupta et al, 2021)、选择合适的层数和卷积核(Kahl et al, 2021)、增加注意力机制(Xie et al, 2020, 2022)等方法提升识别效果.Zhang等(2021)分别采用短时傅里叶变换、梅尔频率倒谱变换和Chirplet变换生成频谱图, 并逐个训练单特征识别模型, 最终形成特征融合模型, 使得模型识别精度提升.Gupta等(2021)的实验结果表明, 卷积神经网络和循环神经网络(recurrent neural networks, RNN)结合起来的模型分类性能高于单独的卷积神经网络模型.Kahl等(2021)提出的BirdNET网络由127层2,700万个参数组成, 在单物种记录方面的平均精度为0.791.Xie等(2022)在CLDNN (CNN-LSTM-DNN)模型中引入卷积注意力机制, 使其分类性能提高. ... A survey on Chinese literature for bird sound recognition based on machine listening 1 2020 ... 在最新的鸟声研究综述中, 乔玉等(2020)总结了中文文献中鸟声识别的机器学习方法, Priyadarshani等(2018)、Das等(2020)和Xie等(2023)均从信号处理的观点总结了自动鸟声物种识别的方法, 申小虎等(2023)则总结了鸟声识别的机器学习算法.然而, 这些文献缺少对于标注方法和标注平台的总结.我们在2012-2024年发表的出版物中, 检索了鸟类声音、鸟声标注、鸟鸣声、鸟声音节、众包信誉管理、鸟声分类、鸟声识别或鸟声检测、被动声学监测, 以及相关的程序、软件或方法等关键词, 旨在深入探索鸟类声音标注技术的最新进展, 并分析其在被动声学监测中的广泛应用和实际挑战.本文的工作主要体现在以下3个方面: (1)简述鸟类发声原理、原始音频数据特性、鸟鸣声复杂的层次结构和鸟声标注技术在被动声学监测中的应用.梳理了近10年鸟声研究常用的公开数据集, 包括数据集的物种数、录音时长、文件数、发布方等, 分析了不同类型数据集的特点.(2)以鸟声标注为重点, 比较了现有文献中的各种标注方法, 并详细介绍了它们的优缺点和在被动声学监测中的应用.整理了人工标注中的众包项目和鸟类自动识别软件, 并介绍了各软件的特点.概述了特别是随着深度学习的发展, 自动标注依赖的鸟声识别研究的基本步骤, 总结了声学事件检测相关竞赛结果, 并分析了常用模型的优缺点.(3)分析了当前常用的标注方法面临的现实问题和技术挑战, 并指出了这些方法在应用过程中存在的具体困难, 包括数据标注的一致性、标注效率低下、人工成本高昂以及自动化程度不足等问题.本文还探讨了标注技术在处理多样化和复杂数据时的局限性.针对这些问题, 本文提出了未来标注技术的发展方向和展望. ... 基于机器听觉的鸟声识别的中文研究综述 1 2020 ... 在最新的鸟声研究综述中, 乔玉等(2020)总结了中文文献中鸟声识别的机器学习方法, Priyadarshani等(2018)、Das等(2020)和Xie等(2023)均从信号处理的观点总结了自动鸟声物种识别的方法, 申小虎等(2023)则总结了鸟声识别的机器学习算法.然而, 这些文献缺少对于标注方法和标注平台的总结.我们在2012-2024年发表的出版物中, 检索了鸟类声音、鸟声标注、鸟鸣声、鸟声音节、众包信誉管理、鸟声分类、鸟声识别或鸟声检测、被动声学监测, 以及相关的程序、软件或方法等关键词, 旨在深入探索鸟类声音标注技术的最新进展, 并分析其在被动声学监测中的广泛应用和实际挑战.本文的工作主要体现在以下3个方面: (1)简述鸟类发声原理、原始音频数据特性、鸟鸣声复杂的层次结构和鸟声标注技术在被动声学监测中的应用.梳理了近10年鸟声研究常用的公开数据集, 包括数据集的物种数、录音时长、文件数、发布方等, 分析了不同类型数据集的特点.(2)以鸟声标注为重点, 比较了现有文献中的各种标注方法, 并详细介绍了它们的优缺点和在被动声学监测中的应用.整理了人工标注中的众包项目和鸟类自动识别软件, 并介绍了各软件的特点.概述了特别是随着深度学习的发展, 自动标注依赖的鸟声识别研究的基本步骤, 总结了声学事件检测相关竞赛结果, 并分析了常用模型的优缺点.(3)分析了当前常用的标注方法面临的现实问题和技术挑战, 并指出了这些方法在应用过程中存在的具体困难, 包括数据标注的一致性、标注效率低下、人工成本高昂以及自动化程度不足等问题.本文还探讨了标注技术在处理多样化和复杂数据时的局限性.针对这些问题, 本文提出了未来标注技术的发展方向和展望. ... Fundamentals of Speech Recognition 1 1993 ... Artificial features and extraction methods
深度神经网络可显著提升声音识别的性能, 但网络参数随着层数的增加显著增长, 并且在不同环境下的识别效果是不同的(Pahuja & Kumar, 2021).卷积神经网络中的经典模型有LeNet-5 (LeCun et al, 1998)、AlexNet (Krizhevsky et al, 2017)、VGG16 (Simonyan & Zisserman, 2014)、Inception (Szegedy et al, 2015)、ResNet (He et al, 2016)、DenseNet (Huang et al, 2017)、EfficientNet (Tan & Le, 2019), 模型输入信号可以为人工特征也可以为原始音频, 并且识别鸟类发声效果比较好, 但是只能提取短时间帧的特征, 不能获取相邻帧之间的顺序特征.卷积递归神经网络(convolutional recurrent neural networks, CRNN)虽然可以获得时间帧之间的顺序相关性, 但CS-CLDNN (Convolutional Block Attention Module -Switch-CNN-LSTM-DNN) (Xie et al, 2022)、长短时记忆递归神经网络(long short term memory, LSTM)、门控循环单元(gated recurrent unit, GRU)、勒让德记忆单元(Legendre memory unit, LMU)等典型CRNN结合了卷积神经网络和递归神经网络, 需要大量的计算资源.支持向量机(颜鑫和李应, 2013)、K最近邻(Joly et al, 2014)、决策树(Lasseck, 2015)、隐含马尔柯夫模型(Ntalampiras, 2018)、球形K均值(Salamon et al, 2017)、变分编码器(吴科毅等, 2023)等方法也是典型鸟声识别方法.隐含马尔柯夫模型在非平稳噪声下的识别效果差, K最近邻弱监督学习容易导致标注噪声, 使用决策树方法时特征选择过程比较复杂.当标注数据较少时, 可使用基于半监督学习的识别方法, 比如高斯混合模型(Gaussian mixture model, GMM) (Ptacek et al, 2016)、孪生神经网络(siamese neural networks, SNNs) (Acconcjaioco & Ntalampiras, 2021)等算法.由于模型的结构、特征的选择、预处理等都会影响模型识别效果, 研究人员通常选择特征融合(Zhang et al, 2021; Wang et al, 2022)、关联多个分类器(Gupta et al, 2021)、选择合适的层数和卷积核(Kahl et al, 2021)、增加注意力机制(Xie et al, 2020, 2022)等方法提升识别效果.Zhang等(2021)分别采用短时傅里叶变换、梅尔频率倒谱变换和Chirplet变换生成频谱图, 并逐个训练单特征识别模型, 最终形成特征融合模型, 使得模型识别精度提升.Gupta等(2021)的实验结果表明, 卷积神经网络和循环神经网络(recurrent neural networks, RNN)结合起来的模型分类性能高于单独的卷积神经网络模型.Kahl等(2021)提出的BirdNET网络由127层2,700万个参数组成, 在单物种记录方面的平均精度为0.791.Xie等(2022)在CLDNN (CNN-LSTM-DNN)模型中引入卷积注意力机制, 使其分类性能提高. ... How not to lie with visualization 1 1996 ... 在动物声音研究中, 通常以声谱图的形式对声音信号进行观察和分析.声谱图是在时间和频率为正交轴的二维平面上, 声音信号通过短时傅里叶变换得到.为避免彩色频谱图对数据感知和解释干扰的可能影响, 通常使用灰度级声谱图(Rogowitz et al, 1996), 以便可以清晰地看到多个物种同时发声的现象.鸟鸣声的声谱图表现出分层的结构特征, 复杂的鸟鸣声通常可以进一步细分为短语、音节和元素等组成部分(Somervuo et al, 2006).每种鸟鸣声的结构层次和多样性各不相同: 有些鸟鸣声包含多个音节, 而另一些可能仅由一个音节构成.由于鸟鸣声的元素常常难以精确分离, 尤其是在多物种同时发声的情境下, 已有研究通常侧重于对音节层次或整体特征进行分析. ... Passive acoustic monitoring provides a fresh perspective on fundamental ecological questions 1 2023 ... 随着人工智能的不断发展, 被动声学监测受到越来越多的关注(Pimm et al, 2015).然而, 由于声音传感器同时记录了各种非生物噪声和生物声音, 使得音频数据的存储、运行、管理成本显著增加(Ross et al, 2023).动物的声音也会随着时间、季节和环境变化而发生动态变化, 例如黎明和黄昏的鸟类合唱现象(Duan, 2014).噪声干扰和声音可变性是录制野外动物声音数据时面临的两个主要挑战(Towsey & Planitz, 2011).在此背景下, 准确的标注工作成为被动声学监测中不可或缺的环节.标注不仅能够帮助有效地分离声音信号中的有声段和静默段, 从而减少数据量, 还能降低存储和处理的负担.此外, 在进行物种自动识别时, 标注的质量直接影响识别系统的性能.噪声和环境复杂性常常导致高假阳性率问题(Cragg et al, 2015).通过创建高质量的标注数据集, 算法可以更好地学习不同物种的声音特征, 提高物种识别的准确性和可靠性, 减少错误分类.标注精度越高, 自动化识别结果越准确, 尤其是在物种多样性和声音结构复杂的环境下, 标注技术对结果的影响尤为显著.在声景研究中, 通常不关注单个物种, 而是比较分析不同声学群落的整体活动模式(Sueur et al, 2008).标注工作通过标注明确记录的数据中包含的物种数量、群体活动模式、活动范围和活跃水平等关键指标, 可使研究人员更好地理解声学活动群落及其与环境的复杂相互关系.这种标注工作不仅是生态声学数据分析的基础, 还为后续的生态管理和保护决策提供了可靠的数据支持.综上所述, 标注技术在被动声学监测中的核心作用体现在它能够帮助有效减少数据噪声、提高物种识别精度, 并为生态群落声学活动的深入研究奠定基础.这使得标注成为推动被动声学监测研究及其应用的关键要素.图1展示了标注技术在被动声学监测中的应用场景. ... PNW-Cnet v4: Automated species identification for passive acoustic monitoring 1 2023 ... 自动识别鸟类的软件有多种(表4).Kaleidoscope Pro由Wildlife Acoustics公司推出, 能够识别鸟鸣声、青蛙叫声、蝙蝠叫声, 并提供用户指南和视频教程.BirdNET软件是康奈尔大学鸟类学实验室K. Lisa Yang保护生物声学中心和开姆尼茨理工大学媒体信息学主席推出的公民科学平台, 截至2023年6月可以识别出世界上大约6,552种最常见的鸟类.BirdNET利用双通道频谱图(覆盖0 Hz至15 kHz)进行声音分析, 能在手机上使用, 并且能够显示音频中每秒出现的最可能物种.Arbimon网页可以识别的物种大约为43,000种, 主要集中在大洋洲、北美洲和南美洲等.该平台可自动检测录音中的已知物种, 并进行大规模数据集的聚类分析, 比较不同时间和空间的生物群落.AviaNZ由数学家、数据科学家、保护生物学家合作提出, 模型训练完成之后, 人工审查音频段的标签.Avisoft-SASLab Pro软件通过频谱图互相关法对音节进行自动分类, 并且使用音频文件创建野外调查地图.Luscinia网站由伦敦玛丽女王大学的Robert Lachlan编写和维护, 能够测量15个声学参数, 作为有关复杂信号结构的轮廓和分层信息, 主要实现录音中音节的统计和比较.Merlin Bird ID由康奈尔大学鸟类学实验室推出, 可以通过声音和图片识别美国、加拿大、欧洲各国、印度等地区的1,054种鸟类, 用于探索用户附近的鸟的种类, 只支持在手机上使用.Shiny_PNW-Cnet (Ruff et al, 2023)专注于识别在太平洋西北地区发现的37种鸟类和哺乳动物的呼叫特征, 以及频谱图图像中的其他几种声音, 并允许用户重命名音频文件和保存频谱图.Raven Pro由康奈尔大学鸟类学实验室K. Lisa Yang保护生物声学中心创建, 支持手动或者自动选择时频范围.在当今的移动应用市场中, 如Smart Bird ID和Song Sleuth Bird Song Analyzer等应用程序也能识别鸟类叫声, 但不支持批量识别功能.2022年推出的TadariDeep脚本提供免费的批处理功能, 但在鸟声重叠情况下, 其分类效果较差, 需要进一步优化.在选择鸟类声音识别软件时, 用户应关注软件的最新版本和更新情况, 以确保满足不断变化的需求. ... Enhancing the dissimilarity-based classification of birdsong recordings 1 2016 ... 时频域中存在更多的去噪方法: (1)基于图像进行去噪.将时频特征以频谱图的形式呈现, 可以使用频谱图像素值减去像素平均值并将负值设置为0, 去除连续的低强度噪声(Stowell & Plumbley, 2014a).也可以通过白化(Ruiz-Mu?oz et al, 2016)或者中值滤波(Stowell et al, 2019)达到类似的效果, 但是去平均化的方法当信噪比较低时不适用.(2)可以通过设置相应的阈值降低噪声、增强鸟声信号实现频谱图的比例转换(Piczak, 2016), 这种方法的关键在于根据噪声设置相应的阈值.(3)基于小波的去噪, 这种方法更加适用于去除准稳态高斯近似噪声.随着深度学习的发展, 可以使用模型学习噪声属性, 实现去噪的效果, 比如自编码器(autoencoders, AE) (Sinha & Rajan, 2018)和深度神经网络(deep neural networks, DNN) (Xie et al, 2019). ... Learning the speech front-end with raw waveform CLDNNs 1 2015 ... 手动提取的人工特征主要有4种: 时域特征、频域特征、图像特征和时频特征.表3总结了常用的人工特征及其提取方法.常用的时域特征有短时过零率等(Marin-Cudraz et al, 2019), 频域特征有感知线性倒谱系数(Reynolds, 1994)等.单独的时域特征或者频域特征识别率低(Jin et al, 2023).研究人员使用声谱图提取特征, 比如图像频率统计(Bastas et al, 2012)、形状特征(Lee et al, 2013)等.时频特征是一种描述鸟鸣声时间和频率特征的方法, 提取时频特征的方法很多, 如离散小波变换(Sun et al, 2013)、小波包分解(Xie et al, 2016)、短时傅里叶变换(Mulimani & Koolagudi, 2019)、梅尔频率倒谱变换(Usman et al, 2020)等.为了提升识别效果, 可将多个时频特征进行融合(Zhang et al, 2021).鸟类交流中对于声音中的精细结构特别敏感, 但是手动提取的鸟声特征趋向于人类的理解, 可能忽略了鸟类声音的时序变化等重要特征(Dooling & Prior, 2017), 并且人工时频变换提取特征易造成信息损失, 使用卷积、长短期记忆深度神经网络(Sainath et al, 2015)、SincNet (Bravo Sanchez et al, 2021)等网络可以减少损失.一维卷积神经网络(Xie et al, 2021b)、自动编码器(Xie et al, 2020)、WaveNet (Van den Oord et al, 2016)等可以得到下游任务需要的特征, 与其他深度学习模型结合, 可实现更好的分类或者检测效果. ... Fusing shallow and deep learning for bioacoustic bird species classification 1 2017 ... 深度神经网络可显著提升声音识别的性能, 但网络参数随着层数的增加显著增长, 并且在不同环境下的识别效果是不同的(Pahuja & Kumar, 2021).卷积神经网络中的经典模型有LeNet-5 (LeCun et al, 1998)、AlexNet (Krizhevsky et al, 2017)、VGG16 (Simonyan & Zisserman, 2014)、Inception (Szegedy et al, 2015)、ResNet (He et al, 2016)、DenseNet (Huang et al, 2017)、EfficientNet (Tan & Le, 2019), 模型输入信号可以为人工特征也可以为原始音频, 并且识别鸟类发声效果比较好, 但是只能提取短时间帧的特征, 不能获取相邻帧之间的顺序特征.卷积递归神经网络(convolutional recurrent neural networks, CRNN)虽然可以获得时间帧之间的顺序相关性, 但CS-CLDNN (Convolutional Block Attention Module -Switch-CNN-LSTM-DNN) (Xie et al, 2022)、长短时记忆递归神经网络(long short term memory, LSTM)、门控循环单元(gated recurrent unit, GRU)、勒让德记忆单元(Legendre memory unit, LMU)等典型CRNN结合了卷积神经网络和递归神经网络, 需要大量的计算资源.支持向量机(颜鑫和李应, 2013)、K最近邻(Joly et al, 2014)、决策树(Lasseck, 2015)、隐含马尔柯夫模型(Ntalampiras, 2018)、球形K均值(Salamon et al, 2017)、变分编码器(吴科毅等, 2023)等方法也是典型鸟声识别方法.隐含马尔柯夫模型在非平稳噪声下的识别效果差, K最近邻弱监督学习容易导致标注噪声, 使用决策树方法时特征选择过程比较复杂.当标注数据较少时, 可使用基于半监督学习的识别方法, 比如高斯混合模型(Gaussian mixture model, GMM) (Ptacek et al, 2016)、孪生神经网络(siamese neural networks, SNNs) (Acconcjaioco & Ntalampiras, 2021)等算法.由于模型的结构、特征的选择、预处理等都会影响模型识别效果, 研究人员通常选择特征融合(Zhang et al, 2021; Wang et al, 2022)、关联多个分类器(Gupta et al, 2021)、选择合适的层数和卷积核(Kahl et al, 2021)、增加注意力机制(Xie et al, 2020, 2022)等方法提升识别效果.Zhang等(2021)分别采用短时傅里叶变换、梅尔频率倒谱变换和Chirplet变换生成频谱图, 并逐个训练单特征识别模型, 最终形成特征融合模型, 使得模型识别精度提升.Gupta等(2021)的实验结果表明, 卷积神经网络和循环神经网络(recurrent neural networks, RNN)结合起来的模型分类性能高于单独的卷积神经网络模型.Kahl等(2021)提出的BirdNET网络由127层2,700万个参数组成, 在单物种记录方面的平均精度为0.791.Xie等(2022)在CLDNN (CNN-LSTM-DNN)模型中引入卷积注意力机制, 使其分类性能提高. ... Towards the automatic classification of avian flight calls for bioacoustic monitoring 1 2016 ... 在自建数据集方面, Salamon等(2016)编制并公开了CLO-43SD数据集, 该数据集由来自43种不同种类的北美林莺的5,428个飞行呼叫音频片段组成.Bird-DB (Arriaga et al, 2015)数据集目前标注了428个文件, 关注鸟鸣声结构和上下文信息.HJA (Briggs et al, 2012)数据集包含从H.J. Andrews实验森林收集的10,232个鸟鸣声录音段, 其中4,998个已标记. ... Active learning literature survey 1 2010 ... 自动标注的准确性主要取决于模型性能.如果模型性能不足, 就会产生不准确的标签.众包标注由于专业背景和目标的差异, 不能保证标注的数量和一致性.而且, 如果数据集过于庞大, 众包标注不仅低效且耗时.为了解决自动标注和众包标注方法中存在的问题, 研究人员综合两者的优势提出了半自动标注.半自动标注是通过主动学习(active learning, AL) (Settles, 2010), 使用机器学习方法得到比较“难”分类的样本数据, 再通过众包参与者确认和审核, 然后对人工标注的数据再次使用模型训练, 不断提升模型的效果.虽然可以减少人工标注的数据量, 但也存在标签质量问题.Callaghan等(2018)提出将专家纳入AL循环中.众包参与者通过多数投票的方法提供标签, 只要同意率低于阈值, 则询问鸟声专家确定标签.此框架中用户只需要表达同意还是不同意的意向, 用户的积极性不强(Cakmak et al, 2010). ... Audio bird classification with Inception-v4 extended with time and time-frequency attention mechanisms 1 2017 ... Artificial features and extraction methods
深度神经网络可显著提升声音识别的性能, 但网络参数随着层数的增加显著增长, 并且在不同环境下的识别效果是不同的(Pahuja & Kumar, 2021).卷积神经网络中的经典模型有LeNet-5 (LeCun et al, 1998)、AlexNet (Krizhevsky et al, 2017)、VGG16 (Simonyan & Zisserman, 2014)、Inception (Szegedy et al, 2015)、ResNet (He et al, 2016)、DenseNet (Huang et al, 2017)、EfficientNet (Tan & Le, 2019), 模型输入信号可以为人工特征也可以为原始音频, 并且识别鸟类发声效果比较好, 但是只能提取短时间帧的特征, 不能获取相邻帧之间的顺序特征.卷积递归神经网络(convolutional recurrent neural networks, CRNN)虽然可以获得时间帧之间的顺序相关性, 但CS-CLDNN (Convolutional Block Attention Module -Switch-CNN-LSTM-DNN) (Xie et al, 2022)、长短时记忆递归神经网络(long short term memory, LSTM)、门控循环单元(gated recurrent unit, GRU)、勒让德记忆单元(Legendre memory unit, LMU)等典型CRNN结合了卷积神经网络和递归神经网络, 需要大量的计算资源.支持向量机(颜鑫和李应, 2013)、K最近邻(Joly et al, 2014)、决策树(Lasseck, 2015)、隐含马尔柯夫模型(Ntalampiras, 2018)、球形K均值(Salamon et al, 2017)、变分编码器(吴科毅等, 2023)等方法也是典型鸟声识别方法.隐含马尔柯夫模型在非平稳噪声下的识别效果差, K最近邻弱监督学习容易导致标注噪声, 使用决策树方法时特征选择过程比较复杂.当标注数据较少时, 可使用基于半监督学习的识别方法, 比如高斯混合模型(Gaussian mixture model, GMM) (Ptacek et al, 2016)、孪生神经网络(siamese neural networks, SNNs) (Acconcjaioco & Ntalampiras, 2021)等算法.由于模型的结构、特征的选择、预处理等都会影响模型识别效果, 研究人员通常选择特征融合(Zhang et al, 2021; Wang et al, 2022)、关联多个分类器(Gupta et al, 2021)、选择合适的层数和卷积核(Kahl et al, 2021)、增加注意力机制(Xie et al, 2020, 2022)等方法提升识别效果.Zhang等(2021)分别采用短时傅里叶变换、梅尔频率倒谱变换和Chirplet变换生成频谱图, 并逐个训练单特征识别模型, 最终形成特征融合模型, 使得模型识别精度提升.Gupta等(2021)的实验结果表明, 卷积神经网络和循环神经网络(recurrent neural networks, RNN)结合起来的模型分类性能高于单独的卷积神经网络模型.Kahl等(2021)提出的BirdNET网络由127层2,700万个参数组成, 在单物种记录方面的平均精度为0.791.Xie等(2022)在CLDNN (CNN-LSTM-DNN)模型中引入卷积注意力机制, 使其分类性能提高. ... Automatic acoustic detection of birds through deep learning: The first bird audio detection challenge 1 2019 ... 时频域中存在更多的去噪方法: (1)基于图像进行去噪.将时频特征以频谱图的形式呈现, 可以使用频谱图像素值减去像素平均值并将负值设置为0, 去除连续的低强度噪声(Stowell & Plumbley, 2014a).也可以通过白化(Ruiz-Mu?oz et al, 2016)或者中值滤波(Stowell et al, 2019)达到类似的效果, 但是去平均化的方法当信噪比较低时不适用.(2)可以通过设置相应的阈值降低噪声、增强鸟声信号实现频谱图的比例转换(Piczak, 2016), 这种方法的关键在于根据噪声设置相应的阈值.(3)基于小波的去噪, 这种方法更加适用于去除准稳态高斯近似噪声.随着深度学习的发展, 可以使用模型学习噪声属性, 实现去噪的效果, 比如自编码器(autoencoders, AE) (Sinha & Rajan, 2018)和深度神经网络(deep neural networks, DNN) (Xie et al, 2019). ... Rapid acoustic survey for biodiversity appraisal 1 2008 ... 随着人工智能的不断发展, 被动声学监测受到越来越多的关注(Pimm et al, 2015).然而, 由于声音传感器同时记录了各种非生物噪声和生物声音, 使得音频数据的存储、运行、管理成本显著增加(Ross et al, 2023).动物的声音也会随着时间、季节和环境变化而发生动态变化, 例如黎明和黄昏的鸟类合唱现象(Duan, 2014).噪声干扰和声音可变性是录制野外动物声音数据时面临的两个主要挑战(Towsey & Planitz, 2011).在此背景下, 准确的标注工作成为被动声学监测中不可或缺的环节.标注不仅能够帮助有效地分离声音信号中的有声段和静默段, 从而减少数据量, 还能降低存储和处理的负担.此外, 在进行物种自动识别时, 标注的质量直接影响识别系统的性能.噪声和环境复杂性常常导致高假阳性率问题(Cragg et al, 2015).通过创建高质量的标注数据集, 算法可以更好地学习不同物种的声音特征, 提高物种识别的准确性和可靠性, 减少错误分类.标注精度越高, 自动化识别结果越准确, 尤其是在物种多样性和声音结构复杂的环境下, 标注技术对结果的影响尤为显著.在声景研究中, 通常不关注单个物种, 而是比较分析不同声学群落的整体活动模式(Sueur et al, 2008).标注工作通过标注明确记录的数据中包含的物种数量、群体活动模式、活动范围和活跃水平等关键指标, 可使研究人员更好地理解声学活动群落及其与环境的复杂相互关系.这种标注工作不仅是生态声学数据分析的基础, 还为后续的生态管理和保护决策提供了可靠的数据支持.综上所述, 标注技术在被动声学监测中的核心作用体现在它能够帮助有效减少数据噪声、提高物种识别精度, 并为生态群落声学活动的深入研究奠定基础.这使得标注成为推动被动声学监测研究及其应用的关键要素.图1展示了标注技术在被动声学监测中的应用场景. ... Bioacoustic time capsules: Using acoustic monitoring to document biodiversity 1 2019 ... 被动声学监测(passive acoustic monitoring, PAM)是指在野外环境中布设声学传感器收集动物声音和环境声音的监测方法, 通过对声信号进行处理和分析, 研究人员可以获取关于生物多样性、动物行为、生态系统状态和环境变化等方面的信息(Sugai & Llusia, 2019).这种技术避免了声学监测和调查过程中的人为干扰, 并积累了大量声学数据, 有助于研究人员估计物种丰富度及种群数量、识别个体、探测繁殖事件等重要生态指标(肖治术等, 2023).长期声学监测会产生大量数据, 导致数据存储、运行和管理的成本增加.此外, 使用被动声学监测数据进行分析时, 自动识别发声物种存在高假阳性(Cragg et al, 2015)和计算声学指数难以确定物种个体数(Machado et al, 2017)等问题.为了减少这些问题对使用被动声学监测网络的影响, 需要建立高效的声学标注技术来形成高质量的物种参考数据集, 从而提高物种和个体的自动识别效果. ... Wavelet transform digital sound processing to identify wild bird species 2 2013 ... 手动提取的人工特征主要有4种: 时域特征、频域特征、图像特征和时频特征.表3总结了常用的人工特征及其提取方法.常用的时域特征有短时过零率等(Marin-Cudraz et al, 2019), 频域特征有感知线性倒谱系数(Reynolds, 1994)等.单独的时域特征或者频域特征识别率低(Jin et al, 2023).研究人员使用声谱图提取特征, 比如图像频率统计(Bastas et al, 2012)、形状特征(Lee et al, 2013)等.时频特征是一种描述鸟鸣声时间和频率特征的方法, 提取时频特征的方法很多, 如离散小波变换(Sun et al, 2013)、小波包分解(Xie et al, 2016)、短时傅里叶变换(Mulimani & Koolagudi, 2019)、梅尔频率倒谱变换(Usman et al, 2020)等.为了提升识别效果, 可将多个时频特征进行融合(Zhang et al, 2021).鸟类交流中对于声音中的精细结构特别敏感, 但是手动提取的鸟声特征趋向于人类的理解, 可能忽略了鸟类声音的时序变化等重要特征(Dooling & Prior, 2017), 并且人工时频变换提取特征易造成信息损失, 使用卷积、长短期记忆深度神经网络(Sainath et al, 2015)、SincNet (Bravo Sanchez et al, 2021)等网络可以减少损失.一维卷积神经网络(Xie et al, 2021b)、自动编码器(Xie et al, 2020)、WaveNet (Van den Oord et al, 2016)等可以得到下游任务需要的特征, 与其他深度学习模型结合, 可实现更好的分类或者检测效果. ...
本文的其它图/表
|