图/表详细信息

鸟声标注技术及其在被动声学监测中的应用

郭倩茸, 段淑斐, 谢捷, 董雪燕, 肖治术

生物多样性 2024, 32 (10): 24313-. DOI: 10.17520/biods.2024313

摘要（854）

HTML （23）

PDF（pc）（1546KB）（443）

鸟声标注用于标记声音中的鸟类信息, 如种类、声音结构等, 是鸟类被动声学监测及相关声学数据分析、物种自动识别分类的重要基础。本文以鸟声标注为重点, 比较了人工标注、自动标注和半自动标注等常用方法的优势, 点明了各自在数据质量、标注一致性和标注效率等方面面临的挑战, 同时探讨了这些标注方法在被动声学监测中的应用进展, 提出了自动标注模型优化、跨地区数据集建立和半自动标注系统完善等未来发展方向。尽管目前自动标注方法取得了显著进展, 但鸟声标注仍面临冷启动问题, 亟需更大规模的跨地区数据集和高效的质量检测半自动标注系统, 以满足标注数量和质量的双重要求。本综述有助于帮助鸟声数据集创建者和标注者更好地理解现有标注技术及其潜在的发展趋势, 为大规模鸟类声学监测数据的高效物种自动识别提供技术支撑。

软件名称 Software	输入 Input	模型 Model	免费 Free	网址 Website
Kaleidoscope Pro	音节 Syllable	隐马尔柯夫模型、K-means聚类算法 Hidden Markov model, K-means clustering algorithm	否 No	https://www.wildlifeacoustics.com/products/kaleidoscope-pro
BirdNET	3秒声谱图 3 s spectrogram	BirdNET	是 Yes	https://birdnet.cornell.edu/ https://github.com/kahst/BirdNET-Analyzer
Avisoft-SASLab Pro	音节 Syllable	轴平行阈值、线性判别分析 Axis parallel threshold, linear discriminant analysis	否 No	https://avisoft.com/
Arbimon	音节 Syllable	模板匹配 Template matching	是 Yes	https://arbimon.org/
AviaNZ	手动设置声谱图长度 Manually set the spectrogram length	小波识别器 Wavelet detector	是 Yes	http://www.avianz.net/
Luscinia	音节 Syllable	动态时间扭曲 Dynamic time warping	是 Yes	https://github.com/rflachlan/Luscinia/releases
ChirpOMatic	12秒的语音片段 12 s voice clips	机器学习 Machine learning	否 No	https://www.chirpomatic.com/
Merlin Bird ID		深度学习 Deep learning	是 Yes	https://merlin.allaboutbirds.org/
Shiny PNW-Cnet	12秒的语音片段 12 s voice clips	PNW-Cnet	是 Yes	https://github.com/zjruff/Shiny_PNW-Cnet/tree/main/scripts
Raven Pro	音节 Syllable		否 No	https://www.ravensoundsoftware.com/software/raven-pro/

View table in article

表4 鸟声自动识别软件

正文中引用本图/表的段落

自动识别鸟类的软件有多种(表4)。Kaleidoscope Pro由Wildlife Acoustics公司推出, 能够识别鸟鸣声、青蛙叫声、蝙蝠叫声, 并提供用户指南和视频教程。BirdNET软件是康奈尔大学鸟类学实验室K. Lisa Yang保护生物声学中心和开姆尼茨理工大学媒体信息学主席推出的公民科学平台, 截至2023年6月可以识别出世界上大约6,552种最常见的鸟类。BirdNET利用双通道频谱图(覆盖0 Hz至15 kHz)进行声音分析, 能在手机上使用, 并且能够显示音频中每秒出现的最可能物种。Arbimon网页可以识别的物种大约为43,000种, 主要集中在大洋洲、北美洲和南美洲等。该平台可自动检测录音中的已知物种, 并进行大规模数据集的聚类分析, 比较不同时间和空间的生物群落。AviaNZ由数学家、数据科学家、保护生物学家合作提出, 模型训练完成之后, 人工审查音频段的标签。Avisoft-SASLab Pro软件通过频谱图互相关法对音节进行自动分类, 并且使用音频文件创建野外调查地图。Luscinia网站由伦敦玛丽女王大学的Robert Lachlan编写和维护, 能够测量15个声学参数, 作为有关复杂信号结构的轮廓和分层信息, 主要实现录音中音节的统计和比较。Merlin Bird ID由康奈尔大学鸟类学实验室推出, 可以通过声音和图片识别美国、加拿大、欧洲各国、印度等地区的1,054种鸟类, 用于探索用户附近的鸟的种类, 只支持在手机上使用。Shiny_PNW-Cnet (Ruff et al, 2023)专注于识别在太平洋西北地区发现的37种鸟类和哺乳动物的呼叫特征, 以及频谱图图像中的其他几种声音, 并允许用户重命名音频文件和保存频谱图。Raven Pro由康奈尔大学鸟类学实验室K. Lisa Yang保护生物声学中心创建, 支持手动或者自动选择时频范围。在当今的移动应用市场中, 如Smart Bird ID和Song Sleuth Bird Song Analyzer等应用程序也能识别鸟类叫声, 但不支持批量识别功能。2022年推出的TadariDeep脚本提供免费的批处理功能, 但在鸟声重叠情况下, 其分类效果较差, 需要进一步优化。在选择鸟类声音识别软件时, 用户应关注软件的最新版本和更新情况, 以确保满足不断变化的需求。

深度神经网络可显著提升声音识别的性能, 但网络参数随着层数的增加显著增长, 并且在不同环境下的识别效果是不同的(Pahuja & Kumar, 2021).卷积神经网络中的经典模型有LeNet-5 (LeCun et al, 1998)、AlexNet (Krizhevsky et al, 2017)、VGG16 (Simonyan & Zisserman, 2014)、Inception (Szegedy et al, 2015)、ResNet (He et al, 2016)、DenseNet (Huang et al, 2017)、EfficientNet (Tan & Le, 2019), 模型输入信号可以为人工特征也可以为原始音频, 并且识别鸟类发声效果比较好, 但是只能提取短时间帧的特征, 不能获取相邻帧之间的顺序特征.卷积递归神经网络(convolutional recurrent neural networks, CRNN)虽然可以获得时间帧之间的顺序相关性, 但CS-CLDNN (Convolutional Block Attention Module -Switch-CNN-LSTM-DNN) (Xie et al, 2022)、长短时记忆递归神经网络(long short term memory, LSTM)、门控循环单元(gated recurrent unit, GRU)、勒让德记忆单元(Legendre memory unit, LMU)等典型CRNN结合了卷积神经网络和递归神经网络, 需要大量的计算资源.支持向量机(颜鑫和李应, 2013)、K最近邻(Joly et al, 2014)、决策树(Lasseck, 2015)、隐含马尔柯夫模型(Ntalampiras, 2018)、球形K均值(Salamon et al, 2017)、变分编码器(吴科毅等, 2023)等方法也是典型鸟声识别方法.隐含马尔柯夫模型在非平稳噪声下的识别效果差, K最近邻弱监督学习容易导致标注噪声, 使用决策树方法时特征选择过程比较复杂.当标注数据较少时, 可使用基于半监督学习的识别方法, 比如高斯混合模型(Gaussian mixture model, GMM) (Ptacek et al, 2016)、孪生神经网络(siamese neural networks, SNNs) (Acconcjaioco & Ntalampiras, 2021)等算法.由于模型的结构、特征的选择、预处理等都会影响模型识别效果, 研究人员通常选择特征融合(Zhang et al, 2021; Wang et al, 2022)、关联多个分类器(Gupta et al, 2021)、选择合适的层数和卷积核(Kahl et al, 2021)、增加注意力机制(Xie et al, 2020, 2022)等方法提升识别效果.Zhang等(2021)分别采用短时傅里叶变换、梅尔频率倒谱变换和Chirplet变换生成频谱图, 并逐个训练单特征识别模型, 最终形成特征融合模型, 使得模型识别精度提升.Gupta等(2021)的实验结果表明, 卷积神经网络和循环神经网络(recurrent neural networks, RNN)结合起来的模型分类性能高于单独的卷积神经网络模型.Kahl等(2021)提出的BirdNET网络由127层2,700万个参数组成, 在单物种记录方面的平均精度为0.791.Xie等(2022)在CLDNN (CNN-LSTM-DNN)模型中引入卷积注意力机制, 使其分类性能提高. ...

How not to lie with visualization

1996

... 在动物声音研究中, 通常以声谱图的形式对声音信号进行观察和分析.声谱图是在时间和频率为正交轴的二维平面上, 声音信号通过短时傅里叶变换得到.为避免彩色频谱图对数据感知和解释干扰的可能影响, 通常使用灰度级声谱图(Rogowitz et al, 1996), 以便可以清晰地看到多个物种同时发声的现象.鸟鸣声的声谱图表现出分层的结构特征, 复杂的鸟鸣声通常可以进一步细分为短语、音节和元素等组成部分(Somervuo et al, 2006).每种鸟鸣声的结构层次和多样性各不相同: 有些鸟鸣声包含多个音节, 而另一些可能仅由一个音节构成.由于鸟鸣声的元素常常难以精确分离, 尤其是在多物种同时发声的情境下, 已有研究通常侧重于对音节层次或整体特征进行分析. ...

Passive acoustic monitoring provides a fresh perspective on fundamental ecological questions

2023

... 随着人工智能的不断发展, 被动声学监测受到越来越多的关注(Pimm et al, 2015).然而, 由于声音传感器同时记录了各种非生物噪声和生物声音, 使得音频数据的存储、运行、管理成本显著增加(Ross et al, 2023).动物的声音也会随着时间、季节和环境变化而发生动态变化, 例如黎明和黄昏的鸟类合唱现象(Duan, 2014).噪声干扰和声音可变性是录制野外动物声音数据时面临的两个主要挑战(Towsey & Planitz, 2011).在此背景下, 准确的标注工作成为被动声学监测中不可或缺的环节.标注不仅能够帮助有效地分离声音信号中的有声段和静默段, 从而减少数据量, 还能降低存储和处理的负担.此外, 在进行物种自动识别时, 标注的质量直接影响识别系统的性能.噪声和环境复杂性常常导致高假阳性率问题(Cragg et al, 2015).通过创建高质量的标注数据集, 算法可以更好地学习不同物种的声音特征, 提高物种识别的准确性和可靠性, 减少错误分类.标注精度越高, 自动化识别结果越准确, 尤其是在物种多样性和声音结构复杂的环境下, 标注技术对结果的影响尤为显著.在声景研究中, 通常不关注单个物种, 而是比较分析不同声学群落的整体活动模式(Sueur et al, 2008).标注工作通过标注明确记录的数据中包含的物种数量、群体活动模式、活动范围和活跃水平等关键指标, 可使研究人员更好地理解声学活动群落及其与环境的复杂相互关系.这种标注工作不仅是生态声学数据分析的基础, 还为后续的生态管理和保护决策提供了可靠的数据支持.综上所述, 标注技术在被动声学监测中的核心作用体现在它能够帮助有效减少数据噪声、提高物种识别精度, 并为生态群落声学活动的深入研究奠定基础.这使得标注成为推动被动声学监测研究及其应用的关键要素.图1展示了标注技术在被动声学监测中的应用场景. ...

PNW-Cnet v4: Automated species identification for passive acoustic monitoring

2023

... 自动识别鸟类的软件有多种(表4).Kaleidoscope Pro由Wildlife Acoustics公司推出, 能够识别鸟鸣声、青蛙叫声、蝙蝠叫声, 并提供用户指南和视频教程.BirdNET软件是康奈尔大学鸟类学实验室K. Lisa Yang保护生物声学中心和开姆尼茨理工大学媒体信息学主席推出的公民科学平台, 截至2023年6月可以识别出世界上大约6,552种最常见的鸟类.BirdNET利用双通道频谱图(覆盖0 Hz至15 kHz)进行声音分析, 能在手机上使用, 并且能够显示音频中每秒出现的最可能物种.Arbimon网页可以识别的物种大约为43,000种, 主要集中在大洋洲、北美洲和南美洲等.该平台可自动检测录音中的已知物种, 并进行大规模数据集的聚类分析, 比较不同时间和空间的生物群落.AviaNZ由数学家、数据科学家、保护生物学家合作提出, 模型训练完成之后, 人工审查音频段的标签.Avisoft-SASLab Pro软件通过频谱图互相关法对音节进行自动分类, 并且使用音频文件创建野外调查地图.Luscinia网站由伦敦玛丽女王大学的Robert Lachlan编写和维护, 能够测量15个声学参数, 作为有关复杂信号结构的轮廓和分层信息, 主要实现录音中音节的统计和比较.Merlin Bird ID由康奈尔大学鸟类学实验室推出, 可以通过声音和图片识别美国、加拿大、欧洲各国、印度等地区的1,054种鸟类, 用于探索用户附近的鸟的种类, 只支持在手机上使用.Shiny_PNW-Cnet (Ruff et al, 2023)专注于识别在太平洋西北地区发现的37种鸟类和哺乳动物的呼叫特征, 以及频谱图图像中的其他几种声音, 并允许用户重命名音频文件和保存频谱图.Raven Pro由康奈尔大学鸟类学实验室K. Lisa Yang保护生物声学中心创建, 支持手动或者自动选择时频范围.在当今的移动应用市场中, 如Smart Bird ID和Song Sleuth Bird Song Analyzer等应用程序也能识别鸟类叫声, 但不支持批量识别功能.2022年推出的TadariDeep脚本提供免费的批处理功能, 但在鸟声重叠情况下, 其分类效果较差, 需要进一步优化.在选择鸟类声音识别软件时, 用户应关注软件的最新版本和更新情况, 以确保满足不断变化的需求. ...

Enhancing the dissimilarity-based classification of birdsong recordings

2016

... 时频域中存在更多的去噪方法: (1)基于图像进行去噪.将时频特征以频谱图的形式呈现, 可以使用频谱图像素值减去像素平均值并将负值设置为0, 去除连续的低强度噪声(Stowell & Plumbley, 2014a).也可以通过白化(Ruiz-Mu?oz et al, 2016)或者中值滤波(Stowell et al, 2019)达到类似的效果, 但是去平均化的方法当信噪比较低时不适用.(2)可以通过设置相应的阈值降低噪声、增强鸟声信号实现频谱图的比例转换(Piczak, 2016), 这种方法的关键在于根据噪声设置相应的阈值.(3)基于小波的去噪, 这种方法更加适用于去除准稳态高斯近似噪声.随着深度学习的发展, 可以使用模型学习噪声属性, 实现去噪的效果, 比如自编码器(autoencoders, AE) (Sinha & Rajan, 2018)和深度神经网络(deep neural networks, DNN) (Xie et al, 2019). ...

Learning the speech front-end with raw waveform CLDNNs

2015

... 手动提取的人工特征主要有4种: 时域特征、频域特征、图像特征和时频特征.表3总结了常用的人工特征及其提取方法.常用的时域特征有短时过零率等(Marin-Cudraz et al, 2019), 频域特征有感知线性倒谱系数(Reynolds, 1994)等.单独的时域特征或者频域特征识别率低(Jin et al, 2023).研究人员使用声谱图提取特征, 比如图像频率统计(Bastas et al, 2012)、形状特征(Lee et al, 2013)等.时频特征是一种描述鸟鸣声时间和频率特征的方法, 提取时频特征的方法很多, 如离散小波变换(Sun et al, 2013)、小波包分解(Xie et al, 2016)、短时傅里叶变换(Mulimani & Koolagudi, 2019)、梅尔频率倒谱变换(Usman et al, 2020)等.为了提升识别效果, 可将多个时频特征进行融合(Zhang et al, 2021).鸟类交流中对于声音中的精细结构特别敏感, 但是手动提取的鸟声特征趋向于人类的理解, 可能忽略了鸟类声音的时序变化等重要特征(Dooling & Prior, 2017), 并且人工时频变换提取特征易造成信息损失, 使用卷积、长短期记忆深度神经网络(Sainath et al, 2015)、SincNet (Bravo Sanchez et al, 2021)等网络可以减少损失.一维卷积神经网络(Xie et al, 2021b)、自动编码器(Xie et al, 2020)、WaveNet (Van den Oord et al, 2016)等可以得到下游任务需要的特征, 与其他深度学习模型结合, 可实现更好的分类或者检测效果. ...

Fusing shallow and deep learning for bioacoustic bird species classification

2017

... 深度神经网络可显著提升声音识别的性能, 但网络参数随着层数的增加显著增长, 并且在不同环境下的识别效果是不同的(Pahuja & Kumar, 2021).卷积神经网络中的经典模型有LeNet-5 (LeCun et al, 1998)、AlexNet (Krizhevsky et al, 2017)、VGG16 (Simonyan & Zisserman, 2014)、Inception (Szegedy et al, 2015)、ResNet (He et al, 2016)、DenseNet (Huang et al, 2017)、EfficientNet (Tan & Le, 2019), 模型输入信号可以为人工特征也可以为原始音频, 并且识别鸟类发声效果比较好, 但是只能提取短时间帧的特征, 不能获取相邻帧之间的顺序特征.卷积递归神经网络(convolutional recurrent neural networks, CRNN)虽然可以获得时间帧之间的顺序相关性, 但CS-CLDNN (Convolutional Block Attention Module -Switch-CNN-LSTM-DNN) (Xie et al, 2022)、长短时记忆递归神经网络(long short term memory, LSTM)、门控循环单元(gated recurrent unit, GRU)、勒让德记忆单元(Legendre memory unit, LMU)等典型CRNN结合了卷积神经网络和递归神经网络, 需要大量的计算资源.支持向量机(颜鑫和李应, 2013)、K最近邻(Joly et al, 2014)、决策树(Lasseck, 2015)、隐含马尔柯夫模型(Ntalampiras, 2018)、球形K均值(Salamon et al, 2017)、变分编码器(吴科毅等, 2023)等方法也是典型鸟声识别方法.隐含马尔柯夫模型在非平稳噪声下的识别效果差, K最近邻弱监督学习容易导致标注噪声, 使用决策树方法时特征选择过程比较复杂.当标注数据较少时, 可使用基于半监督学习的识别方法, 比如高斯混合模型(Gaussian mixture model, GMM) (Ptacek et al, 2016)、孪生神经网络(siamese neural networks, SNNs) (Acconcjaioco & Ntalampiras, 2021)等算法.由于模型的结构、特征的选择、预处理等都会影响模型识别效果, 研究人员通常选择特征融合(Zhang et al, 2021; Wang et al, 2022)、关联多个分类器(Gupta et al, 2021)、选择合适的层数和卷积核(Kahl et al, 2021)、增加注意力机制(Xie et al, 2020, 2022)等方法提升识别效果.Zhang等(2021)分别采用短时傅里叶变换、梅尔频率倒谱变换和Chirplet变换生成频谱图, 并逐个训练单特征识别模型, 最终形成特征融合模型, 使得模型识别精度提升.Gupta等(2021)的实验结果表明, 卷积神经网络和循环神经网络(recurrent neural networks, RNN)结合起来的模型分类性能高于单独的卷积神经网络模型.Kahl等(2021)提出的BirdNET网络由127层2,700万个参数组成, 在单物种记录方面的平均精度为0.791.Xie等(2022)在CLDNN (CNN-LSTM-DNN)模型中引入卷积注意力机制, 使其分类性能提高. ...

Towards the automatic classification of avian flight calls for bioacoustic monitoring

2016

... 在自建数据集方面, Salamon等(2016)编制并公开了CLO-43SD数据集, 该数据集由来自43种不同种类的北美林莺的5,428个飞行呼叫音频片段组成.Bird-DB (Arriaga et al, 2015)数据集目前标注了428个文件, 关注鸟鸣声结构和上下文信息.HJA (Briggs et al, 2012)数据集包含从H.J. Andrews实验森林收集的10,232个鸟鸣声录音段, 其中4,998个已标记. ...

Active learning literature survey

2010

... 自动标注的准确性主要取决于模型性能.如果模型性能不足, 就会产生不准确的标签.众包标注由于专业背景和目标的差异, 不能保证标注的数量和一致性.而且, 如果数据集过于庞大, 众包标注不仅低效且耗时.为了解决自动标注和众包标注方法中存在的问题, 研究人员综合两者的优势提出了半自动标注.半自动标注是通过主动学习(active learning, AL) (Settles, 2010), 使用机器学习方法得到比较“难”分类的样本数据, 再通过众包参与者确认和审核, 然后对人工标注的数据再次使用模型训练, 不断提升模型的效果.虽然可以减少人工标注的数据量, 但也存在标签质量问题.Callaghan等(2018)提出将专家纳入AL循环中.众包参与者通过多数投票的方法提供标签, 只要同意率低于阈值, 则询问鸟声专家确定标签.此框架中用户只需要表达同意还是不同意的意向, 用户的积极性不强(Cakmak et al, 2010). ...

Audio bird classification with Inception-v4 extended with time and time-frequency attention mechanisms

2017

... Artificial features and extraction methods

本文的其它图/表