|
||
AI辅助识别的鸟类被动声学监测在城市湿地公园中的应用
生物多样性
2024, 32 (8):
24188-.
DOI: 10.17520/biods.2024188
为了探究基于AI识别的鸟类被动声学监测手段在城市湿地公园中的应用效果, 同时对比其与传统人工样线调查结果的差别, 本研究于2023年3-5月在广州市湾咀头湿地公园开展了为期3个月的同期监测。样线法为每月调查两次; 声学监测法通过安装两台声纹监测仪, 全天开启触发录制模式, 通过4G网络回传音频文件并使用以珠三角鸟类名录构建的AI识别模型进行鸟种识别, 再对结果进行置信度筛选和人工复核。样线法累计记录鸟类2,200只次; 声学监测法共采集音频96,848条, 筛选验证获得有效记录34,117条。两种方法共记录鸟类70种, 其中样线调查记录鸟类48种, 声学监测记录49种, 两种调查方法都记录到的鸟类有27种。两种调查方法重叠的物种比例不足总物种数的一半, 说明在此类湿地公园生境下这两种方法尚无法互相取代。样线调查结果相对准确、便于估算种群密度, 但对调查者的认鸟水平和工作量要求较高; 声学监测可自动化运行, 便于扩大监测规模, 但后期数据处理难度较大, 结合AI物种识别和人工校正可以提高数据处理效率。综上, 基于机器学习的AI识别技术的鸟类被动声学监测方法大大提高了数据处理效率, 但仍需要结合传统的样线调查方法, 两者结合将有更高的准确率和更广阔的应用前景。 ![]() View image in article
图2
WZT-1设备于2023年4月7日18:54:22触发采集的音频文件时频图(实线框为黑脸噪鹛鸟鸣声, 虚线框为白胸苦恶鸟鸣声)
正文中引用本图/表的段落
(4)分类网络: 把提取的对数梅尔谱图特征输入到一个预训练(pretrained)主干网络(backbone), 最后加入一个全连接层(fully connected layer, FC)作分类器。使用的backbone为EfficientNetv2-S (Tan & Le, 2021), 它通过对输入的特征进行深层次的学习, 能提取到鸟鸣声的深层特征(embedding)。
(1)数据采集。被动声学监测设备共采集了96,848条音频文件(音频时频图如图2), 经过AI模型识别, 置信度分布如图3A, 曲线总体为双峰型曲线。根据曲线最低点横坐标选择筛选阈值为0.71, 即置信度 ≥ 0.71的鸣声数据纳入多样性与活动规律统计。
(5)混叠声处理。关于同时鸣叫而发声频率区间不重叠的鸣声, 对分别识别不同物种互不影响。例如图2为WZT-1设备于2023年4月7日18:54:22触发采集的8 s时长音频时频图, 其中实线框中为黑脸噪鹛鸣声, 虚线框为白胸苦恶鸟鸣声, 5 kHz与6 kHz处为两种螽斯。AI识别结果为黑喉噪鹛的置信度是0.8891, 白胸苦恶鸟的置信度是0.7866。如果两种鸣声在时间和频率维度上都混叠, 则会对识别结果造成较大影响。
本文的其它图/表
|