Please wait a minute...
图/表 详细信息
AI辅助识别的鸟类被动声学监测在城市湿地公园中的应用
白皓天, 余上, 潘新园, 凌嘉乐, 吴娟, 谢恺琪, 刘阳, 陈学业
生物多样性    2024, 32 (8): 24188-.   DOI: 10.17520/biods.2024188
摘要   (813 HTML44 PDF(pc) (1577KB)(469)  

为了探究基于AI识别的鸟类被动声学监测手段在城市湿地公园中的应用效果, 同时对比其与传统人工样线调查结果的差别, 本研究于2023年3-5月在广州市湾咀头湿地公园开展了为期3个月的同期监测。样线法为每月调查两次; 声学监测法通过安装两台声纹监测仪, 全天开启触发录制模式, 通过4G网络回传音频文件并使用以珠三角鸟类名录构建的AI识别模型进行鸟种识别, 再对结果进行置信度筛选和人工复核。样线法累计记录鸟类2,200只次; 声学监测法共采集音频96,848条, 筛选验证获得有效记录34,117条。两种方法共记录鸟类70种, 其中样线调查记录鸟类48种, 声学监测记录49种, 两种调查方法都记录到的鸟类有27种。两种调查方法重叠的物种比例不足总物种数的一半, 说明在此类湿地公园生境下这两种方法尚无法互相取代。样线调查结果相对准确、便于估算种群密度, 但对调查者的认鸟水平和工作量要求较高; 声学监测可自动化运行, 便于扩大监测规模, 但后期数据处理难度较大, 结合AI物种识别和人工校正可以提高数据处理效率。综上, 基于机器学习的AI识别技术的鸟类被动声学监测方法大大提高了数据处理效率, 但仍需要结合传统的样线调查方法, 两者结合将有更高的准确率和更广阔的应用前景。



View image in article
图3 声学监测数据置信度分布(A)和物种累积曲线(B)
正文中引用本图/表的段落
(1)数据采集。被动声学监测设备共采集了96,848条音频文件(音频时频图如图2), 经过AI模型识别, 置信度分布如图3A, 曲线总体为双峰型曲线。根据曲线最低点横坐标选择筛选阈值为0.71, 即置信度 ≥ 0.71的鸣声数据纳入多样性与活动规律统计。
(2)物种识别结果。经过筛选置信度 ≥ 0.71的鸣声数据, 共获得音频记录34,139条(其中鸟声34,065条, 噪声74条), 经人工审核, 其中正确的有31,299条, 错误的有2,819条, 无法判定的有21条, 总体准确率为91.68%。人工审核纠正后的数据共34,117条, 其中包括鸟类鸣声34,024条, 噪声83条。识别鸟类共计49种, 隶属于9目25科(附录1); 物种累积曲线见图3B。记录鸣声条数最多的为黄腹山鹪莺(Prinia flaviventris)、白胸苦恶鸟(Amaurornis phoenicurus)、黑脸噪鹛(Garrulax perspicillatus)、噪鹃(Eudynamys scolopaceus)、黑领椋鸟(Gracupica nigricollis)。
(4)置信度阈值选择。AI识别模型在给出识别结果时均附有对应置信度, 代表目标音频与物种声学模型的符合程度。如果不考虑置信度高低, 对全部数据进行人工校验, 则人工工作量相对于完全人工鉴定录音并无明显降低, 发挥不出AI对于节省人工的作用。因此选择合适的筛选阈值非常重要, 若阈值偏低, 能够尽量利用更多可能的有效数据, 但人工成本较高; 若阈值偏高, 筛选后的准确率更高, 节省人力成本, 但最终获取的有效数据量会减少。对于如何科学地选择阈值, 目前尚无基于数学原理的深入讨论, 笔者在本研究中尝试给出了一个经验方法: AI识别结果的置信度分布(图3)有两个较明显的峰, 较低的横坐标0.05附近的峰主要为无鸟声或鸟声信号过弱的音频切片, 较高的横坐标0.95附近的峰代表包含信噪比强、特征明显的鸟声信号的切片, 因此以两个峰之间的最低点(横坐标0.71)为简单分界, 可较为高效地筛选出较为有效的部分。对于目的是多样性、活动节律的数据量较为丰富的被动声学研究, 可选择相对较高的阈值以节省人员工作量; 对于目的是珍稀、濒危物种监测的研究, 可选择相对较低的阈值以保证获取足够的有效数据。
本文的其它图/表