孙济伦1,2,3,谢将剑1,2,3,张长春1,2,3,张军国1,2,3*
Jilun Sun1,2,3, Jiangjian Xie1,2,3, Changchun Zhang1,2,3, Junguo Zhang1,2,3*
1. School of Technology, Beijing Forestry University, Beijing 100083, China;
2. State Key Laboratory of Efficient Production of Forest Resources, Beijing 100083, China;
3. Research Center for Biodiversity Intelligent Monitoring, Beijing Forestry University, Beijing 100083, China
摘要: 湿地水鸟监测保护对于生物多样性及湿地保护具有重要意义。随着计算机视觉技术的广泛应用, 利用深度学习模型进行鸟类图像检测已成为鸟类保护的重要手段。实际湿地水鸟监测图像中存在背景信息复杂、类间特征相似、前景遮挡及目标尺度差异等问题, 使得模型检测性能不足。针对以上问题, 本研究建立了包含内蒙古南海子湿地111种水鸟27,030张图像的自建数据集Bird111, 并提出一种基于YOLO-DAS的湿地水鸟目标检测算法。首先, 融合可变形注意力机制(deformable attention, DAT), 自适应地关注图像中的重要区域, 提高网络的特征提取能力, 避免复杂背景以及相似特征的影响; 然后, 利用自适应空间特征融合(adaptively spatial feature fusion, ASFF), 对所提取的不同尺度特征中的冲突信息进行过滤以增强尺度不变性, 提高模型对多尺度鸟类目标的响应能力; 最后, 引入SlideLoss损失函数, 增加训练过程中对困难样本的关注, 提高对小目标和受遮挡目标的检测性能。实验结果表明, YOLO-DAS模型在自建Bird111数据集上相较于其他主流方法拥有最优的检测性能, 其精确率、召回率及平均检测精度均值较基线模型分别提升4%、2.4%和2.9%, 同时在CUB200-2011、Birdsnap和NABirds公开数据集上具有良好的泛化性能。本文所提出的YOLO-DAS模型能够有效提高复杂背景下的小目标或受遮挡鸟类的检测性能, 为湿地水鸟监测工作中不同鸟类目标尺度的图像检测提供了有效的技术方法。