|
||
通过虫体花粉识别构建植物‒传粉者网络: 人工模型与AI模型高度一致
生物多样性
2024, 32 (6):
24088-.
DOI: 10.17520/biods.2024088
传粉是生态系统中一项关键服务, 准确识别和分析传粉者携带的花粉对于理解植物‒传粉者交互作用以及传粉服务至关重要。传统的花粉识别方法依赖于显微镜下的人工直接观察, 这种方法耗时且需要专业知识, 限制了其在大规模应用中的效率, 在评估传粉效率和稀有植物‒传粉者连接方面存在局限性。针对此问题, 我们使用公共平台训练了基于河南洛阳市天池山国家森林公园14种同时开花植物的花粉识别人工智能(AI)模型, 通过比较人工显微镜观察和AI模型识别142只传粉者身体携带的花粉构成, 首次探讨了两种方法构建的植物‒传粉者互作网络的结构差异。结果表明AI模型在构建时能够达到96%的整体准确率。人工识别与AI模型在识别的连接数量、花粉数量以及图片一致率方面存在差异。AI模型在识别连接和花粉数量上略高于人工方法, 并且在第三方的一致性检验中, 超过半数的情况倾向于AI模型的结果。尽管存在一些独有连接的差异, 人工识别与AI模型构建的定量网络在结构特征上展现出高度的相似性。本研究揭示了AI图像识别技术对提高花粉分析效率和准确性的作用, 以及应用于植物‒传粉者互作研究的潜力, 这将有助于传粉网络研究的大规模开展, 为传粉生态学研究提供新的工具和视角。 ![]() View image in article
图1
AI模型的训练效果。(a)不同阈值下的模型准确率, 阈值为0.8时模型达到最高准确率96%。对某类别而言F1-score是指精确率和召回率的调和平均数, 此处为各类别F1-score的平均数。(b)‒(e) AI模型对不同物种花粉图像的识别准确率: (b)瓜木98.2%; (c)一年蓬87.5%; (d)繁缕96.4%; (e)花旗杆91.4%。
正文中引用本图/表的段落
调查取样地点位于河南省洛阳市的天池山国家森林公园, 该地区属于温带大陆性气候。我们选取了一条500 m × 10 m的样带, 样带内大部分植物在5?6月开花, 多数为虫媒传粉植物。在2022年6月1?10日对样带进行了传粉网络调查研究。在晴朗、无风或微风的天气条件下, 在10:00?16:00这一传粉者活跃的时间段对开花植物进行了传粉者访花观察(Miele et al, 2020)。只有观察到昆虫访问者接触到花的花药或柱头时, 才记录这些访花昆虫的种类, 并在访问结束后使用捕虫网将其捕获。每种昆虫样本均被放置在5 mL的离心管中保存, 对于蛾类、蝶类等较大的昆虫, 则使用三角包保存。每种植物的每个访花昆虫种类至少捕获1只。每种植物每次观测0.5 h, 每种植物的总观测时间为2 h, 调查总共持续了10 d。我们在12科14属的14种开花植物上, 共捕捉了57种142只有效传粉者, 主要包括双翅目(47只, 33.10%)、膜翅目(72只, 50.7%)、鞘翅目(6只, 4.3%)和鳞翅目(10只, 7.0%)四大类。同时, 我们从每种开花植物的10个个体中采集了20朵花的花粉, 作为每种植物的标准花粉样本, 用于构建标准花粉图谱和模型训练(附录1)。
首先使用凝胶颗粒(1.5 mm3)碰触收集标准花粉样本, 随后将凝胶颗粒放置于载玻片, 加热50℃后制作封片, 同时轻轻按压减少花粉堆叠。在400倍的光学显微镜(Nikon E100)下, 使用KUY NICE显微镜CCD摄像头和Image Viewer开源图像查看器对花粉样本拍照保存。每种植物花粉细胞拍照保存图片至少50张以上, 每张图片包括1?5粒花粉, 作为模型训练的花粉数据原始库, 以及人工鉴定的比对图谱。图片像素选择2592 × 1944, RGB24, JPG格式保存(附录2)。拍照时尽量选取多种角度下的花粉细胞, 提高后期模型的包容性及覆盖率。
随后, 将传粉者携带花粉样品玻片拍摄图像上传至该模型, 识别不同花粉细胞, 鉴定各类花粉细胞植物来源, 并在阈值0.8时达到模型最佳识别准确率(图1a)。通过视觉观测计数结果, 记录AI模型识别下不同传粉者携带花粉种类及丰度。随机选择的4张花粉图像展示了模型在阈值0.8时的识别效果: 图1b细胞为瓜木(Alangium platanifolium), 准确率98.2%, 定义该细胞为瓜木花粉细胞; 图1c细胞为一年蓬(Erigeron annuus), 准确率87.5%, 定义该细胞为一年蓬花粉细胞; 图1d为繁缕(Stellaria media), 图1e为花旗杆(Dontostemon dentatus), 准确率分别为96.4%、91.4%。
人工花粉鉴定中, 需要比对花粉图片库和花粉形态数据表格, 由于不同物种花粉识别的难度不同, 每张照片的人工识别需要花费1?5 min。使用AI进行花粉识别, 模型对每张照片的响应时间小于10 s。如果仅考虑识别过程, AI模型的引入可以使效率提高约10倍, 且准确率与人工识别无显著差异。我们估计目前常规显微镜拍照和人工识别一人两个月的工作量, 引入AI识别模型, 可以缩短到1个月以内。
目前AI模型识别技术仍存在一些局限和不确定性, 需要进一步改进和验证。首先, AI模型的识别精确率受花粉样本的图片数量和质量的影响。花粉高清图库拍照和图片人工标识花粉等前期工作需要耗费时间, 但这些标注后的图片可以重复用于其他识别模型的构建。如果物种的花粉图片样本过少、物种内的花粉形态差异较小, 或照片过于模糊、背景杂乱、花粉堆叠变形等情况, 模型可能无法有效地学习和识别。我们构建数据库时, 每个物种使用50张图片, 每张图片上标注了1?5个花粉粒, 仍旧有部分物种被模型认定数据不足(附录4)。第二, AI模型的识别范围受到数据库的限制, 模型无法识别训练时数据库中没有的物种花粉, 对于数据库以外的花粉, 通常会给出错误的结果。所以花粉识别时, 仍旧需要人工进行抽样校对。第三, 对于物种较少的小群落, 识别结果精确率尚可满足需求, 而对于物种较多的大群落, 例如同时超过50种植物开花, 或者有几种亲缘关系较近、花粉形态极为相似的物种, 模型的识别准确率就会有较明显下降。这可能是因为来自同一物种的参考样本形态差异过大, 从而导致过度拟合模型(Xu et al, 2019), 模型中的错误分类大多发生在常见类型(花粉漏检) (Olsson et al, 2021)。规范采样流程和拍照流程, 更大规模的高质量图像数据, 以及图像数据增强, 都有助于构建性能更好的AI花粉识别模型, 但是这些都意味着更高的前期投入, 所以需要在模型识别性能和前期投入之间进行权衡。我们认为针对不同群落最好构建独立的模型, 充分考虑开花植物的物候重叠和空间分布情况, 而不是试图构建一个包含所有开花植物的完整模型, 因为更多的物种意味着需要更优质的数据才能将相似形态的花粉种类区分开。综上, AI模型在花粉识别方面仍有待进一步优化和完善, 需要保持准确率的同时能够容纳更多的花粉种类和样本量, 提高模型的普遍性和稳定性, 减少误差和偏差, 以适应更复杂和多样的花粉分析场景。
本文的其它图/表
|