|
|
||
|
基于GenBank数据库的真核生物遗传数据时空格局分析
生物多样性
2025, 33 (8):
25184-.
DOI: 10.17520/biods.2025184
遗传数据在生物多样性研究和保护实践中发挥着越来越重要的作用, 然而研究者应用这些数据时常面临数据质量缺陷、地理或类群分布不均等方面的制约, 尽管陆生脊椎动物的遗传数据格局已有较深入研究, 但全球植物、真菌和其他动物类群的遗传数据空间分布模式仍缺乏系统的实证研究。本文采用多尺度分析方法, 系统评估了动物、植物和真菌三大真核生物界的遗传数据现状、元数据完整性以及遗传数据的时空动态趋势。结果表明, 动物界拥有约2.7亿条序列和1.6万个基因组数据, 超过植物界(约1.4亿条, 0.7万个)和真菌界(约0.2亿条, 1.7万个)。遗传数据的地理元数据缺失现象普遍存在, 其中真菌ITS序列的经纬度缺失最为严重(缺失率92.07%), 其次是植物rbcL (83.19%)和动物COI (26.40%)。时空分布格局显示, 全球尺度上遗传数据呈现明显的“北半球中心化”特征, 北美、西欧和东亚地区占据主导地位, 而南半球普遍数据匮乏; 同时观察到动物COI和植物rbcL数据呈下降趋势, 而真菌ITS数据快速增长。中国区域则表现出独特的“南动物、东植物、北真菌”分布格局, 而西北地区数据积累明显不足; 时间维度上, 中国植物和真菌数据持续增长, 而动物数据保持稳定。这些发现揭示了遗传数据质量缺陷和分布失衡已成为制约生物多样性研究的重要瓶颈。为此, 我们建议建立严格的元数据存档标准, 重点加强南半球和中国西北部等数据薄弱区域的科研投入, 并通过构建国际科研合作网络促进全球数据资源的均衡配置, 从而提升遗传数据在生物多样性研究和保护实践中的应用价值。 ![]() View image in article
图1
动物界(A、B)、植物界(C、D)和真菌界(E、F)代表序列网格水平全球时空分布格局。左列(A、C、E)分别展示动物界(COI)、植物界(rbcL)和真菌界(ITS)序列的空间分布格局, 基于4° × 4°网格系统, 颜色梯度表示采用自然断点法划分的6个序列密度等级。右列(B、D、F)分别展示动物界(COI)、植物界(rbcL)和真菌界(ITS)序列的年际变化趋势, 通过一般线性模型计算各网格内序列数量与年份的相关系数(正值表示增长趋势, 负值表示下降趋势), 黑色边框表示相关系数达到显著(P < 0.05)的网格。
正文中引用本图/表的段落
全球真核生物代表序列的时空格局分析表明, 遗传数据既存在明显的地理偏倚, 又展现出不同类群间的时间动态差异(图1)。在空间分布方面, 三大类群均呈现明显的区域聚集现象, 动物COI序列主要富集于北美和西欧地区, 其中多伦多(18.01%)、班夫国家公园(12.74%)和瓜纳卡斯特国家公园(5.32%)周边网格最为密集(图1A); 植物rbcL数据也集中分布于瓜纳卡斯特国家公园(8.13%)和多伦多(8.27%)附近网格(图1C); 而真菌ITS数据分别在印度南部(4.24%)、中国北部(3.40%)、加拿大西南部(3.23%)以及墨西哥南部(3.88%)网格呈现局部聚集(图1E)。
从时间动态来看, 三大类群序列数据的积累趋势呈现显著差异。动物COI和植物rbcL数据的研究呈现减缓趋势, 分别有66.96%和56.09%的网格序列年际相关性呈负, 且显著负相关网格(COI: 61个; rbcL: 25个)远多于显著正相关网格(COI: 3个; rbcL: 10个) (图1B, 1D); 相反, 真菌ITS数据的研究持续增加, 69.71%的网格呈正相关, 且显著正相关的网格(40个)是显著负相关网格(4个)的10倍(图1F)。
值得注意的是, 元数据缺失与数据地理偏倚之间存在双向强化关系: 元数据缺失不仅掩盖了真实的地理分布格局, 其本身往往就是地理偏倚的必然产物。具体而言, 科研资源长期向特定生物类群和地区倾斜, 导致这些优势类群和地区的数据采集与记录相对规范完整; 而其他类群和地区则因缺乏研究投入而持续处于“数据缺失-研究忽视”的困境。这种系统性偏差在全球尺度的遗传数据分布格局中表现得尤为明显: 我们的分析显示, 遗传数据分布在全球尺度上呈现出典型的“北半球中心化”分布特征, 北美、西欧和东亚地区的遗传数据量占据绝对优势, 而南半球大部分地区普遍处于数据匮乏状态(图1)。其中加拿大多伦多周边区域表现出异常的数据集中现象, 这一分布格局的形成可归因于以下几个关键因素: 首先, 多伦多作为国际条形码数据库BOLD (Barcode of Life Data System)的创始地(Ratnasingham & Hebert, 2007), 当地科研机构开展了长期且系统性的区域生物多样性调查, 从而积累了大量的本地物种条形码数据。其次, 该地区作为全球重要的测序中心, 承担了大量国际样本的测序工作, 但在数据记录过程中, 部分样本的真实地理信息可能被简化为测序机构所在地坐标。这些结果表明, 当前全球生物多样性监测网络存在着严重的地理偏倚, 这种偏倚既反映了科研资源配置的区域差异, 也暴露出数据采集和标注过程中的系统性偏差。值得注意的是, 由于真菌数据存在高达92.07%的地理信息缺失率, 因此现有分析可能无法真实反映真菌多样性的实际分布特征。在时间动态方面, 动物COI和植物rbcL数据呈现下降趋势, 可能反映了北美和西欧等传统研究热点区域的采样饱和现象; 相比之下, 真菌ITS数据持续增长, 特别是在东亚等新兴研究区域(图1)。这一趋势可能得益于环境DNA和宏条形码技术的广泛应用(Yan et al, 2018)以及真菌在生态监测中重要性的提升(Warnasuriya et al, 2023)。
本文的其它图/表
|