|
||||||||||||||||||||||||||||||||||||||||||||||||
中国生物多样性在线数据处理平台的构建
生物多样性
2022, 30 (11):
22356-.
DOI: 10.17520/biods.2022356
高质量的生物多样性数据能够为生物多样性的研究与保护提供数据支撑。目前研究人员开发了大量的生物多样性数据处理软件或工具, 包括工作流系统、R语言包、Python语言包和Excel工具等, 但是使用这些软件或工具需要用户安装相应的软件客户端, 并掌握一定的编程语言、软件开发和复杂的Excel公式等知识和技能。为降低用户的学习成本和使用门槛, 本文采用了Browser/Server模式设计技术、Web技术、可视化技术、响应式开发技术、网络爬虫技术、数据处理技术和Solr智能检索技术等, 针对不同维度的生物多样性数据设计和开发了相应的数据处理模块, 构建了中国生物多样性在线数据处理平台(
表3
基于行政区划技术对地址进行处理的示例
正文中引用本图/表的段落
第二种基于行政区划检索技术的技术方案相对于第一种技术方案则较为复杂: 首先需要通过爬虫技术获取全国统计用区划代码和城乡划分代码, 然后将以“区划代码”等外键的低冗余结构化的区划名称数据, 处理成无外键的高冗余结构化的区划名称数据, 减少数据关联查询从而提高区划名称的检索效率, 并根据区划名称的特征生成区划名称简写, 然后将区划名称和名称简写作为分词的核心词库并建立索引。对地址进行处理前, 需要将地址信息按照核心词库的地理名称进行分词处理, 然后根据分词结果在区划名称索引数据库中进行比对, 并对相似性最高的比对结果进行验证, 如果验证结果符合可接受的阈值范围, 则认为这条地址信息的处理是成功的, 全部处理完成后将地址信息处理结果返回给用户。同样地对地址信息“云南省西双版纳傣族自治州勐海县西定哈尼族布朗族乡曼皮村民委员会广邦贝山”及其简写进行处理, 基于行政区划检索技术的处理结果如表3所示。
本文的其它图/表
|