生物多样性 ›› 2022, Vol. 30 ›› Issue (11): 22356. DOI: 10.17520/biods.2022356
收稿日期:
2022-06-29
接受日期:
2022-09-17
出版日期:
2022-11-20
发布日期:
2022-10-22
通讯作者:
庄会富
作者简介:
E-mail: zhuanghuifu@mail.kib.ac.cn基金资助:
Jinshui Qiu1, Yanan Wang2, Huifu Zhuang1,*()
Received:
2022-06-29
Accepted:
2022-09-17
Online:
2022-11-20
Published:
2022-10-22
Contact:
Huifu Zhuang
摘要:
高质量的生物多样性数据能够为生物多样性的研究与保护提供数据支撑。目前研究人员开发了大量的生物多样性数据处理软件或工具, 包括工作流系统、R语言包、Python语言包和Excel工具等, 但是使用这些软件或工具需要用户安装相应的软件客户端, 并掌握一定的编程语言、软件开发和复杂的Excel公式等知识和技能。为降低用户的学习成本和使用门槛, 本文采用了Browser/Server模式设计技术、Web技术、可视化技术、响应式开发技术、网络爬虫技术、数据处理技术和Solr智能检索技术等, 针对不同维度的生物多样性数据设计和开发了相应的数据处理模块, 构建了中国生物多样性在线数据处理平台(
邱金水, 王亚楠, 庄会富 (2022) 中国生物多样性在线数据处理平台的构建. 生物多样性, 30, 22356. DOI: 10.17520/biods.2022356.
Jinshui Qiu, Yanan Wang, Huifu Zhuang (2022) Construction of the Chinese biodiversity online data processing platform. Biodiversity Science, 30, 22356. DOI: 10.17520/biods.2022356.
测试用例 Test case | 处理结果 Processing results | 匹配或参考校正的标准名称 Standard name of match or reference correction | ||
---|---|---|---|---|
高容错 High fault tolerance | 中容错 Middle fault tolerance | 低容错 Low fault tolerance | ||
Sinularia muralis | Match | Match | Match | Sinularia muralis |
Sinularia muralis May, 1899 | Match | Match | Match | Sinularia muralis |
SinulariaX | Rectify | Rectify | Unmatched | Sinularia |
muralisX | Unmatched | Unmatched | Unmatched | - |
SinulariaX muralisX | Rectify | Rectify | Unmatched | Sinularia muralis |
muralisX SinulariaX | Rectify | Rectify | Unmatched | Sinularia muralis |
SinulariaX muralisX MayX | Rectify | Rectify | Unmatched | Sinularia muralis |
SinulariaXX muralisXX MayXX* | Rectify | Unmatched | Unmatched | Sinularia muralis |
SinulariaX MayX* muralisX | Rectify | Rectify | Unmatched | Sinularia muralis |
SinulariaX muralisX MayX 1899X | Rectify | Rectify | Unmatched | Sinularia muralis |
MayX* 1899X SinulariaX muralisX | Rectify | Rectify | Unmatched | Sinularia muralis |
muralisXX SinulariaXX MayXX* 1899XX | Rectify | Unmatched | Unmatched | Sinularia muralis |
Sinularia muralis X…X … | Rectify | Rectify | Rectify | Sinularia muralis |
SinulariaXX muralisXX X…X* … | Rectify | Unmatched | Unmatched | Sinularia muralis |
表1 测试示例在不同的容错级别下的处理结果
Table 1 Processing results of test examples at different fault tolerance levels
测试用例 Test case | 处理结果 Processing results | 匹配或参考校正的标准名称 Standard name of match or reference correction | ||
---|---|---|---|---|
高容错 High fault tolerance | 中容错 Middle fault tolerance | 低容错 Low fault tolerance | ||
Sinularia muralis | Match | Match | Match | Sinularia muralis |
Sinularia muralis May, 1899 | Match | Match | Match | Sinularia muralis |
SinulariaX | Rectify | Rectify | Unmatched | Sinularia |
muralisX | Unmatched | Unmatched | Unmatched | - |
SinulariaX muralisX | Rectify | Rectify | Unmatched | Sinularia muralis |
muralisX SinulariaX | Rectify | Rectify | Unmatched | Sinularia muralis |
SinulariaX muralisX MayX | Rectify | Rectify | Unmatched | Sinularia muralis |
SinulariaXX muralisXX MayXX* | Rectify | Unmatched | Unmatched | Sinularia muralis |
SinulariaX MayX* muralisX | Rectify | Rectify | Unmatched | Sinularia muralis |
SinulariaX muralisX MayX 1899X | Rectify | Rectify | Unmatched | Sinularia muralis |
MayX* 1899X SinulariaX muralisX | Rectify | Rectify | Unmatched | Sinularia muralis |
muralisXX SinulariaXX MayXX* 1899XX | Rectify | Unmatched | Unmatched | Sinularia muralis |
Sinularia muralis X…X … | Rectify | Rectify | Rectify | Sinularia muralis |
SinulariaXX muralisXX X…X* … | Rectify | Unmatched | Unmatched | Sinularia muralis |
地址信息 Address information | 省 Province | 城市 City | 区县 District | 乡镇 Town | 街道 Street |
---|---|---|---|---|---|
云南省西双版纳傣族自治州勐海县西定哈尼族布朗族乡曼皮村民委员会广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | - | - |
云南西双版纳傣族自治州勐海西定哈尼族布朗族乡曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | - | - |
云南省勐海县曼皮村民委员会广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | - | - |
云南西双版纳勐海西定曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | - | - |
云南勐海曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | - | - |
云南曼皮广邦贝山 | 云南省 | 临沧市 | 临翔区 | - | - |
云南广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | - | - |
表2 基于百度地图API技术对地址进行处理的示例
Table 2 Examples of address processing based on Baidu map API technology
地址信息 Address information | 省 Province | 城市 City | 区县 District | 乡镇 Town | 街道 Street |
---|---|---|---|---|---|
云南省西双版纳傣族自治州勐海县西定哈尼族布朗族乡曼皮村民委员会广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | - | - |
云南西双版纳傣族自治州勐海西定哈尼族布朗族乡曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | - | - |
云南省勐海县曼皮村民委员会广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | - | - |
云南西双版纳勐海西定曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | - | - |
云南勐海曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | - | - |
云南曼皮广邦贝山 | 云南省 | 临沧市 | 临翔区 | - | - |
云南广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | - | - |
地址信息 Address information | 省 Province | 城市 City | 区县 District | 乡镇 Town | 街道 Street |
---|---|---|---|---|---|
云南省西双版纳傣族自治州勐海县西定哈尼族布朗族乡曼皮村民委员会广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | 西定哈尼族布朗族乡 | 曼皮村民委员会 |
云南西双版纳傣族自治州勐海西定哈尼族布朗族乡曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | 西定哈尼族布朗族乡 | ? |
云南省勐海县曼皮村民委员会广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | 西定哈尼族布朗族乡 | 曼皮村民委员会 |
云南西双版纳勐海西定曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | 西定哈尼族布朗族乡 | 曼皮村民委员会 |
云南勐海曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | 西定哈尼族布朗族乡 | 曼皮村民委员会 |
云南曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | 西定哈尼族布朗族乡 | 曼皮村民委员会 |
云南广邦贝山 | ? | ? | ? | ? | ? |
表3 基于行政区划技术对地址进行处理的示例
Table 3 Examples of address processing based on administrative division technology
地址信息 Address information | 省 Province | 城市 City | 区县 District | 乡镇 Town | 街道 Street |
---|---|---|---|---|---|
云南省西双版纳傣族自治州勐海县西定哈尼族布朗族乡曼皮村民委员会广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | 西定哈尼族布朗族乡 | 曼皮村民委员会 |
云南西双版纳傣族自治州勐海西定哈尼族布朗族乡曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | 西定哈尼族布朗族乡 | ? |
云南省勐海县曼皮村民委员会广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | 西定哈尼族布朗族乡 | 曼皮村民委员会 |
云南西双版纳勐海西定曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | 西定哈尼族布朗族乡 | 曼皮村民委员会 |
云南勐海曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | 西定哈尼族布朗族乡 | 曼皮村民委员会 |
云南曼皮广邦贝山 | 云南省 | 西双版纳傣族自治州 | 勐海县 | 西定哈尼族布朗族乡 | 曼皮村民委员会 |
云南广邦贝山 | ? | ? | ? | ? | ? |
原始数据 Original data | 格式化 Format (YYYY-MM-DD) | 年 Year | 月 Month | 日 Day | 时 Hour | 分 Minute | 秒 Second |
---|---|---|---|---|---|---|---|
2022\05\11 10:22:40 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 40 |
2022\5\11 10:22:40 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 40 |
2022-05-11 10:22 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 0 |
2022-5-11 10:22 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 0 |
2022.05.11 10:22:40 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 40 |
2022.5.11 10:22:40 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 40 |
2022-05-11 | 2022-05-11 | 2022 | 5 | 11 | 0 | 0 | 0 |
11th May, 2022 | 2022-05-11 | 2022 | 5 | 11 | 0 | 0 | 0 |
May 11th, 2022 | 2022-05-11 | 2022 | 5 | 11 | 0 | 0 | 0 |
5/11/2022 10:22:40 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 40 |
05/11/2022 10:22:40 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 40 |
二零二二年五月十一日 | 2022-05-11 | 2022 | 5 | 11 | 0 | 0 | 0 |
20220511 | 2022-05-11 | 2022 | 5 | 11 | 0 | 0 | 0 |
1652251583 | 2022-05-11 | 2022 | 5 | 11 | 14 | 46 | 23 |
表4 不同格式的时间日期数据的处理示例
Table 4 Processing examples of different formats time and date data
原始数据 Original data | 格式化 Format (YYYY-MM-DD) | 年 Year | 月 Month | 日 Day | 时 Hour | 分 Minute | 秒 Second |
---|---|---|---|---|---|---|---|
2022\05\11 10:22:40 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 40 |
2022\5\11 10:22:40 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 40 |
2022-05-11 10:22 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 0 |
2022-5-11 10:22 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 0 |
2022.05.11 10:22:40 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 40 |
2022.5.11 10:22:40 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 40 |
2022-05-11 | 2022-05-11 | 2022 | 5 | 11 | 0 | 0 | 0 |
11th May, 2022 | 2022-05-11 | 2022 | 5 | 11 | 0 | 0 | 0 |
May 11th, 2022 | 2022-05-11 | 2022 | 5 | 11 | 0 | 0 | 0 |
5/11/2022 10:22:40 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 40 |
05/11/2022 10:22:40 | 2022-05-11 | 2022 | 5 | 11 | 10 | 22 | 40 |
二零二二年五月十一日 | 2022-05-11 | 2022 | 5 | 11 | 0 | 0 | 0 |
20220511 | 2022-05-11 | 2022 | 5 | 11 | 0 | 0 | 0 |
1652251583 | 2022-05-11 | 2022 | 5 | 11 | 14 | 46 | 23 |
[1] | Biodiversity Commission,Chinese Academy of Sciences (2022) Catalogue of Life China. (in Chinese) |
[中国科学院生物多样性委员会 (2022) 中国生物物种名录.] http://www.sp2000.org.cn/.(accessed on 2022-05-28) | |
[2] | Chamberlain S (2019) Pygbif 0.6.1 Documentation. https://pyg bif.readthedocs.io/en/latest/index.html. (accessed on 2022-0 8-05). |
[3] |
Chen B (2016) Geographic data management, refined route design and precise navigation in biodiversity field surveys. Biodiversity Science, 24, 701-708. (in Chinese with English abstract)
DOI |
[陈彬 (2016) 生物多样性野外调查地理信息管理、路线精细设计和精确导航方法. 生物多样性, 24, 701-708.]
DOI |
|
[4] | Ding LY, Li H, Tao J, Zhang JL, Huang MR, Yang K, Wang J, Ding CZ, He DM (2021) SP2000:An open-sourced R package for querying the Catalogue of Life. Biodiversity Science, 29, 118-122. (in Chinese with English abstract) |
[丁刘勇, 李昊, 陶捐, 张金龙, 黄敏睿, 杨科, 王军, 丁城志, 何大明 (2021) 获取生物物种名录信息的R程序包SP2000. 生物多样性, 29, 118-122.] | |
[5] | Jin J, Yang J (2020) BDcleaner: A workflow for cleaning taxonomic and geographic errors in occurrence data archived in biodiversity databases. Global Ecology and Conservation, 21, e00852. |
[6] |
Jin Y, Qian H (2022) V. PhyloMaker2: An updated and enlarged R package that can generate very large phylogenies for vascular plants. Plant Diversity, 44, 335-339.
DOI |
[7] | Kong FZ, Yu RC, Xu ZJ, Zhou MJ (2012) Application of Excel in calculation of biodiversity indices. Marine Sciences, 36, 57-62. (in Chinese with English abstract) |
[孔凡洲, 于仁成, 徐子钧, 周名江 (2012) 应用Excel软件计算生物多样性指数. 海洋科学, 36, 57-62.] | |
[8] |
Lai JS (2013) Canoco 5: A new version of an ecological multivariate data ordination program. Biodiversity Science, 21, 765-768. (in Chinese with English abstract)
DOI |
[赖江山 (2013) 生态学多元数据排序分析软件Canoco 5介绍. 生物多样性, 21, 765-768.]
DOI |
|
[9] | Li CR, Li Y, Zhou CQ (2021) Application of two-step outdoor assistant APP in biodiversity survey. Journal of Sichuan Forestry Science and Technology, 42(1), 149-152. (in Chinese with English abstract) |
[李成容, 李云, 周材权 (2021) 两步路户外助手APP在生物多样性调查中的应用. 四川林业科技, 42(1), 149-152.] | |
[10] | Li K, Greenberg J, Dunic J (2020) Data objects and documenting scientific processes: An analysis of data events in biodiversity data papers. Journal of the Association for Information Science and Technology, 71, 172-182. |
[11] |
Ma KP (2014) Rapid development of biodiversity informatics in China. Biodiversity Science, 22, 251-252. (in Chinese)
DOI |
[马克平 (2014) 生物多样性信息学在中国快速发展. 生物多样性, 22, 251-252.]
DOI |
|
[12] |
Ma KP (2016) Biodiversity monitoring relies on the integration of human observation and automatic collection of data with advanced equipment and facilities. Biodiversity Science, 24, 1201-1202. (in Chinese)
DOI |
[马克平 (2016) 生物多样性监测依赖于地面人工观测与先进技术手段的有机结合. 生物多样性, 24, 1201-1202.]
DOI |
|
[13] | Ma KP, Zhu M, Ji LQ, Ma JC, Guo QH, Ouyang ZY, Zhu L (2018) Establishing China infrastructure for big biodiversity data. Bulletin of Chinese Academy of Sciences, 33, 838-845. (in Chinese with English abstract) |
[马克平, 朱敏, 纪力强, 马俊才, 郭庆华, 欧阳志云, 朱丽 (2018) 中国生物多样性大数据平台建设. 中国科学院院刊, 33, 838-845.] | |
[14] | Mathew C, Güntsch A, Obst M, Vicario S, Haines R, Williams AR, de Jong Y, Goble C (2014) A semiautomated workflow for biodiversity data retrieval, cleaning, and quality control. Biodiversity Data Journal, 2, e4221. |
[15] | Mi XC, Feng G, Zhang J, Hu YB, Zhu L, Ma KP (2021) Review on biodiversity science in China. Bulletin of Chinese Academy of Sciences, 36, 384-398. (in Chinese with English abstract) |
[米湘成, 冯刚, 张健, 胡义波, 朱丽, 马克平 (2021) 中国生物多样性科学研究进展评述. 中国科学院院刊, 36, 384-398.] | |
[16] |
Qiao HJ, Lin CT, Wang JN, Ji LQ (2014) Process-oriented ecological modeling approach and scientific workflow system. Biodiversity Science, 22, 277-284. (in Chinese with English abstract)
DOI |
[乔慧捷, 林聪田, 王江宁, 纪力强 (2014) 流程化的生态建模方法与科学工作流系统. 生物多样性, 22, 277-284.]
DOI |
|
[17] | Qiu JS, Cai J, Yang YJ, Zhuang HF (2022) Design and implementation of sharing service platform for national wild plant germplasm resource center. Journal of Plant Genetic Resources, 23, 1536-1545. (in Chinese with English abstract) |
[邱金水, 蔡杰, 杨娅娟, 庄会富 (2022) 国家重要野生植物种质资源库共享服务平台设计与实现. 植物遗传资源学报, 23, 1536-1545.] | |
[18] |
Qiu RZ, Zhao J, Chen H, Xian XQ, Chi MX, Weng QY (2021) Research and application of a big data collection method for invasive species surveys. Biodiversity Science, 29, 1377-1385. (in Chinese with English abstract)
DOI |
[邱荣洲, 赵健, 陈宏, 冼晓青, 池美香, 翁启勇 (2021) 外来物种入侵大数据采集方法的建立与应用. 生物多样性, 29, 1377-1385.]
DOI |
|
[19] | Robertson MP, Visser V, Hui C (2016) Biogeo: An R package for assessing and improving data quality of occurrence record datasets. Ecography, 39, 394-401. |
[20] | Sun DZ, Ma JC (2022) On the standardization of biological data and the development of microbial data standards. China Scientific Data, 7, 21-30. (in Chinese with English abstract) |
[孙定中, 马俊才 (2022) 生物数据的标准化与微生物数据标准的发展. 中国科学数据, 7, 21-30.] | |
[21] | Wen YJ (2021) Data information: Overview of global biodiversity research. Bulletin of Chinese Academy of Sciences, 36, 517-519. (in Chinese) |
[文彦杰 (2021) 数据资讯: 全球生物多样性研究概况. 中国科学院院刊, 36, 517-519.] | |
[22] | Xia BX, Ning XX, Chen QW, Gong QZ, Liu CX (2015) Study of the Excel application in automatic processing on data of marine phytoplankton. Sichuan Environment, 34(3), 43-48. (in Chinese with English abstract) |
[夏炳训, 宁璇璇, 陈权文, 宫钦周, 刘春秀 (2015) Excel在海洋浮游植物数据自动化处理中的应用研究. 四川环境, 34(3), 43-48.] | |
[23] |
Xu XT, Wang ZH, Dimitrov D, Rahbek C (2015) Using NCBIminer to search and download nucleotide sequences from GenBank. Biodiversity Science, 23, 550-555. (in Chinese with English abstract)
DOI |
[徐晓婷, 王志恒,Dimitrov D, Rahbek C (2015) 批量下载GenBank基因序列数据的新工具——NCBIminer. 生物多样性, 23, 550-555.]
DOI |
|
[24] | Xu ZF (2022) Ipybd: Biodiversity Data Cleansing Open Source Framework Released. (in Chinese) |
[徐洲锋 (2022) Ipybd生物多样性数据清洗开源框架发布.] https://github.com/leisux/ipybd. (accessed on 2022-05-01) | |
[25] |
Xu ZH, Liu SY, Zhao Y, Tu WQ, Chang ZF, Zhang ET, Guo J, Zheng D, Geng J, Gu GY, Guo CP, Guo LL, Wang J, Xu CY, Peng C, Yang T, Cui MQ, Sun WC, Zhang JT, Liu HT, Ba CQ, Wang HQ, Jia JC, Wu JZ, Xiao C, Ma KP (2020) Evaluation of the identification ability of eight commonly used plant identification application softwares in China. Biodiversity Science, 28, 524-533. (in Chinese with English abstract)
DOI |
[许展慧, 刘诗尧, 赵莹, 涂文琴, 常诏峰, 张恩涛, 郭靖, 郑迪, 耿鋆, 顾高营, 郭淳鹏, 郭璐璐, 王静, 徐春阳, 彭钏, 杨腾, 崔梦琪, 孙伟成, 张剑坛, 刘皓天, 巴超群, 王鹤琪, 贾竞超, 武金洲, 肖翠, 马克平 (2020) 国内8款常用植物识别软件的识别能力评价. 生物多样性, 28, 524-533.]
DOI |
|
[26] |
Zhang J (2017) Biodiversity science and macroecology in the era of big data. Biodiversity Science, 25, 355-363. (in Chinese with English abstract)
DOI |
[张健 (2017) 大数据时代的生物多样性科学与宏生态学. 生物多样性, 25, 355-363.]
DOI |
|
[27] |
Zhang J, Huang XL, Zhou YR, Ma KP (2021) Biodiversity data papers: Standardizing and diversifying data sharing. Biodiversity Science, 29, 1147-1148. (in Chinese)
DOI |
[张健, 黄晓磊, 周玉荣, 马克平 (2021) 生物多样性数据论文: 规范化和多样化. 生物多样性, 29, 1147-1148.]
DOI |
|
[28] | Zhao HJ, Ji LQ (2004) Design and implementation of Biodiversity Mapping, a biodiversity assessment software. Biodiversity Science, 12, 541-545. (in Chinese with English abstract) |
[赵海军, 纪力强 (2004) 生物多样性评价软件Biodiversity Mapping的设计与实现. 生物多样性, 12, 541-545.]
DOI |
No related articles found! |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||
备案号:京ICP备16067583号-7
Copyright © 2022 版权所有 《生物多样性》编辑部
地址: 北京香山南辛村20号, 邮编:100093
电话: 010-62836137, 62836665 E-mail: biodiversity@ibcas.ac.cn