批量下载GenBank基因序列数据的新工具——NCBIminer

doi:10.17520/biods.2015120

生物多样性 ›› 2015, Vol. 23 ›› Issue (4): 550-555. DOI: 10.17520/biods.2015120 cstr: 32101.14.biods.2015120

• 软件介绍 • 上一篇

批量下载GenBank基因序列数据的新工具——NCBIminer

徐晓婷¹, 王志恒^1,,A;^*, DimitarDimitrov²()

1 (北京大学城市与环境学院生态学系, 北京大学地表过程分析与模拟教育部重点实验室, 北京 100871) 2 (Natural History Museum, University of Oslo, Oslo, Norway) 3 (Center for Macroecology, Evolution and Climate, Natural History Museum of Denmark, University of Copenhagen, Copenhagen, Denmark) 4 (Imperial College London, Grand Challenges in Ecosystems and the Environment Initiative, Silwood Park Campus, Berkshire, UK);

收稿日期:2015-05-07 接受日期:2015-07-09 出版日期:2015-07-20 发布日期:2015-08-03
通讯作者: 王志恒
基金资助:
国家自然科学基金(31470564, 31400467, 31321061)和中国博士后科学基金(2014M550555)

Using NCBIminer to search and download nucleotide sequences from GenBank

Xiaoting Xu¹, Zhiheng Wang^1,^*(), Dimitar Dimitrov², Carsten Rahbek^3,⁴

1 Department of Ecology and Key Laboratory for Earth Surface Processes of the Ministry of Education, College of Urban and Environmental Sciences, Peking University, Beijing 100871
2 Natural History Museum, University of Oslo, Oslo, Norway
3 Center for Macroecology, Evolution and Climate, Natural History Museum of Denmark, University of Copenhagen, Copenhagen, Denmark
4 Imperial College London, Grand Challenges in Ecosystems and the Environment Initiative, Silwood Park Campus, Berkshire, UK

Received:2015-05-07 Accepted:2015-07-09 Online:2015-07-20 Published:2015-08-03
Contact: Wang Zhiheng

1. 附录1 GenBank中的序列数据格式和附录2 NCBIminer的工作流程.pdf(212KB)

摘要/Abstract

摘要：

核苷酸序列是生物体遗传信息的载体, 是现代生物学和生态学的基础数据。随着测序技术的进步, 大量核苷酸序列被提取并存储在公共数据平台中, 其中GenBank(http://www.ncbi.nlm.nih.gov/genbank/)是目前最大的核苷酸序列数据平台之一。截至2015年2月, 该平台收录核苷酸序列总数已超过1.8亿条、覆盖全球超过30万个物种。但如何从如此海量的数据中准确、快速查找并下载所需数据已成为限制基因数据广泛使用的障碍之一。为此, 我们开发了一款可高效、准确下载GenBank数据的生物信息学软件NCBIminer。NCBIminer可根据用户提供的核苷酸序列名称、数据类型、一或多条初始化参考序列, 查找并下载用户指定的多个物种或类群的特定基因序列数据。该软件下载地址为https://github.com/greengirl/NCBIminer/releases/, 可在Windows、Linux和MAC操作系统下免费使用; 同时, 其操作简单, 用户无需生物信息学背景。为方便该软件的使用, 本文将介绍该软件的工作流程与算法、安装及使用过程中的参数设置等。

关键词: GenBank, 生物信息学, 基因序列, 系统进化, DNA, 核苷酸序列

Abstract

GenBank is the leading public genetic resources database and currently contains over 10¹² base pairs from about 300,000 formally described species. It offers valuable resources for studies on the evolution of species, genes, and genomes. However, difficulties in GenBank data mining hinder the potential wide application of this tool for big data collection. To address this issue, we introduce new bioinformatics software —NCBIminer. NCBIminer is a freely available, cross-platform, and user-friendly software for mining nucleotide sequences from GenBank. The main purpose of NCBIminer is to download sequences for user required genes and taxonomic groups based on gene names, types, and one or several reference sequences. The program algorithms have been described elsewhere and here, we focus on introducing the details in the usage of the program including how to install, run, and set parameters.

Key words: GenBank, bioinformatics, gene, phylogenetic evolution, DNA, nucleotide sequences

徐晓婷, 王志恒, DimitarDimitrov (2015) 批量下载GenBank基因序列数据的新工具——NCBIminer. 生物多样性, 23, 550-555. DOI: 10.17520/biods.2015120.

Xiaoting Xu, Zhiheng Wang, Dimitar Dimitrov, Carsten Rahbek (2015) Using NCBIminer to search and download nucleotide sequences from GenBank. Biodiversity Science, 23, 550-555. DOI: 10.17520/biods.2015120.

导出引用管理器 EndNote|Ris|BibTeX

链接本文: https://www.biodiversity-science.net/CN/10.17520/biods.2015120

https://www.biodiversity-science.net/CN/Y2015/V23/I4/550

图/表 2

附录1 GenBank中的序列数据格式。左侧方框中是GenBank定义的基因类型(feature type), 右侧方框中为该序列的相关注释信息。

Appendix 1 Data format for a sequence in GenBank. The items in the left box are feature types defined in GenBank, while those in the right box are GenBank annotation information.

附录2 NCBIminer的工作流程。a为NCBIminer工作的主要流程, b详细解释了优化参考序列集建立和多查询归并算法的步骤。根据Xu et al. (2015)修改。

Appendix 2 Data format for a sequence in GenBank. The items in the left box are feature types defined in GenBank, while those in the right box are GenBank annotation informatioppendix 2 NCBIminer workflow. a, Major steps of the NCBIminer’s work flow; b, The algorithms for the establishment of improved reference sequences and sequence combination of multiple queries. Modified from Xu et al. (2015).

参考文献 18

1	Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) Basic local alignment search tool.Journal of Molecular Biology, 215, 403-410.
2	Chen ZD (陈之端), Li DZ (李德铢) (2013) On Barcode of Life and Tree of Life.Plant Diversity and Resources(植物分类与资源学报), 35, 675-681. (in Chinese with English abstract)
3	Driskell AC, Ané C, Burleigh JG, McMahon MM, O’Meara BC, Sanderson MJ (2004) Prospects for building the Tree of Life from large sequence databases.Science, 306, 1172-1174.
4	Holt B, Lessard JP, Borregaard MK, Fritz SA, Araujo MB, Dimitrov D, Fabre PH, Graham CH, Graves GR, Jonsson KA, Nogues-Bravo D, Wang ZH, Whittaker RJ, Fjeldsa J, Rahbek C (2013) An update of Wallace’s zoogeographic regions of the world.Science, 339, 74-78.
5	Jones M, Koutsovoulos G, Blaxter M (2011) iPhy: an integrated phylogenetic workbench for supermatrix analyses.BMC Bioinformatics, 12, 30.
6	Li DC (2013) Similarity analysis of DNA sequences based on CLZ complexity.Journal of Computational and Theoretical Nanoscience, 10, 481-487.
7	Li DZ, Gao LM, Li HT, Wang H, Ge XJ, Liu JQ, Chen ZD, Zhou SL, Chen SL, Yang JB, Fu CX, Zeng CX, Yan HF, Zhu YJ, Sun YS, Chen SY, Zhao L, Wang K, Yang T, Duan GW, Grp CPB (2011) Comparative analysis of a large dataset indicates that internal transcribed spacer (ITS) should be incorporated into the core barcode for seed plants. Proceedings of the National Academy of Sciences, USA, 108, 19641-19646.
8	Lu LM (鲁丽敏), Sun M (孙苗), Zhang JB (张景博), Li HL (李洪雷), Lin L (林立), Yang T (杨拓), Chen M (陈闽), Chen ZD (陈之端) (2014) Tree of Life and its applications.Biodiversity Science(生物多样性), 22, 3-20. (in Chinese with English abstract)
9	Pearse WD, Purvis A (2013) phyloGenerator: an automated phylogeny generation tool for ecologists.Methods in Ecology and Evolution, 4, 692-698.
10	Pei NC (裴男才) (2015) Applications of DNA barcoding in evolutionary ecology.Biodiversity Science(生物多样性), 23, 291-292. (in Chinese)
11	Qiu Q, Zhang GJ, Ma T, Qian WB, Wang JY, Ye ZQ, Cao CC, Hu QJ, Kim J, Larkin DM, Auvil L, Capitanu B, Ma J, Lewin HA, Qian XJ, Lang YS, Zhou R, Wang LZ, Wang K, Xia JQ, Liao SG, Pan SK, Lu X, Hou HL, Wang Y, Zang XT, Yin Y, Ma H, Zhang J, Wang ZF, Zhang YM, Zhang DW, Yonezawa T, Hasegawa M, Zhong Y, Liu WB, Zhang Y, Huang ZY, Zhang SX, Long RJ, Yang HM, Wang J, Lenstra JA, Cooper DN, Wu Y, Wang J, Shi P, Wang J, Liu JQ (2012) The yak genome and adaptation to life at high altitude.Nature Genetics, 44, 946-949.
12	Ren BQ (任保青), Chen ZD (陈之端) (2010) DNA barcoding plant life.Chinese Bulletin of Botany(植物学报), 45, 1-12. (in Chinese with English abstract)
13	Sanderson M, Boss D, Chen D, Cranston K, Wehe A (2008) The PhyLoTA browser: processing GenBank for molecular phylogenetics research.Systematic Biology, 57, 335-346.
14	Xu X, Wang Z, Rahbek C, Lessard J-P, Fang J (2013)
15	Evolutionary history influences the effects of water-energy dynamics on oak diversity in Asia.Journal of Biogeography, 40, 2146-2155.
16	Xu XT, Dimitrov D, Rahbek C, Wang ZH (2015) NCBIminer: sequences harvest from Genbank.Ecography, 38, 426-430.
17	Yang ZY, Ran JH, Wang XQ (2012) Three genome-based phylogeny of Cupressaceae s.l.: further evidence for the evolution of gymnosperms and southern hemisphere biogeography.Molecular Phylogenetics and Evolution, 64, 452-470.
18	Zanne AE, Tank DC, Cornwell WK, Eastman JM, Smith SA, FitzJohn RG, McGlinn DJ, O’Meara BC, Moles AT, Reich PB, Royer DL, Soltis DE, Stevens PF, Westoby M, Wright IJ, Aarssen L, Bertin RI, Calaminus A, Govaerts R, Hemmings F, Leishman MR, Oleksyn J, Soltis PS, Swenson NG, Warman L, Beaulieu JM (2013) Three keys to the radiation of angiosperms into freezing environments.Nature, 506, 89-92.

[1]	贾晓旭, 陈皖强, 唐修君, 樊艳凤, 张静, 王海威, 高玉时. 西南地区家鸡线粒体DNA控制区遗传多样性和基因渗入[J]. 生物多样性, 2026, 34(5): 26003-.
[2]	张德喜, 周倩, 裴雪竹, 张红勇, 裴应泰, 孙杉, 刘名信, 张立勋, 赵长明. 甘肃兴隆山森林节肢动物标本照片与DNA条形码数据集[J]. 生物多样性, 2026, 34(4): 25409-.
[3]	康志成, 高春蕾, 郭嘉宁, 孟范平, 王宗灵. 渤海与北黄海春季有害甲藻包囊: 多样性､分布及环境相关性[J]. 生物多样性, 2026, 34(3): 25426-.
[4]	夏东坡, 李静, 田军东, 黄中豪, 伍乘风, 陈仕望, 李进华. 中国野生猕猴属动物的研究进展[J]. 生物多样性, 2026, 34(3): 25460-.
[5]	刘俊, 张天祥, 张壹萱, 黄晓凤, 韩卫杰, 吴问国, 黄晓飞, 黄理政, 张阳. 基于DNA宏条形码的江西桃红岭梅花鹿食性与营养策略[J]. 生物多样性, 2026, 34(2): 25214-.
[6]	闫姿伶, 陈晓宇, 姚蒙. 基于环境DNA宏条形码的无脊椎动物多样性研究: 生物信息学流程比较与评估[J]. 生物多样性, 2026, 34(1): 25369-.
[7]	彭欣, 刘传, 黄晓磊. 基于GenBank数据库的真核生物遗传数据时空格局分析[J]. 生物多样性, 2025, 33(8): 25184-.
[8]	李云翱, 张文富, 赵桂刚, 杨春燕, 陈向清, 袁盛东, 曹敏, 蔡望, 杨洁. 空气环境DNA在陆生脊椎动物多样性监测上的应用: 以西双版纳20 ha森林动态样地为例[J]. 生物多样性, 2025, 33(6): 24318-.
[9]	彭文, 邓泽帅, 郑文宝, 龚凌轩, 曾玉枫, 孟昊, 陈军, 杨道德. eDNA技术在两栖动物调查中的应用: 以湖南莽山国家级自然保护区为例[J]. 生物多样性, 2025, 33(6): 24552-.
[10]	伍金山, 杨长乐, 马玉凤, 李亚旋, 高文家, 叶·库斯力, 叶樑洪, 杨宇骄, 徐梦琦, 廖廷琼, 钟林强, 单文娟. 艾比湖湿地国家级自然保护区马鹿遗传多样性及遗传结构[J]. 生物多样性, 2025, 33(12): 25233-.
[11]	寇毅秀, 翁朝红, 吉芬芬, 谢仰杰, 王家樵, 潘杭钊, 赵云廷, 叶坤. 环境DNA技术在濒危水生动物监测中的应用[J]. 生物多样性, 2025, 33(11): 24574-.
[12]	贺加贝, 柯可, 孙海明, 胡丽萍, 赵晓伟, 王文豪, 赵强. 基于DNA宏条形码技术分析香螺食性[J]. 生物多样性, 2025, 33(1): 24403-.
[13]	姜熠辉, 刘岳, 曾旭, 林喆滢, 王楠, 彭吉豪, 曹玲, 曾聪. 东海六个国家级海洋保护区鱼类多样性和连通性[J]. 生物多样性, 2024, 32(6): 24128-.
[14]	罗小燕, 李强, 黄晓磊. 戴云山国家级自然保护区访花昆虫DNA条形码数据集[J]. 生物多样性, 2023, 31(8): 23236-.
[15]	董志远, 陈琳琳, 张乃鹏, 陈莉, 孙德斌, 倪艳梅, 李宝泉. 基于环境DNA宏条形码技术研究黄河三角洲典型潮沟系统鱼类多样性及其对水文连通性的响应[J]. 生物多样性, 2023, 31(7): 23073-.

批量下载GenBank基因序列数据的新工具——NCBIminer

Using NCBIminer to search and download nucleotide sequences from GenBank

RichHTML

PDF (PC)

补充材料

可视化

被引次数

摘要/Abstract

引用本文

使用本文

图/表 2

参考文献 18

相关文章 15

编辑推荐

Metrics

本文评价