当前位置: 首页 > 期刊 > 《医学信息》 > 2015年第53期
编号:12800732
美国国立医学图书馆生物技术信息中心可编程开发工具简介
http://www.100md.com 2015年1月7日 医学信息 2015年第53期
     摘要:美国国立图书馆下属的生物技术信息中心,为生物医学研究者提供了庞大的信息资源和强大可靠的检索工具。可编程开发工具就是NCBI所开发的功能强大的检索编程工具接口,通过它可以自动化的大批量的从Entrez数据库检索数据,从而为科研人员了解本专业动态提供材料,并为未来研究提供方向指导。

    关键词:E-utilities;Entrez数据库;生物技术信息中心;数据管道

    自2003年,美国国立医学图书馆下属的生物技术信息中心发布第一版NLM归档和交换标记套件以来[1],基于NCBI可编程开发工开发的数据挖掘的产品便大量问世。如由陈朝美开发的可视化文献引文分析工具CiteSpace[2],也有多个针对某一特定领域的数据挖掘工具[3]。

    1 应用程序编程接口

    API是提供应用程序与开发人员基于某软件或硬件得以访问的能力,而又无需访问源码,或理解内部工作机制的细节。一些桌面操作系统如Windows、Linux,移动端操作系统Android、IOS等都提供有相应的API于开发人员,以便开发人员开发用户需要的软件。E-utilities便是NCBI提供给开发人员使用的结构化接口--API接口。

    2 E-utilities组成

    E-utilities是一组9个服务器端程序组成的,包括:①EInfo:提供在给定数据库的每个字段索引记录的数量;数据库的最后更新日期;从数据库中可用的链接到其他Entrez数据库;②ESearch:在给定的数据库中查询匹配的唯一标识符列表的文本查询的响应;查询的术语翻译;③EPost:从指定数据库中接受UIDs列表,在历史服务器上存储该套内容;响应查询和网络环境,上传数据集;④ESummary:给定的数据库通过UIDs列表,相应的文档摘要反馈;⑤EFetch:给定的数据库通过UIDs列表,相应数据记录的以指定的格式反馈;⑥ELink:给定的数据库响应UIDs列表,既有相同数据库相关的UIDs列表,又有其他Entrez数据库中的UIDs列表;从一个或者多个UIDs中检查指定链接的存在;通过原LinkOut提供的一个创建特殊UID和数据库或者LinkOut URLs和多个UIDs属性创建超链接;⑦EGQuery:在每个Entrez数据库中,反馈一个应用大量数据匹配的文本查询;⑧Espell:给定的数据库查询用的一个文本拼写的建议;⑨EcitMatch:检索PMID相关的一组输入引用字符串。

    3 Entrez数据库

    Entrez是NCBI开发的跨数据库检索系统,通过一个统一的检索界面和检索词,可以检索NCBI开发的所有数据库,包括PubMed在内的40个数据库。

    任何计算机语言均可通过E-utilities访问Entrez数据库。通过计算机语言将输入到软件的参数翻译为可用于检索和检索请求的统一资源定位器语法。结合E-utilities组件,在应用中形成定制数据管道。每个Entrez数据库中的数据记录都带有UID,一个不可重复的ID。例如,有的UID为核酸和蛋白的GI数字,PubMed的PMIDs,又或者是分子模型数据ID。通过E-utilities访问Entrez数据库的过程见图1。

    图1 Entrez数据库访问的过程

    4 Entrez的历史服务器

    Entrez系统的一个强大功能是在服务器上可以储存一组检索UID,以便他们能够随后组合或者提供其他E-utility输入响应。Entrez历史服务器提供这一服务,并且可在Entrez检索页面使用Preview/Index或History键在Web上访问。每一个E-utilities组件都能访问历史服务器,&query_key标签分配UID和&WebEnv编码cookie字符串。EPost允许任何一组UID上传到历史服务器中,并返回查询键和网络环境。在&usehistory被设置为y时,ESearch同样能够将输出一组UID到历史服务器;在&cmd被设置成neighbor_history时ELink也可以输出到历史服务器。EPost或ESearch的结果查询和网络环境都能被用于替代ESummary、EFetch和ELink。

    在历史服务器上的每个网络环境都能接受任意数量的查询关键词。通过采用布尔逻辑操作符组合的不同的数据集或者进行其他Entrez查询。必须在同一个网络环境下两个数据集的组合。默认情况下,连续的E-utility请求产生查询键,如果不是在相同的网络环境下,为了克服这一点,每个E-utility请求都在最初请求之后在已有的网络环境下设置&WebEnv参数值。

    5 利用E-utility请求创建Entrez应用

    可以使用单个的URL通过E-utilities访问Entrez;当连续的E-utility URL结合,则需要创建一个数据管道,便可发挥其最大作用。使用这样的管道时,Entrez历史服务器会通过允许在连续E-utility响应进行简单数据传输而简化复杂的检索任务。E-utilities组合见表1,箭头代表的是从一个E-utility到另一个的db,WebEnv和query_key值。

    6 E-utility DTDs

    除了EFetch,每一个E-utilities组件均能输出单个的符合NLM文档类型定义标准的可扩展标记语言输出格式。E-utility返回的XML标题中,提供了这些NLM DTDs的链接。ESummary可以为每个Entrez数据库生成唯一的XML DocSums。正因为如此,每个Entrez数据库对于DocSums来说,有一个唯一的NLM DTD。Efetch可以生成并输出各种格式,也可以是XML。这些个XML格式大部分都符合NLM DTDs,或者与Entrez有关的特定模式。

    7 结语

    随着生物医学文献数量的不断增加,如何从海量信息中高效率挖掘出所需文献,是所有医学研究者所需要掌握的技能。

    参考文献:

    [1]邹强,袁庆,康林,等.Pubmed Central 的数字化出版简介[J].中国科技期刊研究,2014,25(2):240-242.

    [2]陈悦,侯剑华,梁永霞.CiteSpace Ⅱ:科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009,28(6):401-421.

    [3]Torii M,Li G,Li Z,et al.RLIMS-P:an online text-mining tool for literature-based extraction of protein phosphorylation information[J].Database(Oxford),2014:13.编辑/成森, 百拇医药(宋忆非 邹强)