当前位置: 首页 > 药学版 > 生命科学 > 专家综述
编号:10795012
生命科学文献信息挖掘
http://www.100md.com 2005年11月5日 生物技术世界
生命科学文献信息挖掘

     设想一下,你已找到了一剂治愈牛皮癣的良方。但你首先需要去国家图书馆查阅医学数据库中收录的大约1,200万篇在期刊上发表的医药论文摘要。然而医学数据库正以4,600种期刊每月4万篇索引的速度在膨胀。

    你是否遗漏了最近出版的《皮肤病学研究》?也许已发表的医学文章的标题关键词对你有所帮助。但19,000个基本的医学术语竟有30万个同义词,会令你万分失望。当你输入一个关键术语"皮肤癣" 到医学主题标题中来查寻牛皮癣时,对于所需的信息最终你也许会一无所获。

    是否有软件可以使你免受挖掘之苦?研究人员与销售商认为,生命科学里文献挖掘将实现梦寐以求的变革,一位普通的科学家就能轻松从浩如烟海的文献中找到所需的医学资料,而不需要图书馆学博士的帮助,也不需要花数年查看从已发表的医学文章中找到所有18,000篇牛皮癣文献。

    一些人称这一新兴领域为"参考文献学"。在这一领域,先进前沿的文章检索系统其关键设计在于建立良好的计算机算法和检索策略,例如信息提取、文章分类及自然语言处理。依照科学的方法,这个领域包括从选择基因名字的语义关系到所有生物学系统。
, http://www.100md.com
    随着自动检索软件的使用,业界的客户正在为所解决的问题付费。ClearForest公司的CEO Barak Pridor说:"我们从事的事业是缩短信息与行动的距离"。2002年,这个公司与Celera Genomics公司合伙,在美国计算机协会SIGKD举办的知识发明与数据开发国际会议上荣获KDD(国际电报电话公司)奖杯。在那场比赛中,要求参赛者建立一套系统,现场对科学论文进行自动索引分析。

    Pridor相信,不同行业的用户都面临着"如何找到自已所需信息"的难题。"没有谁愿意阅读所有文献,分析所有文献,并描绘不同文献之间所有可能的联系,"他说,"人们真正想要的是综合信息。"

    很多公司都面对堆积如山的文本,Pridor也认识到生命科学方面的信息是其中的关键。经验表明,在大多数公司中只有仅20%的数据被以结构化的格式录入到数据库。其余80%的数据基本上淹没于数以千计的终端和服务器中的文件之中。
, 百拇医药
    Pridor说:"仅仅挖掘出'金子'是不够的,你还需要把'金子'转化成为终端用户服务的资源。"

    他的公司获得文本并用"智能化的、混合的标识"将文档文件转化成XML格式。一台获得进行上述转化授权的服务器,能从事10万到20万美元的业务。Pridor讲,对于生命科学中倍增的文档管理问题的解决只是冰山之一角。从文档库的信息中提炼出有价值的资料,可以说是药物学领域的另一个重要问题。Pridor还说:"客户们运用这一稳定的文档管理系统去获取众多信息,要知道,目的不只是把它们置于保险柜中,对它排排版,并随时看看它,而是要发掘这些信息所隐藏的战略价值。"

    在更深层次上,不只是因为计算机和实验室制造了太多的难以有效利用的信息,而是由于科学家们还没有充分认识到计算机具有相当于数据挖掘专家或医学专业人士的能力。

    自动连接
, http://www.100md.com
    比方说,Christian Blaschke 与Alfonso Valencia想知道,一种名为Suiseki的计算机软件,能否自动检索有关蛋白质间相互作用方面所有公开发表论文的摘要。他们在马里兰州的Universidad Autonoma蛋白质研究小组开发的程序已分析了44,000篇公开发表的医学文章摘要。计算机检索到的大多数蛋白质间相互作用的文章他们已经知晓,但有一些是崭新的。

    在挪威的另一个小组开发的一个程序称为PubGene。Evind Hovig与他的同事们在挪威科技大学,致力于从已发表的1,000万万份医学报告中,开发一个对13,712种基因的、计算机自动生成的、基因对基因的检索网络。这项研究成果发表在2001年5月份的《自然遗传学》杂志上。Hovig是一名分子遗传学家,他用了上述软件之后,再也不需做那种花三周时间,从6,000篇医学摘要中检索"metast(乳腺癌)"一词的苦差事。

    为了测试软件性能的有效性,挪威人把研发的程序用于一套标准的淋巴细胞基因表述数据研究。与淋巴细胞关系最密切的50种基因中,他们的程序在网络中发现了21种。程序的发明人写道:"当前使用的公布基因检索可用于识别基因网络而不是识别聚类的基因,并能根据生物学过程对基因分类。"
, 百拇医药
    当今,PubGene软件在全世界的Unix、Linux、Mac和Windows的计算机操作平台上为商家使用。Pfizer公司、deCODE Genetics公司、Millennium Pharmaceuticals公司 和Peoples Genetics等公司已获得专利许可。通过最新版本2.1版,发现了600万种关于基因、蛋白质、功能、GenBank新增基因编号与其它成对概念间的关系。

    Hovig说,看来用户们希望尽可能降低遗漏文献中基因之间关系的可能性。他说:"在超过1万种基因中,就可能存在的相互关系的范围内,尽可能多地界定基因间的相关关系是最重要的。"他又补充道,他的软件可依照程序用于其它基因汇总的统计技术,例如分等级聚类和自组织映射图。

    在斯坦福大学,遗传学家与医学信息学家在R.阿特曼的领导下,成功研制了一套名为Neighbor的软件。它可用于科学摘要的文本之中,以确定哪些基因拥有共同的生物功能。斯坦福大学的专家们通过对19组已知的基因混同于1,900组假基因中进行搜索,来测试软件的性能。结果有15组(79%)真实基因被找到。虽然这个软件不是完美的,但仍表明计算机能和训练有素的研究者一样浏览摘要。
, http://www.100md.com
    加速

    还有一些早期的例子,表明一种综合搜索文本信息以证实假定的趋势。"我们已经放弃那种模式,即生物学家头脑中有清晰的轮廓,然后通过实验证实或证伪他们的看法,"

    Daniel R. Masys是加里福尼亚大学的物理学家,他在圣匮歉缢担?quot;应该有一个十分开放的模型。我们不知道什么是优先的,事情真正会怎么发展。肯定有办法可以发现研究者在实验时没有想到的东西。"

    Masys是国家生物技术信息中心前主任,是一位自学成才的编程大师,他亲自编制设计的一项应用软件,颇受市场欢迎。在2001年4月的《生物信息学》上发表的一篇文章中,Masys 使用他的名为HAPI的软件,分析了Broad 研究所的Todd Golub在急性成淋巴细胞性白血病(ALL)和急性骨髓性白血病(AML)中所鉴定的基因。HAPI软件自动生成一个论文名表,这些论文都是关于基因及其相对应的索引的。HAPI软件发现淋巴细胞性白血病ALL候选的基因同时与多发性硬化症和遗传的免疫缺陷有关。
, 百拇医药
    "这些事情发生在大量分析实验中," Masys 说,"它使你的生物敏感性加速运转,以发现整个不同疾病,而不是你在实验中关注的那一种。计算机能够对未知路径进行推理,并连接新的路径。存在关系是如此之多,全部发现它们,并予以证实是不可能的。你需要一台电脑!"

    Claude Vogel是Convera公司的CTO,是Semio的创立者,同时也是信息分类软件的开发者,他相信科学家不得不攀登数据之山-- 一套应用软件无力改变那些根深蒂固的搜索方式。Amgen公司、Johnson & Johnson公司、Novartis公司和Wyeth公司都是他们的客户。

    Vogel说,科学家想建立一个理想的巨大的多维格子:一个观念中的矩阵。这个矩阵中,一维包含着一系列疾病;另一维是特别的蛋白质;三维是一个巨大而复杂的图书馆,它可能与蛋白质维相交。而当一种疗法与一种蛋白质、一种已知的疾病都相交时,仅仅对数据进行索引就不够了。
, http://www.100md.com
    他的软件可以搜索到这些矩阵中的最有希望的关连点。当致力于药物研发的科学家们凝视着这些格子时,往往倾向于询问可预测的问题。Vogel说,他的软件工作如此之快,以至于你可以边玩边从数据中挖掘有用信息。你可拥有对你所从事工作的一个全球的、整体的视角。

    生命科学机构中最艰难的一个问题是,独立的商业单位既需要本地特征(以反映一种疾病深奥的领域知识),同时也需要全球的一致性(以实现与世界其他同行的合作)。"大公司必须对小团队保持关注,"

    Vogel说,"他们同样需要保持全球一致性。这有点像做恶梦,但这是个主要问题。"

    不管是在原文一般意义上的信息挖掘,还是生命科学领域的信息检索,解决办法仍不明显。因为这个领域太年轻。关键问题是一种特别的疾病存在论的角色和突出性,不仅有字典上的哲学意义,而且意味着"控制的、构造的词汇"。

    最广为人知的是完全开放基因分类法,或简称GO,它已与多种免费软件包合为一体,这些软件包有incorporate、Genes2Diseases等等。仅次于它的流行方法就是科学分类法,它为一名医学化学家与一名物理化学家所共同倡导,虽然屈居第二,但它并非微不足道。事实证明构造一个综合两个分类法的理论是非常困难的。
, http://www.100md.com
    具有一定独创性

    虽然如此,Ingenuity Systems软件系统仍致力于改善生命科学的数据管理。这个公司放言,它的市场是巨大的--比任何一个其他同类公司的产品市场大30倍。公司主管营销的副总裁弗兰克·玛拉说,公司的客户认识到,为同一基因采用同一名称是最基本的工作要求,因为在这方面非常容易引起混淆。

    没有历史的积累,也没有新的行政压力,Millennium公司能够进入下一代文本信息发掘市场,并领先于其它对手。现在,Ingenuity公司正采取一些措施与Millennium公司共同发展,并为他们提供独立或现成网络包。"现在是文献信息挖掘的年代,"

    玛拉说,"人们正试图理解它是多么难以置信的重要--正如理解它是多么的困难。"

    最好不要指责Ingenuity公司变成了加大马力的普通搜索引擎版本。"如果你只对基因感兴趣,你可以进入Medline,并键入基因名字,"他说,"你真正想要做的是能迅速出现在生物学系统软件的平台上。"另一方法,即一个更好的目标是理解和观察是什么控制了一系列你感兴趣的基因---然后点击那一列基因,并阅读文献讲述的关于基因和蛋白质的内容,即使它以前并不在你检索屏幕上。
, 百拇医药
    "我们并不是把12个数菘獾氖萏峁└悖缓蠊┠闼阉鳎?quot; 玛拉解释说。"它能构造所有信息,因此你所搜索到的内容的相互关系变得饶有兴趣。你所得到的不仅是基因X与基因Y,更重要的是基因X对基因Y如何作用。"

    如果科学资料未经过初步处理,纵然运用最好的软件来挖掘数据资源,也无法获得上述信息。玛拉说:"想要使程序对所有内容有效运行,构造数据、数据建模和保持其一致性是绝对关键的。"

    玛拉熟知分类法中的基因分类法(GO),但问题是它的结构在医药领域行业信息挖掘是否足够深入、丰富。"基因分类法(GO),或者更准确地说,任何控制性词汇,可能从一种"品牌"的角度最为人们所知晓,尽管从文本信息挖掘的努力中开发一个解决生物学信息搜索的软件是不充分的,"他说。GO"在概念数字与结构方面都不够丰富。"玛拉将Ingenuity的路径知识库软件称赞为,客户调整自然语言处理引擎时,能使其软件顺利运行的理想选择。
, http://www.100md.com
    为了建立公司的知识库,Ingenuity公司既聘用了手工建立科学索引的专家,也派上了传统的程序员。公司已经建立了一套可快速搜索数十万篇文章的软件,称之Mount Everest,可描述蛋白质、基因、组织、药物及疾病之间数百万种特别模拟的关系。

    "我们也可以只从事文献信息挖掘,这取决于我们的客户,"玛拉说,"他们出钱让我们改变方向,从事关于癌症领域的特殊刊物或文章,或关键词,或特定范围的研究。"

    Ingenuity公司有足够的实力去说服Affymetrix公司投资500万美元,与Ingenuity共同合作,提高从资料中获取有效信息的能力。玛拉承认,对一些受传统束缚的公司来说,开发生物学系统软件冒的风险太大。他说:"那是生物学系统软件,可能会吓着人们。"

    强劲有力

    Recommind公司与Ingenuity公司一样具有实力,但他们所采用的方法却有细微差别。不管有多少文档,Recommind公司的软件都可迅速对其分类。饱受挖掘之苦的客户立刻纷至沓来。首席技术官Jan Puzicha说:"没有手工索引,勿需手工参与,已经完全自动化。我们的软件系统可自动从文本中找到所需的概念。它是通过对大量文档的分析实现自动检索的。"

    基于文献的发现

    作者:北京大学信息管理系 荣毅虹

    来源:《情报学报》2002年第4期

    摘要:本文介绍以揭示蕴含于公开发表文献中的知识片段间联系、发现尚未被人们发觉的公开知识为目的的“基于文献的发现”研究的哲学基础和研究现状,论述了该研究对情报研究和情报学自身发展的重要价值。, 百拇医药(Mark D. Uehling 译/ 刘明彦)