当前位置: 首页 > 新闻 > 信息荟萃
编号:10185169
曙光:863计划的一个成功案例
http://www.100md.com 2003年6月11日 科技日报
    

    5月24日,一套20个节点的曙光TC1700高性能机群服务器在北京市教委信息中心安装成功。当天北京市的“非典”局势仍然严峻。

    5月22日中午,曙光集团接到北京教委信息中心的紧急订单,订购20个节点的曙光TC1700高性能机群服务器,并要求在24日前安装到位。曙光集团上下一心,全力以赴,在客户指定的时间顺利完成了这一项看起来不可能完成的任务。至此,曙光TC1700高性能机群服务器在全国的教育、政府、税务、公安、石油、气象、环保、金融等各个领域的部署总量已经达到1001套。而这一机型从诞生以来不过一年多时间。

    简单与不简单

    这是一个简单的事实。看起来不起眼,一个买一个卖,没有曲折的情节,也没有耀眼的光环。不过,如果联系曙光的背景,联系我国国产高性能计算机发展的历史,联系我国高性能计算机市场的演化,这一事实又不那么简单。
, 百拇医药
    假设时光倒转8年。高性能计算意味着什么?对于行家,高性能计算是“巨大中小微”中的“巨大”;对于老百姓,高性能计算是放在计算机房里的那些日夜轰鸣、神秘莫测的大盒子。高性能计算背后的品牌是什么?是IBM,DEC,Unisys,Sun,Cray,清一色的美国公司。国内用户需要购买高性能计算机,在上级批准以后毫无例外需要购汇,与那些美国大公司挨家谈判,半年以后能装上就不错。苛刻的禁运限制是难以回避的,卖方的那些大盒子不仅价格邪高,而且附加条件苛刻。实在不行,买方不得不屈服于卖方的要求,在卖方的现场监督下运行那些大盒子,于是在中国的土地上,有了“中国人不得入内”的超级用户室。

    “顶天立地”的提出

    十年前,作为当年国家科委863计划在高性能计算领域的一个项目,曙光起步了。

    1995年,笔者曾经采访中国工程院院士汪成为。他指出,863计划在高性能计算领域的项目,必须“顶天立地”。“顶天”是指技术的先进性,必须与技术发展的趋势一致;“立地”是指有关项目必须实现产业化,创办高技术企业,产品要在市场上站得住,能够满足用户需求。
, 百拇医药
    然而,对于曙光,无论是“顶天”还是“立地”,在当时都举步维艰。

    “顶天”觅知音

    先说“顶天”。

    曙光要“顶天”,首先面临的问题是对高性能计算机体系结构发展趋势的理解。说到计算机体系结构,当时业内流行的说法是“巨大中小微”,五个字分别对应巨型机、大型机、中型机、小型机、微型机(即个人电脑);所谓高性能计算机当然是“巨大”即巨型机或大型机,这类机器都采用专有部件,价格高昂。据笔者所知,国务院所属某部门引进的高性能服务器,需要增加一块512兆的内存板,价格高达10万美元以上。因此,如何降低高性能计算机的成本,是全球计算机业面临的难题。

    另一方面,当时另一个趋势已经初露头角。随着个人电脑的迅速普及,因大规模工业化生产,如微处理器、板卡、存储器件等个人电脑主要部件的可用性、可靠性乃至性价比迅速提高。1994年,美国航空航天总署的戈达德(Goddard)太空飞行中心的科技人员建造了世界上第一组PC机群超级计算机,当时的目标只是达到1G(10亿)次浮点运算(GFLOPS),只是现在个人电脑的运算水平。可是当时达到这一水平的商用超级计算机价格是100万美元,研究人员用不起,只好自己动手攒,他们给自己攒的这台PC机群起了个名字:Beowulf,Beowulf是英国中世纪史诗中的一位英雄,这位英雄砍断怪兽Grendel的一肢,从而打败了这一巨兽。
, 百拇医药
    这也正是当年曙光开发曙光1000高性能计算机的思路:用工业化生产的微处理器组建机群高性能计算机。方案提出了,曙光人却发现知音难觅。业界不少专家拘泥于“巨大中小微”,不理解机群方案。

    好在曙光得到了当时国家科委有关领导的大力支持。1993年,曙光一号问世。当时的国家科委主任宋健同志视察开发曙光一号的国家智能计算中心,鼓励智能中心的研发人员要勇当敢死队,像解放战争中的刘邓大军那样杀出重围;原高技术司副司长冀复生同志更是大力支持曙光1000的机群方案,力排众议,拨出专款支持曙光1000的开发。在赴美工作前,冀复生同志在一份关于曙光机的调研报告中意味深长地写道:曙光公司犹如卢沟桥事变中的十九路军。一句话扼要说明了当时国内高性能计算机市场的状况。

    回顾这段历史,身为曙光集团董事长的中国工程院院士、中科院计算所所长李国杰认为,在做发展高技术产业的决策时,我们绝不能因为难而放弃努力。“世上无难事,只怕有心人”。对我国科技工作者的创新潜力一定要有充分的信任。
, 百拇医药
    在一次采访中,李国杰告诉笔者,在曙光1000开发最困难的时候,他到开发现场鼓励年轻的研发人员:“你们一定能行!”

    “大家的眼泪一下就掉下来了。”由此可见知音的可贵。

    “立地”寻用户

    再说“立地”。

    1995年,曙光1000问世。1996年,曙光1000A问世。然而曙光1000、1000A的初期销售都不是商业化的模式。为什么?

    因为用户不认。当时,只要一提高性能计算,就是前面提到的那些国外品牌。曙光是唯一进入高性能计算领域的国内厂商,虽然获得政府颁发的科技奖,用户却不了解这支“十九路军”的实力。从用户的角度看,高性能计算机都是用来运行关键任务的,用曙光机出了问题谁负责?
, http://www.100md.com
    当年曙光公司产品研发部门总经理、现任曙光公司总裁历军回忆当初:“当时真是难啊。我们为了参加一些大项目的投标,精心按照客户要求准备标书及有关资料,全套资料用卡车装,可是客户根本不看。”

    李国杰回顾:“那时候别说卖自己生产的高性能计算机,就是送给别人用也不一定接受。曙光机打入铁道部就是在偏远的三间房车站试用了快一年才获得入围竞标的资格。”

    怎么办?曙光的主力是从研究所出来的研究人员,开拓市场还需从头学起。

    现任中科院计算所副所长、当年曙光公司副总经理樊建平说:“我们当时在市场上率先提出SUMA,就是为用户着想。”SUMA是可扩展性、易用性、可管理性、可用性四个英文词的第一个字母。

    笔者曾多次与李国杰交流。李国杰常说的一句话就是“要让用户用好计算机”。因为,高性能计算机只有在应用的过程中才能产生效益,否则只是摆设。
, http://www.100md.com
    如何“让用户用好”?这里大有文章可做。

    整合计算细分应用

    曙光在成长。

    从高端看,继曙光1000、曙光1000A发布以后,1998年、1999年先后发布曙光2000及曙光2000Ⅱ,2001年推出曙光3000,今年又发布了曙光4000L(题图)。曙光4000L有644个节点,峰值速度达每秒3万亿次,百万亿字节存储,这是由曙光公司与国家智能计算机研究中心共同研发的。在机群高性能计算领域,曙光的“顶天”在继续。

    从应用层面看,曙光公司总裁历军根据大量用户反馈、市场调查,提出了“整合计算,细分应用”,并落实到公司的产品开发。

    整合计算是整合各种计算资源,逐步向整合计算的最高层次网格计算过渡;细分应用,最终目标就是让用户用好高性能计算机。值得强调的是细分应用,这是曙光“立地”之本。
, 百拇医药
    历军认为,用户应用困难是制约高性能计算机发展与普及的瓶颈所在;只有将高性能计算机普及到需要应用高性能计算机的各个领域的末梢,才能扩大市场需求,才能带动高性能计算机产业化的发展;通用高性能计算机系统并不总是能够贴切满足各种不同应用的不同资源的需求,并非性能价格比最优化,也并非最容易使用;针对不同领域应用需求进行细分并改进的专用高性能计算机系统(方案)是产业化的必经之路,立足之本。

    基于这一思想,曙光开发了基于曙光3000技术的曙光TC1700,并针对气象、政务、环保、石油等领域进行个性化、定制化开发,向不同领域用户提供符合SUMA标准的专用机,大大提高了机群高性能计算机的易用性及可靠性,同时大大拓宽了市场。

    曙光公司成立已经8年了。从确立机群高性能计算机的发展方向及“顶天立地”的发展战略,到提出面向用户的SUMA,再到“整合计算,细分应用”,曙光大致上了三个台阶。

    据CCID统计,2002年,曙光公司在国内高性能计算机市场排名第五,前四位是Sun、HP、IBM及SGI,曙光是入围的唯一一家国内厂商。不过高性能计算机的体系结构各种各样,如传统的大型机及多节点SMP(对称多处理器)高档服务器国内还不能生产。如果统计机群系统,曙光无疑将名列前茅。
, 百拇医药
    合与分

    曙光公司与中科院计算所、国家智能机中心的关系是人所共知的。国家智能机中心一度曾与曙光公司合并,成为曙光公司的研发部;2000年,智能机中心又与曙光分开,回到计算所。

    这段合而又分的历史,实际上也是计算所与曙光公司探索研发体制的历史。曙光作为立足高性能计算领域的企业,当然要有自己的研发体制,研发技术先进、适销对路的产品;另一方面,计算所必须从事战略性、前瞻性与基础性研究。这是两种类型的研发,虽有相通之处,却不能混为一谈。

    李国杰解释说:“2000年智能中心回到计算所以后,按科学院知识创新的要求,主要从事战略性、前瞻性与基础性研究。智能中心与计算所其它室一样以做国家战略科研的龙头、企业共性关键技术的源头为己任,更多的力量花在下一代高性能计算机的创新技术。智能中心作为高性能计算机领域的国家队应当处在技术与产业链的上游,不做企业可以做的事,不与企业竞争,而要为企业下一代甚至再下一代高性能计算机产品攻克核心与关键技术,提高我国整个计算机产业的国际竞争力。我们正在探索计算所与企业共建智能中心及国家高性能计算机工程中心的新体制,使智能中心不但长期得到国家支持,而且不断地得到曙光等企业支持,从企业的市场需求中获得驱动力,走上可持续发展的健康轨道。”
, http://www.100md.com
    历军从另一个角度分析:“研究所与企业是不同文化。科研人员更为适应研究所那种宽松自由的文化;企业的研发人员从事的研发项目有明确的利润目标。这两种不同文化决定了智能机中心与曙光还是保持一定距离为好。”

    面向未来

    曙光TC1700机群高性能服务器市场销售总量突破1000套,表明经过八年奋斗,国内机群高性能计算机市场已经进入成熟期。现在进入这一市场的国内厂商除曙光以外,还有联想、浪潮。

    李国杰说:“我们已经不再是孤军奋战。”而国外厂商则纷纷退出这一市场。因为从机群系统性价比以及服务质量来看,国外厂商已经不是曙光的对手。

    李国杰参观今年的汉诺威展览后评论:“我没有发现一台从装配工艺上比曙光机更产品化的机群系统。”

    从这一意义上说,曙光毫无疑问是国家863计划的一个成功案例。

    我问历军:“机群系统这块蛋糕曙光还能吃多久?”历军抬起头想了想:“还有两年吧。”

    接着一个问题:“两年以后是什么系统?”随着机群系统的节点数上升到数百个,其可靠性、可用性已经趋于极限。

    “应当是MCC(是大规模并行处理MPP与机群相结合的新型体系结构)。”

    我从这位年轻的总裁眼神里看到,曙光已经在筹划未来了。曙光的“顶天立地”,正向两个方向延伸。, http://www.100md.com(胡永生)