大数据时代渐行渐近(1)
近两年,大数据越来越多地在各个行业、各种场合被提及,渐有成为IT显学之势。Web2.0、物联网等新信息技术的应用,使数据量急剧增加。如何从海量的、异构的数据中创造价值,这是大数据要做的事情。Google成功预测流感发生
SARS爆发的几周前,Google公司的工程师们在《自然》杂志发表了一篇论文。论文称,Google能对冬季流感进行准确预测,不仅能预测流感在全美范围的传播,还能具体到特定的地区和州。
Google发现,通过人们在网上检索的词条能辨别出其是否感染了流感。为了测试这些检索词条,Google总共处理了4.5亿个不同的数学模型。Google保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条搜索指令,如此庞大的数据资源足以支撑和帮助它完成这项工作。在将得出的预测与2007年、2008年美国疾控中心记录的实际流感病例进行对比后发现,其中45条检索词条的组合一旦用于一个数学模型,他们的预测与官方数据的相关性可高达97%。
但是找出这些词条并不是重点,他们建立的系统并不依赖这样的语义理解,系统唯一关注的是特定检索词条的频繁使用与流感在时间和空间上的传播之间的联系。通过这个数学模型,Google公司和疾控中心一样也能判断出流感是从哪里传播出来的 ......
您现在查看是摘要页,全文长 4924 字符。