利用网络痕迹信息即时预测儿童腹泻流行趋势

利用网络痕迹信息即时预测儿童腹泻流行趋势(1)

http://www.100md.com 2016年7月23日《医学信息》 2016年第29期

     摘要：为疾病突然爆发时医疗机构能够及时采取应对措施合理配置医疗资源，本文以儿童腹泻为例，利用网络痕迹数据，提供一种建模思路和方法，对儿童腹泻的发生进行即时预测。结果显示，儿童腹泻的发病具有明显的周期性特征，同时大众的网络搜索行为与相关就诊量具有明显的相关性，人们可以利用网络痕迹数据即时预测儿童疾病的未来就诊量。

    关键词：公共网络；痕迹数据；儿童腹泻；数据挖掘；趋势预测

    在环境恶化等因素的影响下，近些年突然爆发某种疾病的现象时有发生，对医院的应急管理系统提出挑战。例如，目前多数医院是依靠经验给医生排班。比如首都医科大学附属北京儿童医院会提前3个月就排好班次，如没有特殊情况一般很少变动。这种模式具备一定的优势：患者可以提前预约挂号以减少排队或等待时间，医生则可以分散患者进行诊治以提高效率。但是当某种疾病爆发时，医院只能根据即时的就医情况，临时启动应急预案，解决突如其来的大批量患者就医问题。由于时间短，任务重，应急预案的执行具有极大的不确定性，加上就医患者的情绪波动等因素，就医场所混乱的场景时有发生。再者，对于药品的采购，医院通常是根据历史经验建立药品基数，继而每天根据缺药情况产生采购订单，进行补药，正常情况下是可以满足临床需求。但是当某种疾病突然爆发时，就有可能出现特定药品缺货的现象。此时，如果在疾病的爆发初期就能预测未来几天的就医状况，医院就可以有较充分的时间来提前安排相关专业的医生以及现场疏导人员，也能随时对特定药品等医疗资源进行预见性地调配，以应对临床可能出现的紧急情况，从而井然有序的定向迎接"突然"增多的就医患者，大大提高医疗应急管理效率。也就是说，在疾病大规模爆发的前期对其进行精确的"即时预测"具有重要的意义。
, 百拇医药
    即时预测("nowcasting")与一般意义的预测不同，其目的并不是为了预测未来(长期)的状况，而是为了清楚地把握当前的信息状况[1]。要把握即时信息或实时信息，就必须利用发布即时信息的平台，而社交媒体(包括搜索引擎)的出现和发展，为这一技术提供了关键性的支持。社交媒体中大量持续出现的即时信息为即时预测提供了可能，充分利用社交媒体中有效的即时信息，就有希望改善此类医疗应急管理的现状。对大众网络行为信息(网络痕迹数据)进行分析成为大数据分析的重要内容，而将社交媒体大数据信息引入到疾病的预测和管理中，是本文的主要研究思路。本文利用百度搜索数据(百度指数)，对儿童腹泻这种多发疾病的即时预测进行了研究。

    1 即时预测的国内外研究现状

    在互联网中，人们不停地进行交流和搜索，产生了源源不断的网络痕迹数据[2-3]。相关研究发现，信息的发生虽然是不可提前预测的，但是早期的一些迹象及信息可以从社交媒体网络中即时获取，比如博客、微博、论坛以及搜索引擎等[2]。于是随着数据挖掘技术的发展，人们开始研究社交媒体潜在信息与经济、社会指标之间的关系[4-5]。已经有研究表明，社交媒体的潜在信息具有预测价值，如可以预测书籍的销售结果[6]、票房的收入[7]甚至股市道琼斯指数的波动[8-9]等。搜索引擎数据作为一种相对比较容易获得的社交媒体数据，也被广泛的应用于该类研究中。比如谷歌趋势的数据可以被用来即时预测不同地区流感的流行状况[10]以及各种经济指标数值，也有相关学者提出一系列建模方法研究消费者信心指数[11-13]或揭示著作的发表规律和趋势等[14]。人们还基于话题搜索工具构建量化模型，研究消费者行为[15]以及疾病的流行和发生趋势[16]等。然而目前国内还没有利用网络数据来对疾病进行即时预测的研究，并且对网络痕迹数据的量化分析与应用研究，多数还是以传统的统计分析、回归分析为主，通过描述数据的统计特征或者通过一般的函数拟合与估计(如通过变量合并来降维[17-18])来描述或预测网络痕迹数据与特定社会、经济指标之间的关联[19-22]。本文将在前人研究的基础上，提出一种分析网络数据和医疗指标相关关系的即时预测模型，以儿童腹泻为例，展示其在疾病即时预测方面的功用。
, http://www.100md.com
    2 数据获取与建模

    2.1数据准备本文所使用的数据主要有两部分，时间跨度均从2011年1月～2015年10月。

    2.1.1首都医科大学附属北京儿童医院历史就诊数据，近几年医疗信息化发展迅速，首都医科大学附属北京儿童医院2006年住院全面实现电子化，2009年门诊全面实现电子化，临床医疗数据以相对标准化的形式储存在数据库中，大大方便了对数据的统计分析。图中以腹泻和上呼吸道感染为例，展示了近几年就诊量变化趋势，见图1。本文的建模分析则主要以首都医科大学附属北京儿童医院儿童腹泻的就诊数据为例。

    3.1.2大众对疾病相关关键词的网络搜索数据，来自于百度指数。百度指数是由百度公司提供的以百度海量网民行为数据为基础的数据分享平台。百度指数由百度搜索引擎提供，其可以提供用户查询某问题被搜索的频率随时间变化的趋势数据，如搜索规模、涨跌态势、人群分布等等。将搜索的地点锁定为北京市，就可以得到北京市市民对于特定话题(关键词)的搜索趋势数据。
, http://www.100md.com
    由于百度指数不提供数据下载支持(只有图像趋势、无公开的API并且加密)，本文利用易佰百度指数批量查询工具对数据进行抓取，可以获得每个关键词每天的搜索量，对其进行统计处理就可以获得特定关键词的月度搜索趋势数据(可分为总体趋势，PC端趋势和移动端趋势)，见图2。

    2.2模型的构建

    2.2.1变量处理与选取百度指数的总体趋势是PC端趋势和移动端趋势的和，为了防止变量间的完全共线性，本文只选择PC端趋势和移动端趋势的数据进行建模拟合。接下来，首先考查所选择自变量(百度指数数据)的相关性，相关系数如表1所示。

    从表 1可以看出，来自百度指数的数据有较高的相关性，部分变量间的相关系数高达0.998以上，为了避免方程的多重共线性，考虑将以上变量进行主成分分析，结果见表2及图3。, http://www.100md.com(谢月锋董现垒陈卉王燕刘志成)

第 1 2 3 页下一页

百拇医药网 http://www.100md.com/html/paper/1006-1959B/2016/29/131.htm