ARIMA馍型在流行性腮腺炎疫情预测中的应用
[摘要]目的建立乘积季节自回归移动平均(ARIMA)模型,观察其对河南省流行性腮腺炎疫情预测的可行性。方法利用河南省2004~2013年分月的流行性腮腺炎疫情监测资料建立乘积季节ARIMA模型,利用2014年1~12月的流行性腮腺炎疫情资料评价该模型的预测效能。结果河南省2004~2013年流行性腮腺炎发病呈现明显的季节效应,且发病数在2006年后呈现逐年增多的趋势;模型ARIM(1,0,2)(0,1,1)12能较好地拟合既往的流行性腮腺炎报告病例数,且对2014年1~12月按月报告的流行性腮腺炎病例数的预测值与实际值基本吻合。结论ARIMA模型能较好地模拟、预测河南省流行性腮腺炎的发病情况。
[关键词]乘积季节自回归移动平均模型;流行性腮腺炎;疾病预测
[中图分类号]R512.1 [文献标识码]A [文章编号]2095-0616(2016)02-07-04
流行性腮腺炎是一种由腮腺炎病毒引起的急性呼吸道传染病,其传染性仅次于麻疹和水痘,严重影响了青少年儿童的身体健康。近年来,河南省流行性腮腺炎发病呈现上升趋势,其防控形势不容乐观,因此,为科学有效地应对流行性腮腺炎防控,有必要对流行性腮腺炎发病水平进行短期预测,国内外有研究者利用疫情监测数据构建自回归移动平均(ARIMA)模型,根据近几年某传染病的流行特点,来进一步预测该传染病的发病情况和发展趋势,取得了较好的预测效果。本研究利用河南省2004~2013年分月流行性腮腺炎疫情监测数据建立ARIMA模型,并利用2014年的监测数据评价ARIMA模型的预测效果,进而探讨河南省流行性腮腺炎发病趋势预测预警的方法。
, 百拇医药
1.资料与方法
1.1一般资料
资料来源于《中国疾病监测信息报告系统》中河南省2004年1月-2014年12月流行性腮腺炎月发病病例数共169 537例。
1.2研究方法
基于2004年1月~2013年12月流行腮腺炎发病数资料建立乘积季节ARIMA模型,用2014年流行腮腺炎发病数资料来验证模型的预测效果。ARIMA模型包括:自回归模型(AR)、移动平均模型(MA)和ARIMA模型,一般包括4个步骤,分别为:序列平稳化、模型的识别、参数估计和模型诊断、预测应用,依据2004年1月~2013年12月流行腮腺炎发病数资料,通过这3个步骤反复建模,筛选出最优的预测模型。(1)模型识别:观察2004~2013年流行腮腺炎分月监测数据的时间序列的平稳性,如若是非平稳序列,要通过数据转化和一阶周期为12的季节性差分将序列平稳化。首先,根据平稳序列的ACF图和PACF图,来识别序列的季节性成分,然后,再根据残差序列的ACF图和PACF图,识别非季节性成分,最终识别模型。(2)参数估计:依据最大似然法或无约束最小二乘法原则,根据序列的自相关系数和偏相关系数,经过不同方法的参数选择、比较、筛选,估计出自回归移动平均过程的系数,并对各系数进行显著性假设检验。(3)模型检验:预测模型是否合适,取决于其残差序列是否为白噪音序列,合适的模型其残差呈白噪音,其ACF和PACF与零应无统计学差异,利用此标准对所建立的ARIMA模型是否合适作出诊断。若几个模型都能满足要求,选取AIC、BIC较小者及R2较大者,则模型效果较好。(4)模型预测:对序列进行平稳化后,选择最优的模型,对河南省2014年1~12月的按月报告的流行腮腺炎病例数的数据进行预测,观察其预测效果。
, 百拇医药
1.3统计学处理
采用Excel 2007建立河南省流行性腮腺炎月报告发病数数据库,运用PASW statistics19.0软件进行ARIMA模型构建及统计分析。
2.结果
2.1河南省2004~2013年流行性腮腺炎报告病例数的变化趋势
河南省2004~2013年流行性腮腺炎报告病例数呈现明显的季节性,每年的3~7月及11月~次年1月呈现发病高峰,自2006年起,呈现上升趋势,提示该时间序列为非平稳序列。河南省2004~2013年流行性腮腺炎月发病数时间序列图,见图1。
2.2模型识别结果
从原序列图可以看出,该序列方差不平稳,且有明显的季节规律,为消除原序列的不平稳趋势,首先对其进行对数转换和季节差分,经对数转换和1次季节差分后作ACF和PACF分析(图2)。根据图2可以看出,ACF图在时点1呈现一个高峰,而PACF图在季节性时点1、13、25处呈现指数衰减,由上述特点可初步选定季节模型是ARIMA(0,1,1)12。
, 百拇医药
同时图2中,ACF图在12点处还出现了一个单一的季节性低估。我们对ARIMA(0,1,1)12残差序列进行ACF和PACF分析(图3),与标准的ACF和PACF图比较,非季节模型可能是ARIMA(1,0,1)、ARIMA(1,0,0)或者ARIMA(1,0,2),因此,可拟合3个备选混合效应模型ARIMA(1,0,1)(0,1,1)12,ARIMA(1,0,0)(0,1,1)12和ARIMA(1,0,2)(0,1,1)12。
2.3参数估计及检验
3个备选模型的参数估计及检验结果见表1,经过参数比较和选择,根据BIC最小和R2最大的准则和模型简洁原则,初步判断为模型ARIMA(1,0,2)(0,1,1)12。
2.4模型诊断
在SPSS19.0中对模型ARIM(1,0,2)(0,1,1)12的残差进行Q检验,结果显示,Ljung-Box Q=19.765,P=0.138,差异无统计学意义,说明模型ARIMA(1,0,2)(0,1,1)12残差序列呈白噪声,提示所选模型恰当,适用于预测。
, 百拇医药
2.5模型拟合和预测
本研究用ARIMA(1,0,2)(0,1,1)12模型对原序列进行了拟合和预测,见图4,拟合值的动态趋势与实际值具有基本相似的升降规律,这说明拟合效果较好。
运用模型ARIMA(1,0,2)(0,1,1)12对河南省2014年1-12月流行性腮腺炎的报告病例数进行预测,结果见图5,预测值均在实际值的95%可信区间范围内,且预测值的动态趋势与实际值基本一致。
3.讨论
ARIMA模型是一种基于时间序列分析、预测和控制的方法,是一种精度较高的短期预测法,其基本思想是利用时间序列的观测值所具有的依存关系或相关特点,依据预测对象发展的延续性,预测对象发展的未来值或变化趋势,该模型能综合考虑季节、趋势和随机干扰等因素,所以,特别适用于时序规律不明显,或有明显季节性和周期性的情况。在国内相关研究中,ARIMA模型在流行性腮腺炎发病率预测方面,其可行性与准确性已得到充分地验证。
本研究利用河南省2004-2013年流行性腮腺炎的月发病数拟合了ARIMA(1,0,2)(0,1,1)12模型,并对2014年1~12月的发病情况进行了回代预测,其结果显示,模型拟合值与实际发病数基本一致,预测值均在实际值的95%可信区间范围内,预测精确度较高,这提示该模型有较好的预测效果,对河南省流行性腮腺炎发病趋势的预测具有可行性,在河南省流行性腮腺炎发病预测中具有推广应用的实际价值,但是该模型也有不足之处:(1)建立此预测模型需要很大数量的历史数据,且数据越多,预测效果越好;(2)该预测模型只能用于短期预测,在实际工作中,应注意数据的及时性,动态掌握流行性腮腺炎的发病变化趋势,以新数据来重新拟合预测模型,同时,建立动态分析评价该序列的策略,从而采取具有针对性、预见性和主动性的防控措施。, 百拇医药(肖占沛 王燕 张肖肖 路明霞 马雅婷 张延炀)
[关键词]乘积季节自回归移动平均模型;流行性腮腺炎;疾病预测
[中图分类号]R512.1 [文献标识码]A [文章编号]2095-0616(2016)02-07-04
流行性腮腺炎是一种由腮腺炎病毒引起的急性呼吸道传染病,其传染性仅次于麻疹和水痘,严重影响了青少年儿童的身体健康。近年来,河南省流行性腮腺炎发病呈现上升趋势,其防控形势不容乐观,因此,为科学有效地应对流行性腮腺炎防控,有必要对流行性腮腺炎发病水平进行短期预测,国内外有研究者利用疫情监测数据构建自回归移动平均(ARIMA)模型,根据近几年某传染病的流行特点,来进一步预测该传染病的发病情况和发展趋势,取得了较好的预测效果。本研究利用河南省2004~2013年分月流行性腮腺炎疫情监测数据建立ARIMA模型,并利用2014年的监测数据评价ARIMA模型的预测效果,进而探讨河南省流行性腮腺炎发病趋势预测预警的方法。
, 百拇医药
1.资料与方法
1.1一般资料
资料来源于《中国疾病监测信息报告系统》中河南省2004年1月-2014年12月流行性腮腺炎月发病病例数共169 537例。
1.2研究方法
基于2004年1月~2013年12月流行腮腺炎发病数资料建立乘积季节ARIMA模型,用2014年流行腮腺炎发病数资料来验证模型的预测效果。ARIMA模型包括:自回归模型(AR)、移动平均模型(MA)和ARIMA模型,一般包括4个步骤,分别为:序列平稳化、模型的识别、参数估计和模型诊断、预测应用,依据2004年1月~2013年12月流行腮腺炎发病数资料,通过这3个步骤反复建模,筛选出最优的预测模型。(1)模型识别:观察2004~2013年流行腮腺炎分月监测数据的时间序列的平稳性,如若是非平稳序列,要通过数据转化和一阶周期为12的季节性差分将序列平稳化。首先,根据平稳序列的ACF图和PACF图,来识别序列的季节性成分,然后,再根据残差序列的ACF图和PACF图,识别非季节性成分,最终识别模型。(2)参数估计:依据最大似然法或无约束最小二乘法原则,根据序列的自相关系数和偏相关系数,经过不同方法的参数选择、比较、筛选,估计出自回归移动平均过程的系数,并对各系数进行显著性假设检验。(3)模型检验:预测模型是否合适,取决于其残差序列是否为白噪音序列,合适的模型其残差呈白噪音,其ACF和PACF与零应无统计学差异,利用此标准对所建立的ARIMA模型是否合适作出诊断。若几个模型都能满足要求,选取AIC、BIC较小者及R2较大者,则模型效果较好。(4)模型预测:对序列进行平稳化后,选择最优的模型,对河南省2014年1~12月的按月报告的流行腮腺炎病例数的数据进行预测,观察其预测效果。
, 百拇医药
1.3统计学处理
采用Excel 2007建立河南省流行性腮腺炎月报告发病数数据库,运用PASW statistics19.0软件进行ARIMA模型构建及统计分析。
2.结果
2.1河南省2004~2013年流行性腮腺炎报告病例数的变化趋势
河南省2004~2013年流行性腮腺炎报告病例数呈现明显的季节性,每年的3~7月及11月~次年1月呈现发病高峰,自2006年起,呈现上升趋势,提示该时间序列为非平稳序列。河南省2004~2013年流行性腮腺炎月发病数时间序列图,见图1。
2.2模型识别结果
从原序列图可以看出,该序列方差不平稳,且有明显的季节规律,为消除原序列的不平稳趋势,首先对其进行对数转换和季节差分,经对数转换和1次季节差分后作ACF和PACF分析(图2)。根据图2可以看出,ACF图在时点1呈现一个高峰,而PACF图在季节性时点1、13、25处呈现指数衰减,由上述特点可初步选定季节模型是ARIMA(0,1,1)12。
, 百拇医药
同时图2中,ACF图在12点处还出现了一个单一的季节性低估。我们对ARIMA(0,1,1)12残差序列进行ACF和PACF分析(图3),与标准的ACF和PACF图比较,非季节模型可能是ARIMA(1,0,1)、ARIMA(1,0,0)或者ARIMA(1,0,2),因此,可拟合3个备选混合效应模型ARIMA(1,0,1)(0,1,1)12,ARIMA(1,0,0)(0,1,1)12和ARIMA(1,0,2)(0,1,1)12。
2.3参数估计及检验
3个备选模型的参数估计及检验结果见表1,经过参数比较和选择,根据BIC最小和R2最大的准则和模型简洁原则,初步判断为模型ARIMA(1,0,2)(0,1,1)12。
2.4模型诊断
在SPSS19.0中对模型ARIM(1,0,2)(0,1,1)12的残差进行Q检验,结果显示,Ljung-Box Q=19.765,P=0.138,差异无统计学意义,说明模型ARIMA(1,0,2)(0,1,1)12残差序列呈白噪声,提示所选模型恰当,适用于预测。
, 百拇医药
2.5模型拟合和预测
本研究用ARIMA(1,0,2)(0,1,1)12模型对原序列进行了拟合和预测,见图4,拟合值的动态趋势与实际值具有基本相似的升降规律,这说明拟合效果较好。
运用模型ARIMA(1,0,2)(0,1,1)12对河南省2014年1-12月流行性腮腺炎的报告病例数进行预测,结果见图5,预测值均在实际值的95%可信区间范围内,且预测值的动态趋势与实际值基本一致。
3.讨论
ARIMA模型是一种基于时间序列分析、预测和控制的方法,是一种精度较高的短期预测法,其基本思想是利用时间序列的观测值所具有的依存关系或相关特点,依据预测对象发展的延续性,预测对象发展的未来值或变化趋势,该模型能综合考虑季节、趋势和随机干扰等因素,所以,特别适用于时序规律不明显,或有明显季节性和周期性的情况。在国内相关研究中,ARIMA模型在流行性腮腺炎发病率预测方面,其可行性与准确性已得到充分地验证。
本研究利用河南省2004-2013年流行性腮腺炎的月发病数拟合了ARIMA(1,0,2)(0,1,1)12模型,并对2014年1~12月的发病情况进行了回代预测,其结果显示,模型拟合值与实际发病数基本一致,预测值均在实际值的95%可信区间范围内,预测精确度较高,这提示该模型有较好的预测效果,对河南省流行性腮腺炎发病趋势的预测具有可行性,在河南省流行性腮腺炎发病预测中具有推广应用的实际价值,但是该模型也有不足之处:(1)建立此预测模型需要很大数量的历史数据,且数据越多,预测效果越好;(2)该预测模型只能用于短期预测,在实际工作中,应注意数据的及时性,动态掌握流行性腮腺炎的发病变化趋势,以新数据来重新拟合预测模型,同时,建立动态分析评价该序列的策略,从而采取具有针对性、预见性和主动性的防控措施。, 百拇医药(肖占沛 王燕 张肖肖 路明霞 马雅婷 张延炀)