� 生 物 数 学 学 报 20一l , 26 (3) :563一568 J o u r n a l o fB io m a th e m a t ie s
A R IM A 模型在杭州市中小学生咳嗽症状监测中的应用
杨 娟 � 戚建江 � 沈 毅 ��
(1 浙江大学医学院公共卫生系 流行病与卫生统计教研室, 浙江 杭州 31 0058 ;
2 浙江省杭州市疾病预防控制中心, 浙江 杭州 310021)
摘 要: 目的: 探讨时间序列 A R IM A 模型在时间序列资料
中的应用, 建立咳嗽症状监
测数据的预浏模型. 方法: 采用条件最小二乘方法估计模型参数. 通过对数转换及差分方 法使原始
序列平稳 , 按照残差不相关原则 �简洁原则确定模型结构 , 依据 A IC 和 SB C 准则确定模型阶数 , 最
终建立起 A R IM A 预浏模型. 结果: A R IM A (1,1.1) 模型拟合效果较好 , 方差估计值为 0.7361 ,
A IC = 95.6092 , S B C 一98.83 10 , 对模型进行白噪声残差检验 , 提示残差为白噪声. 结论 : 症状监
浏这种具有时间序列特.点的资料可以用 A R IM A 模型来进行拟合估计. 本文中预测结果可信区间
比较宽, 可能是因为时间序列比较短, 还未能考虑到季节趋势. 另外, 所用监浏数据是在中小学生
在校发生症状的人数, 故在节假 日会 出现缺失值, 样本量和时间长度均有限, 可能影响模型估计的
准确性 , 本研究的结论还有待于将来资料积累后进行修正和深化.
关键词: A R IM A 模型; 时间序列; 症状监浏; 预测
中图分类号: R 195.1 M R 分类号: 37M IO ; 46N 3 0 文献标识码: A
文章编号: 100 1一9626(20 11)03一563一06
O 引 言
A R IM A (autoregressive integrated :noving av erage)是重要的时间序fIJ 分析预测模型 , 称为
自回归滑动平均混合模型 , 它是多个模型的混合. A RI M A 方法的基本思想是将预测对象随时
间推移而形成的数据序列视为一个随机序列 , 即除去个别的因偶然原因引起的观测值外 , 时间
序列就是对随机过程进行观测所取得的一组离散观测值 [�].这组随机变量所具有的依存关系或
自相关性表现了预测对象发展的延续性 , 而这种自相关性一旦被相应的数学模型描述出来 , 就
可以从时间序列的过去值及现在值预测未来值 12] .
症状监测 (或称 �症候群监测,,, syndrom ie surveil一a, �ee) , 是指系统 � 持续地收集 �分析临
床明确诊断前能够指示疾病暴发的相关资料并做出合理解释 , 以便据此开展公共卫生调查. 从
全国突发公共卫生事件的监测情况看 , 70 % 以上的突发公共卫生事件发生在学校 , 而通过症
状监测能及时发现疾病在时间和空间分布上的异常聚集 , 能对疾病暴发进行早期探查 �预警和
快速反应 , 及时有效地采取措施 , 预防和控制疾病在学校发生.
收稿日期 : 201 0一10一21
荃金项目:2( )0 9 年浙江省医药卫生科学研究基金计划 (A 类)(2009A 175)
作者简介: 杨娟 (1987一) , 女, 江苏扬中人, 硕士. E- m ail:yan幻uan433o@ 163 �com
生 物 数 学 学 报 第 26 卷
本研究旨在建立症状监测统计预测模型, 为预防和控制疾病在学校的发生提供科学依据.
1 资料与方法
L l 资料来源
本研究利用杭州市学生健康监测与预警管理信息系统每日采集 2009 年 8 月 31 日到 2010
年 6 月31 日杭州市 13 所中小学 (分层抽样选出)监测点的症状监测数据 , 包括因病缺勤 �发热
(全38 �) �腹泻 �呕吐 �咳嗽 �咽痛 �皮疹和红眼等 8 个指标. 本文仅以咳嗽为代表描述 A RI M A
模型在症状监测中的应用.
L Z 统计方法
(1) A RI M A 模型理论 A RI M A 是多个模型的混合 , 即自回归 A R , 求和 I和移动平均 M A ,
是指序列 z �的d 阶差分具有A RM A( p,q)模型, 记做ARI M A( p,d,u)[ 3].
A R (P) 模型的形式为它 p 个滞后值的有限加权和, 再加一个随机冲击 a, (称为白噪声过程) :
Z :二价12 ,一1 + 必2及一2 十 � + 价;Z �一p + a, � (l)
M A (q)模型为最近 q 个随机干扰的线性组合:
Z t = a : 一 s la t一1 一 02 a t一2 一 � 一 ooa t一�, (2)
将 (l) (2)两式用自回归算子 拭B )和滑动平均算子 0( 司 进行整理 , 得 A RI M A 最终表达式:
拭功哄 = 0(列 a, , 即: Wt 二功;Wt 一:十沪ZWt 一:+ �+ 功�Wt 一p+ a �一01a亡一1一02a,一:一�一 乳a艺一q
等价于:wt一�十黯淤w , 为序列 z �经 d 阶差分后的序列 , 表达式为 哄 = , �z �二(1一B )�Zt (其中差分算子
v及一及一, , 后移算子B及一zt 一,).注意, 当d一�时用z �一,, 代替司5}.
(2)模型参数估计的方法. 采用条件最小二乘方法估计模型参数. 通过对数转换及差分方
法使原始序列平稳 , 按照残差不相关原则 �简洁原则确定模型结构 , 依据 A IC 和 SB C 准则确
定模型阶数 , 最终建立起 A RI M A 预测模型 [0] .
(3)采用 SA S 9.1 统计软件建立 A RI M A 模型.
讲讲讲 了了了丫丫卜}}} }}}}}
///// }}}仪 }}}}}律律律 叮叮}( }}}}}���� }尹尹尹月月月月 VVV }}}{{{{{!!! 不不 丢 � .人 ��下下下下 冲丽认 � 尹 伙伙吝杰叛叛
��杰� , , 二TI称� 公� , .然然杰.然然
, 卜 co u g h
1004050209080603070拍�
嗽人次咳数
图 1 20 0 9一2 0 1 0 咳嗽症状监测数据时序图
第 3 期 杨 娟等: A R IM A 模型在杭州市中小学生咳嗽症状监测中的应用
2 应用实例
2.1 原始资料趋势分析
2()() 9 年 8 月 31 日一2()1 0 年 6 月 31 日的咳嗽监测数据是每日采集的 , 但因每日症状例数
较少 , 故以周为时间点拟合模型 , 共 44 个时间点, 按周绘制时间序列图 (见图 l) , 由图 1 可
看出 , 该时间序列的变异较大 , 序列的方差在前后差别明显.
3 1 1
云 ,
二8 � 如 叭俪
2甲MA下0102O甲AM了2 0021叨AP刃2�一O11么P刀�010228�AM刀�102014,MA刀,020128�FmB�20一O砧4�FmB�10203一�AZ�1020一7��AN,020103,JA之�20�27 O�口EO�0920一3�OmO�0920?O2ZV�0920一5�NOV�0902O必�OVN�0920一8�09OOT20-分�00洲09202��Sm下O 0920叨Sm下0920
d a te
T ra nsfo rm s:natural109 ,di他 re nee(1 )
图 2 新序列自相关系数图
A U tO C O rre la tio n S P a rt is ! A U t0 CO Fre ls tio n S
刃��加漂如瑞sle;ls物场扭瓷抄彩喋
训呈景景景润16祀2022别2e湘3c驯监艾57931,935J571322223321111
一1 一0 8 刁 5 一0 3 0 0 2 5 0 5 0 了5 1C O FFe la tio n C O G m C ie n tS 一, 一 .8 一� .5 一� 3C O rre !a tio n
图 3 新序列偏自相关系数图
2. 2 建立预测模型
(l) 模型识别阶段. 对原始序列取自然对数并进行一次差分 (d= l) 以平稳数据的方差 , 新
序列的时序图如图 2 所示 , 由图可看出新序列基本平稳. 因为数据是以周为时间单位的 , 故暂
不考虑序列的季节性问
. 对新序列作自相关系数图和偏自相关系数图 (图 3) , 从自相关系数
图上可以进一步验证新序列是平稳的. 从 自相关系数的白噪声检验结果 (见表 l) 可以看出对
数变换后的新序列为白噪声序列 (P = �.0815).
表 1 对新序列自相关系橄的白嗓声检验
l h b le l �V h ite N o is e l �e s t o f A u t o e o r r e la t io n C o e m e ie n t fo r th e N e w S e r ie s
la g 尸 D F 尸 自相关系数
f玉 1 1 2 3 6 0 .0 8 15 一0 .3 1 8 0 .0 7 7 一0 .3 5 6 0 .2 9 0 一0 .1 6 6 一0.0 1 8
5 6 6 生 物 数 学 学 报 第 26 卷
(2)模型参数估计及诊断检验阶段. A C F 图和 PA C F 图 (图 3)显示 , 自相关系数和偏自相
关系数均呈现拖尾现象 , 由上可初步判断模型为 A RI M A( 1,1,1) .但在实际拟合模型过程中, 拟
合了多个备选模型 , 如 A R IM A (l,1,0) , A R IM A (0,l,l) , A R IM A (1,l,1)等 , 拟合结果如表 2
所示; 最后根据模型的拟合优度 �残差情况以及系数间的相关性进行综合判断 , 检验结果如表
3 所示. 从表 3 可以看出自回归模型 A RI M A (1,1,l) 比较理想, 其残差平方和和 Al c 都最小,
分别为 0.7361 � 95.6092 , SB C 为 98.8310.提示模型 A m M A (1,1,l)拟合效果较好. 进一步对
模型 A RI M A (1,1,l) 作白噪声残差检验 (见表 4) , 扩 检验统计量均无统计学意义 (最小 P 值
为 0.1172 ) , 提示所选模型恰当 , 用于预测是合适的. 模型数学表达式为:
(1一B )(l + 0.89623B )In eo�夕ht�= (1 + O.61585B )a亡,
e o视g h r = ex P (1 + 0.61585B )a �(1一B )(l+ 0.89623B )
表 2 咳嗽序列备选 A R IM A 模型的参数估计
l h b le 2 P a r a m e t e r E st im a t e s o f B e s t一F it A R I M A M o d e ls fo r C o u g h- S e r ie s
参数 A R IM A (1,1 0) A R IM A (0 ,l,1) A R IM A (1,1,1)系数 尽
一0 .4 0 1 5
系数 尽
A R I ,
M A I ,
一2 .4 5 O 刀 19 2
0 .3 3 5 1 2 .0 6 0 .0 4 6 4
系数 口
一0 .8 9 6 2
一0 .6 15 9
一6 .3 3
一2 一6 2
< O 刀0 0 1
0 刀1 3 1
表 3 咳嗽序列备选 A R IM A 模型的拟合优度检验
l b b le 3 G o o d n e s s o f F it f�范s t o f A R I M A M o d e ls fo r C o u g h 一S e r ie s
统计量
残差数
A R IM A (1,1气0) A R IM A (O ,1,1) A R IM A (l,1,1)
残差方差
误差
赤池准则 A IC
贝叶斯准则 sB c
3 7
0 .7 7 1 9
0 .8 7 8 6
9 6 一4 0 6 3
9 8 .0 1 7 3
3 7
0 .7 8 3 6
0 .8 8 5 2
9 6 .9 6 6 2
9 8 .5 7 7 1
3 7
0 .7 3 6 1
0 .8 5 8 0
9 5 .6 0 9 2
9 8 .8 3 1 0
表 4 咳嗽序列模型 A R IM A (1 ,1 ,l) 残差自相关性检验
T able 4 R esid ual A utoeorrelation Te st of M od el A R IM A (1 ,1 ,1) fo r C o ugh一S eries
护比 L a g C h i一S q u a r e D F P r ) C h is q A u to e o rre la tio n s � �
7 .3 8
8 .2 1
1 3 .16
1 9 .2 7
0 .1 1 7 2
0 .6 0 6 8
0 .6 6 1 1
0 .6 2 8 8
一0 t0 4 5
0 0 6 6
一0 .1 1 1
0 .0 7 2
一0 .2 3 1
0 刀1 8
一0 .1 1 3
0 .4 5 2
一0 .18 7
0 .0 9 9
一0 .1 9 0
一0 .1 6 6
0 .1 5 5
一0 .0 9 9
O 一3 6 7
一0 .3 0 6
0 .0 6 0
一0 .0 5 3
一0 .1 8 9
一0 .0 6 9
一0 .3 4 2
0 .0 8 3
0 .0 5 1
一0 .2 0 0
22101642412186
表 5 A R IM A (l ,1 ,l) 对咳嗽人次数的预测结果
T挂ble 5 R esid ualA utoeorrelation l �est of M od elA R IM A (1 ,1 ,1) fo r C ough一Series
周次 日期 咳嗽 预测值 预测值 95 % 可信区间下限 上限 预测误差 绝对 相对误差
3 8.5%
18.2%
3 14%
30()%
2218524 5 6 1
94 , 吕
66铭2 0 1 0 一6一2 0
2 0 1 0 一6一2 7
2 0 1 0 一7一4
2 0 1 0 一7一1 1
标准差
2 .3 5 8 4
2 .8 7 7 8
3 .8 4 1 3
4 4 3 7 7
2 .3 0 1 1
0 .9 3 5 4
0 .8 3 8 9
0 .4 1 9 7
1 6 3 .9 8 3 6
1 4 4 .4 6 0 4
8394,l,221.n13762 0 1 0 2 6
2 0 1 0 2 7
2 0 10 2 8
2 0 10 2 9
第 3 期 杨 娟等: A R IM A 模型在杭州市中小学生咳嗽症状监测中的应用
2. 3 利用确定模型进行预测 (见图 4 , 表 5)
实际预测值需经过反对数转换. 建模所用的数据是序列前 40 个时间点 , 最后 4 个时间点
用于验证.
F o re c a s t Of In e o u g h
一n co u g h 7
642253011
一�
U E E E E C C C C I汉X 汉汉) E E E E A A A A E E E E A A A A A P P P P A A A A A U U U U U
( 芬, P P P T T T T V V V V V C C C C N N N N B B B B R R R R R R R R R Y Y Y Y Y N N N N L若吕若名若名吕若吕若若若吕苦苦若若若吕若吕吕若若吕若吕吕若名名名名名名吕名名若名名名吕若若
///��二/丫_�一 ���丫丫
子子号号寻寻
* 为实际观测值 O 为预测值 一 为里信区间
图 4 20 0 9一20 10 咳嗽症状监测数据预侧图
3 讨 论
时间序列是按时间顺序取得的一系列观测值 , 其典型的一个本质特征就是相邻观测值的
依赖性 , 时间序列分析就是对这种依赖性进行分析 [s] .时间序列预测方法有很多, 如简单序时
平均数法 � 加权序时平均数法 �移动平均法 � 加权移动平均法 �趋势预测法 �指数平滑法 �季
节性趋势预测法等. 大多数传统时间序列模型均假设各变量之间是一种线性关系 , 因而实际预
测时往往使预测值呈不断上升或下降的趋势, 而不能按照原有实际情况拟合模型 , 效果往往不
佳 图. 时间序列的 A RI M A 模型拟合可以综合考虑序列演变的趋势 �周期变化和随机干扰因
素 , 借助模型参数的变化对数据进行量化表达 ls, �, � �]. 国外曾对 12 种不同的预测方法进行比
较 !川 , 认为 A RI M A 模型是一种精确度较高的短期预测模型 , 也是最好的预测模型之一 但
A RI M A 的应用前提是时间序列的平稳性 , 实际工作中数据往往是非平稳序列 , 如本文中的症
状监测数据就是非平稳序列 , 一般对序列进行预处理 (如对数转换或差分) , 使之达到平稳.
本文建模所用的数据是序列前 40 个时间点, 最后 4 个时间点用于预测值验证. 总体来看
A RI M A 模型是适合用来拟合症状监测这类具有时间序列特点的资料的 , 但本文预测结果置信
区间较宽 , 可能是因为时间序列比较短 , 还未能考虑到季节趋势. 另外 , 所用监测数据是中小
学生在校发生症状的人数 , 故在节假 日出现的缺失值 (201 0 年第 1周 , 201 0 年第 7一9周)以及
学校发生的突发事件都会影响时间序列的平稳性 , 此外本次资料样本量和时间长度均有限, 所
有这些因素都可能影响模型估计的准确性 , 本研究的结论还有待干将来资料积累后进行修正和
深化 , 以便通过置信区间的宽度来设置预警阐值 , 从而起到对突发事件的预测预警作用.
由于时间序列预测是按一定时序的规律进行的 , 其前提是在一定时间内保持相对稳定, 假
定时间序列为未来的发展模式 与其过去的模式是一致的. 但在实际依据由拟合既往时间序列
得到的模型计算未来的预测值时 , 不排除模型错误的可能 , 仍然会出现预测值与实际值明显不
符的情况 , 其原因是事件原有的趋势发生了很大的改变 , 所以单次分析建立的模型不能作为永
5 6 8 生 物 数 学 学 报 第 26 卷
久不变的预测工具 [l �].以本文监测数据为例 , 若需进一步预测 201 0 年 6 月以后的症状监测情
况 , 就需要积累新的数据对现有模型进行修正 �甚至重新拟合 , 如果数据足够多, 还可以考虑
将季节因素纳入模型. 或为了提高预测精度 , 也需通过逐年数据的补充 , 修正建立更能反映实
际情况预测模型 [l �].所以一次分析所得到的 A RI M A 模型并不一定始终能作为最好的预测依据.
参 考 文 献
�11 李晓方. 时间序列谱分析在作物研究中的应用探讨 (一){J].生物数学学报, 1990 , 5(2):188一192 �
Izl 孙振球. 医学统计学(第二版)�M }.人民卫生出版社, 2��5: 461 一462 �
[s] 梁桂玲, 刘颜, 邓洒沐. A R IM A 模型应用于月门诊量预测 !J].中国医院统计 , 2006 , 13(l) :24 一26.
四 高惠漩等. SA S 系统SA S/E T S 软件使用手册 �M �.北京: 中国统计出版社, 199 8:66 一74.
15� G eoge E .p .B ox , G w ilym M .Jenkins. 时间序列分析预测与控制 �M ��北京: 中国统计出版社, 1997.
l0] 黄彦, 易东, 田考聪. A R IM A 预测模型的SA S 程序实现及其应用!J}.激光杂志, 2007 , 2s( l) :96 .
�刀 武红涛. A R IM A 棋型在医院出院患者预测中的应用 [,] .解放军医院管理杂志, 20 09 , 16( l) :21 一23�
[s] 邓丹, 王润华, 周燕荣. 时间序列分析及其在卫生事业中的应用 �J].数理医药学杂志, 20 00 , 15 (5):455摊57 .
[0] 吴进军. 住院构成前五位病种医疗费用时间序列分析与预测 [s] .中国卫生资源, 2000 , 3(2):63一66 .
�l0] 王天成, 汪整辉. 时间序列分析方法在医院检验科工作量预测中的应用 �升 中国医院统计, 2005 , 12(1)= 3于32.
�n �刑慧娴, 杨维中, 王汉章. 传染病预测 同.预防医学情报杂志, 2004 , 6(4):639 币42 �
!12 �陈勇, 陈建国, 朱健等. 1972 ~ 2001 年启东市肺癌发病趋势的时间序列分析及预测模型探讨 团.南京医科大学学
报 , 2005, 25(7):514一519.
�13}朱继民, 汤林华, 周水森等. 非稳定性疟区用时间序列模型预测疟疾发病率的可行性研究 团.中国寄生虫病学与寄
生虫病杂志, 20 07, 2 5 (3 ):23 2一235
A P P lie atio n s o f A R IM A M o d el o n S y n d ro m ie S u rv eillan ee o f
E lem en ta ry a n d M id d le一S eh o o l S tu d ent s in H a n g zh o u C ity
YA N G Juan � Q l Jia,卜jiangZ SH E N Y i�
(1 D epa:tm eo tof E p记em 乞010夕万aod B 乞ostatzs亡zes , Z he了坛an夕U �乞:e:�乞亡夕S ehool of p 二bl乞e H eal亡h ,
H ang:ho二Z he了乞a了�夕310058 C h乞�a)
(2 H a几夕zh侃 C 已几te宁for D z�ease C oot:01and p :e二e几艺�o几, H a九夕:hou Z he7zaog 310021 C h乞�a)
A b straet: o b je etive To d iseu ss the aP Plieation of A R IM A m odel on d ata of tim e series
a n d fi t P red ie tiv e m o d e l o n sy n d ro m ie slirve illa n ee . M e th o d s P a ra m e ter o f m o d e l w a s estim a ted
b as e d o n eo n d itio n a l le a st sq u a res . T h e stru e tu re w a s d e tern iin e d a ee o rd in g to e riteria o f res id u a l
u n 一e o rrela tio n a n d eo n eisio n . A R IM A p red ietiv e m o d el w a s fi tte d an d th e o rd er o f m o d el w a s
eo n fi rm e d th ro u g h A ka ia k e In fo rm a tio n C riterio n a n d S ellw arz B a ye sian C riterio n . R e s u lts T h e
effe et of A 班M A (1,1,1) m odel wao better tllan others. T he estim ation of va rianee w as 0.7361,A IC = 9 5 .6 0 9 2 , S B C = 9 8 .8 3 1 0 . T h e a n a ly sis o f w h ite一n o ise re sid u a l o f m o d el sh o w ed th at res idu al
w as w h ite一n o is e series . C o n e lu s io n A R IM A m o d el ea n b e su ita b ly aP P lied o n d a ta o f tim e se ries
o f sy m d ro m ie su rv eilla n ee . T h e e red ib ility in te rva l o f fo ree ast w as a little w id e , w h ieh m ig h t d lle
to th e tim e se rie s w ere re la tiv ely slzo rt a n d tlle P ro ee ss o f m o d e lin g d id n , t ta ke th e se a so n a l tre n d s
in to a e eo u n t. In a d d itio lz, th ere w ere m issin g va llle s b ee a u se o f lzo lid盯 5 . T h e a ee u ra ey o f In o d e l
m ay b e a ffe e ted b y th e re la tiv e ly sm a ll s am v le siz e an d th e le rig th o f tixn e series . T h e eo n elu sio rl
o f th is stu d y h a s y e t to b e fu rth e r eo n fi rm e d ixz fll tllre stu d ie s.
K e y w o rd s : A R IM A z, zo d e l ; T izn e s(:ries S y n d ro m i( �u rv e illa r;e e ; P re d ietio n