时序数据分析方法综述

上传人:豆浆 文档编号:1448936 上传时间:2017-06-21 格式:PDF 页数:20 大小:722.18KB
返回 下载 相关 举报
时序数据分析方法综述_第1页
第1页 / 共20页
时序数据分析方法综述_第2页
第2页 / 共20页
时序数据分析方法综述_第3页
第3页 / 共20页
时序数据分析方法综述_第4页
第4页 / 共20页
时序数据分析方法综述_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《时序数据分析方法综述》由会员分享,可在线阅读,更多相关《时序数据分析方法综述(20页珍藏版)》请在金锄头文库上搜索。

1、 1 / 20 时 间 序 列 数据分析方法综述 一、 时间序列 数据的相关概念 1、 时间序列 , tX t T :指被观察到的依时间 为序排列的数据序列。 ( A time series is a collection of observations made sequentially in time.) 2、时间序列的特点: ( 1)时间序列是指同一现象在不同时间上的相继观察值; ( 2)前后时刻的数据一般具有某种程度的相关性; ( 3)形式上由现象所属的时间和现象在不同时间上的观察值两部分组成; ( 4)排列的时间可以是年份、季度、月份或其他任何时间形式。 3、时间序列的主要成分: 趋

2、势性( Trend)、季节性( Seasonality)、周期性( Cyclity)、随机型( Random) 4、时间序列的分类: ( 1)平稳序列( stationary series):基本上不存在趋势的序列,各观察值 基本在某个固定的水平上波动,或虽有波动,但不存在某种规律,其波动可看成随机。( 2)非平稳序列( non-stationary series):一般包括有趋势的序列,或包括趋势、季节、周期性的复合型序列。 5、 时间序列分析 的内涵 :依据不同应用背景,时序分析有不同目的:( 1)系统描述:揭示支配时间序列的随机规律;( 2)系统预测:通过此随机规律,理解所要考虑的动态系

3、统,预报未来的事件;( 3)干预和决策:通过干预来控制未来事件。 6、时间序列分析的内容: ( 1)通过对样本的分析研究,找出动态过程的特性;( 2)找到最佳的 数学模型;( 3)估计模型参数;( 4)利用数学模型进行统计预测 7、时间序列数据的特征:时间属性和数据属性 时间属性:时间隐含内在的周期性特征,例如季节的更迭。时间还具有确定型和不确定性的特征。 数据属性:按照统计尺度分为定性和定量特征;按照参照标准可分为空间和非空间特征;按变量个数分为单变量和多变量特征。 二、 时间序列分析 的历史发展 时间序列分析主要经历了描述性时序分析、统计性时序分析、频域分析、时域分析、时间序列数据挖掘几个

4、主要发展阶段。 2.1 描述性时序分析 在早期的自然科学中发挥着重要的作用。最早可以追溯到 7000 年前古埃及人对尼罗河涨落情况的长期观察和记录他们发现在天狼星第一次和太阳同时升起后的两百天左右尼罗河开始泛滥,洪水大约持续七八十天,此后土地肥沃适于农业种植。巴比伦天文 2 / 20 学家根据星星和卫星相对位置的数据序列预测天文学事件对卫星运动的观察是开普勒三大定律的基础。 Graunt 在探究病人和死亡在时间上的模式关系时提出了一阶差分的萌芽思想 , 首次提出生命表的概念 , 并对人口问题进行预测与估计 ,并 对黑死病大流行的两个年份 1603 年和 1625 年中有关数据的可信性提出怀 疑

5、 , 并进行处理 。 虽然他的具体计算方法比较简单和粗糙 , 但其关于时间序列的萌芽思想 , 为现代时间序列分析打下了基础。 但受到当时科学发展的限制 , 这些使人们发现了重要规律的早期时序分析主要依赖于对数据的直观 比较或者是简单的绘图观测。 随着研究领域的逐渐拓宽和研究问题的复杂化 , 这种单纯的描述性分析不能满足需要 、 概率理论中随机变量的发展以及统计数学中一些结论和方法的提出 , 使研究重心从对表面现象的总结 , 逐渐转移到分析随机序列内在本质的相关关系上 , 从而开辟了统计时序分析的时代。 2.2 统计性时序分析 17 世纪当帕斯卡 ( Blaise Pascal, 1623166

6、2) 和费马 ( Pierse de Fermat, 1601-1665)等学者以机会游戏为基础讨论稳定的概率比率时 , 欧洲的商人没有借鉴这些自然哲学家的数学方法而是借助不同的 定量推理计算自己在市场变化中的利益得失 。 他们利用商人的独特方法分析市场波动情形无意中为商业实践转入统计性时序分析奠定了基础 。 19 世 纪的数学家正是在欣赏并应用上述金融算 术的过程中逐步开始讨论对时间现象的建模问题。 他们处理数据的工具主要是一阶差分指数和滑动平 均等。 这些基本概念都经历了从金融算术到政治算 术最后进入科学算术阶段及现代化数学领域的发展 过程。他们最初只是金融家进行贸易猜测 、 欺骗大众和掩

7、盖真相的工具 。 有两条主线贯穿统计性时序分析的历史发展明线是技术工具从商业实践转入时间序列分析的过程暗线 , 是对这些概念从描述性直观说明 到严格定量推理的发展过程。 2.3 频域分析的发展 时间序列分析旨在从系统模式或行为中分离随机白噪声 , 通过分析数据 , 最终发现序列的真实过程或现象特征 , 如平稳性水平 、 季节性长度 、 振幅频率和相位等 。 其中振幅频率和相位属于时间序列的频 域性质 , 对他们的研究常称为频域分析或谱分析。 谱概念与物理 学的渊源关系历史悠久 。 物理学中常用余弦曲线方程 cos( )A wt 表示系统的振动时间序列 , 可视为振幅频率和相位互不相同的正余弦波

8、的叠加 。 因此时间序列的频域发展 首先源于 1807 年法国数学家傅里叶 ( Jean Baptiste Joseph Fourier,1768-1830) 宣称 “ 任何级数可用正 、 余弦项之和逼近 ” 的思想 , 随着 Fourier 理论的发展 , 任 何 时 间 序 列 也 被 展 开 成 无 限 逼 近 于 该 序 列 的 正 余 弦 项 之 和1122( ) c o s s i nijijttX t a i b jTT。 Fourier 级数 实际上却存在许多问 题,如 不容忍白噪声、 包含正弦余弦项的数量、如何指定周期 T 的值 、如何估计定积分等。 而 没有白噪 3 / 2

9、0 声的序列几乎 是 不存在 的 。 幸运的是 , 随着科学理论的发展 , 德国学者舒斯特 ( Arhtur Schuster, 1851-1934)以 Fourier 级数理论为基础创造了新的方法。 1906 年, Schuster 创建了周期图模型,用于考察 1750-1900 年间的太阳黑子序列,成功解决了太阳黑子的周期问题。随着概率和统计技术这些外围理论的发展,以及对估计和预测精度需求的提高,周期图方法进一步得到发展,但缺陷也逐渐暴露 。后来,美国数学家丹尼尔 1946 年提出了平滑周期图概念, Bartlett 和美国统计学家图基分别于1948 年、 1949 年使用平滑周期图研究谱

10、估计,开创了频域分析的近代理论。 2.4 时域分析的发展 时域分析首先研究平稳过程。 这个根源于 19 世纪生物学家高尔基、皮尔逊的遗传学工作,首次提出了回归与相关系数的概念。英国统计学家尤尔针对事件相关问题的困惑,最终创立了平稳线性自回归模型,开辟了时间序列时域分析的现代发展。 1927 年, Yule 在研究太阳黑子数、探讨受扰动序列的周期时, Yule 首创 AR(2)模型和 AR(4)模型。该方法的提出对原来将时间序列普遍看作是时间函数的一种修正和改进,逐步取代了 Schuster 的周期图分析法,开始了长达 30 多年的时域分析方法。 1927 年, Slutsky 对时间序列中的随

11、机成分感兴趣,提出了针对随机成分的 MA(h)模型。 1931 年, Walker 在研究印度达尔文港口的大气压力时,在 Yule 提出的模型基础上,拓展为 AR(s)模型。 1938 年, Wold 以离散平稳随机过程为研究对象,证明了隐周期模型为线性自回归过程的极限情形,也严格证明了离散平稳过程由隐周期和线性回归组成,奠定了 ARMA模型拟合平稳序列的基础。 1970 年, Box 和 Jenkins 讨论了非平稳自回归移动平均 ARIMA 模型,以及整套的建模、估计、检验和控制方法,使时间序列的理论和实践得到了飞速发函。 1982 年, Engle 提出了自回归条件异方差 ARCH 模型

12、, 对非线性参数自回归模型开启了研究。 2.5 时序数据挖掘的发展 20 世纪 90 年代,时间序列数据挖掘 ( Time series data mining, TSDM) 开始出现并受到广泛关注,得到了迅速的发展。 TSDM 发展至今 , 其研究内容 已经涉及到多门学科的交叉研究,并细化出多个研究方向 24。 通过查阅研究 现 有 的文献 ,当前 时间序列数据挖掘的 研究 热 点 主要 包括: 时间序列的模式表示、相似性度量、分类、聚类、模式发现、预测 、可视化 等。 ( 1)时间序列的模式表示是为了减小时间序列维度高、结构复杂、 噪声大等特点对数据挖掘算法的准确性和可靠性的影响而提出的,

13、在新的 层次上 对时间序列进行重新表示 。 4 / 20 ( 2)相似性度量是为了测定时间序列是否与“模式序列”具有相似的行为曲线,它必须具有完备性,防漏报性。然而时间序列往往具有多种变形,因此 对于 相似 性度量是时间序列数据挖掘的一项最基本也是最棘手的工作,也 是当前时间序列数据挖掘的研究热点 35。 ( 3)时间序列分类是在传统的静态分类基础上,用时间序列替代原本的 静态数据,目的是测定时间序列所属于的离散标记。 时间序列 分类 主要包括两类算法 67: 1)领域无关分类算法。它通过设计准确的相似性度量方法, 度量时间序列对象之间的相似性,当序列之间越相似,属于同一种类别的可能性越大。

14、2)领域相关分类算法。它通过特征提取、模型匹配等其他技术将 时间序列数据 转化为特征表示或模型参数 , 再对时间序列数据进行 分类。已有文献说明当训练数据较少时适用于使用领域相关分类算法,而领域无关分类算法受噪声的影响较小 68。 ( 4)时间序列的聚类研究主要分为两种情况,一种是修改现有的聚类算法使之适用于时间序列数据, 聚类过程直接在初始序列上进行,因而称为基于初始 数据的聚类。另一种是 将时间序列数据转化为静态特征或模型参数,运用传统的聚类算法对时间序列数据进行聚类 9,因而被称为基于模型或特征的聚类方法。 ( 5)时间序列的 模式发现是指通过对不同时间段的 序列进行关联关系分析,发现不

15、同 阶段 频繁出现的周期变化模式或极少出现的异常模式。按照发现的模式分类,一般分为频繁模式 10、异常模式 11和周期模式 12发现等,它们分别适用于不同的场景或目的。比如在医疗心电图诊断中,通过异常模式发现,可以发现病人的异常心电图序列,从而进行诊断和治疗。 ( 6)时间序列 的预测是通过 分析 现有的时间序列数据, 估测之后的一个或几个时刻的数据,即 通过结合事物的发展规律和发展趋势,对事物的未来进行预测,它在各领域都有着广泛的应用 3613。 三 、时间序列数据预测的研究综述 时间序列数据预测主要包括 确定型时间序列预测和随机型时间序列预测 ,以下主要针对这两种预测方法的研究进展。 3.

16、1 确定型时间序列预测 确定型时间序列预测方法已经相对成熟,其基本步骤为: 1) 确定时间序列的成分;2)选择预测方法 ; 3)预测方法的评估。针对不同的成分,确定型时间序列预测会选择不同的方法。 1、 平滑法预测 当序列中既不存在趋势成分,也不存在季节成分时,使用平滑法进行预测。 平滑法主要包括简单平均法、移动平均法和指数平滑法。 ( 1) 简单平均法 : 用已有的观察值的平均值作为下一时刻的预测值 。 5 / 20 1 1 2 11( . . . ) /tt t iiF Y Y Y t Yt 简单平均法适合对较为平稳的时间序列进行预测,但该方法将远期和近期的数值看作同等重要,但从预测角度上看 近期的数值要比远期的数值有更大的作用,预测结果不准确,尤其是当序列中存在趋势或季节变动时。 ( 2) 移动平均法 移动平

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号