两种基于支持向量机的时间序列数据建模.docx

资源描述

《两种基于支持向量机的时间序列数据建模.docx》由会员分享，可在线阅读，更多相关《两种基于支持向量机的时间序列数据建模.docx（6页珍藏版）》请在金锄头文库上搜索。

1、两种基于支持向量机的时间序列数据建模摘要：在统计网络传输数据建模上，平稳化的数据有利于预报建模。由于传输数据是非平稳时间序列，具有非线性、多尺度等特点，就如何削弱数据的随机性并构造计算模型进行仿真计算，本文实验建模了经验模式分解与小波分解组合支持向量机的两种计算模型。第一种建模方法是小波组合向量机建模，做法是先将数据流分解为长期趋势和随机扰动项，然后采用支持向量机对分解后的各分量预测，最后将各预测值相加得到最终预测结果；第二种建模方法是经验模式分解组合向量机建模，先将流量分解成不同频带本征分量，常规的做法是用向量机逐一对各分量进行预测，然后对预测值等权求和得到预测结果作为验证结果；新提出的做法

2、是直接把各模式分量作为输入向量，与真实值建立预测模型。结果表明基于经验模式分解建模构造的新实验模型，相比小波组合模型在传输数据预报上更稳定可靠。关键词：支持向量机；经验模式分解；小波分解；异常监测TwoSVMHybridModelsonTimeSeriesDataYUNYong-sheng1，MATian2，ZHANGLi-jun1，ZHANGFei-ma1，WANGXin-hui1（1.94175Troops，Urumqi830006，China；2.LawSchoolofXinjiangUniversityofFinanceandEconomics，Urumqi830012，China）异

3、常数据流量检测通常是保障网络空间安全的重要技术手段之一，充当着数字空间“预警机”的角色，如何通过对网络流量统计模型进行有效“异常”检测，从而区分出非正常的、潜在的入侵行为是网络安全领域一个十分重要而迫切的问题1。通过对传输数据的分析和预测，为网络的流量控制、故障管理、特别是对网络入侵检测预报等提供有效依据。这样在网络异常发生之前，可以预先采取防范预案，来确保网络传输的正常进行。在网络传输数据预测统计模型方面，简单使用一种预测模型已远远不能准确地刻画复杂性高的传输变化规律2，3。组合预测模型方面4，5，以小波变换特征分解组合支持向量机模型应用效果好且应用较多6，7。缺点是小波变换在确定分解层数以

4、及选择小波基有个难以选择的问题，同一个问题用不同的小波函数进行分析时，有时结果相差很大。目前大多通过经验或是不断实验来选择小波函数。支持向量机基于结构风险最小化理论预测能力较强8-10。具有结构简单，能较好地解决数据的小样本、非线性、高维数等问题，优化的SVM泛化推广能力强，更适合做长期预测11。而在时间序列数据的特征分解上，经验模式分解模型（EMD）将非平稳时间序列数据分解为不同频带的本征模式分量平稳时间序列12。目前大多实验研究是利用向量机对各高频和低频分量分别建立预测模型，再将预测值作为输入向量，与同时刻真值作为输出建立最终模型。本文选用某路由器时间序列数据，采用比较研究的方法，实验了经

5、验模式分解组合模型13，14和小波组合模型的计算差异，并提出了实用可行的新的实验计算框架。1数据建模理论分析1.1小波分解与其单支重构Mallat在1987年就提出多分辨率分析和多尺度分析的小波基构造方法15。把小波正交基的构造整合到一个框架中，指出离散信号按小波变换分解处理和重构的按快速小波变换算法。Mallat多分辨率分析算法的分解过程见图1所示。每次分解将序列分为近似部分和细节部分，近似部分刻画了序列的大趋势，而细节部分刻画了序列在细节上的差异。如果不断对近似部分进一步实施分解，就会得到新的近似部分和细节部分。设分解层数为j，则原始序列分解为D1，D2，Dj和Aj，其中Aj和Dj分别是分

6、辨率为2j时的近似部分和细节部分。其中Aj定义为第j层的近似部分，Dj称为第j层的细节部分。而每执行一层的分解，序列的长度就缩短为分解前的一半，分解的层数大，获得的序列的长度越短。重构原理见图2所示，单支重构是指不对近似部分和细节部分同时进行重构，而是对它们分别进行重构，即在对某一部分进行重构时将其他部分设置为零值。对近似部分Aj单支重构过程如图所示，各细节部分单支重构的方法与之类似。1.2经验模式分解Huang在1998年提出EMD算法16。它通过对信号h（t），采用三次样条插值函数先对该信号的所有极大值拟合成上包络线，再对所有极小值拟合成下包络线，记两条包络线的均值为m（t），则可构造一个

7、新的信号：（1）当g（t）满足：函数在整个时间范围内，局部极值点个数和过零点数目必须相等或最多相差一个；在任意时刻点，局部最大值的上包络线和局部最小值的下包络线平均必须为零。这时g（t）就是第一个IMF分量c1。假设r（t）为信号余量：令r（t）作为新的信号，执行（3）的操作，可以计算除IMF第二个分量c2，直到第m个IMF分量cm，其中mN，为本征模函数的数目。终止的信号余项r（t）计算条件是：仅当有一个极值点或是单调函数为止。信号可以表达为：使用经验模式分解算法，目的是将原始信号分解为不相关联的本征模函数（IMF），优点是消除以时间尺度为主要特征的数据的自相似性，降低了复杂度，这样就实现将

8、非线性、非平稳数据的处理问题向线性、平稳的处理问题的转变。1.3支持向量机实验中应用了最小二乘支持向量机，就是利用二次损失函数，通过非线性映射（），将低维非线性空间的数据转化为高维线性空间的数据，从而实现在高维空间的线性回归预测模型17：对于n个多维度样本数据（xi，yi），i（1，2，n），xiRn是样本输入，yiR是样本输出，其最优回归估计函数为：2数据建模方法和验证2.1小波与支持向量机组合建模采用小波分析向量机建立组合预测模型详细步骤如下：1）流量数据的特征分解。小波分解变换将全部数据分解为低频分量和高频分量，其中低频分量反映了流量数据的大趋势和大走向，高频分量反映了数据的细节特征。本

9、文将原始数据分解四个分量，其中一个是低频信号分量和另外三个是高频细节分量。2）数据无量纲化预处理。将单支重构得到的一个低频分量和三个高频分量数据x（t）归一化处理，归一化公式如下：3）模型变量的确定。模型采用多输入单输出的预测机制来构造输入输出向量矩阵，从而建立训练样本。训练样本结构如表1所示，其中x（1），x（2），x（3），x（n-1）作为输入数值，x（4），x（n-1），x（n）作为输出数值。k为输入向量的嵌入维数，在本次实验中选取k=3，其中nN，N为样本的个数。4）确定合适的核函数。实验模型采用高斯径向基（RBF）函数，其函数的形式为：5）支持向量机模型参数的确定。支持向量机的泛化性

10、能取决于参数、以及核参数的选择，本文采用粒子群优化算法对上述优化参数进行了优化。6）各分量预测值的合成。将分解后的低频分量预测值和各高频分量预测值x（t）进行反归一化计算公式如下式所示：然后依次将各分解得到的分量预测值相叠加，即可得到最终的预测结果p（t），注意在正反向归一化中各参数的对应关系。然后将预测值与原始的流量数据进行均方误差计算，得到评估指标。2.2经验模式分解与向量机新组合建模采用经验模式分解模型和向量机建立预测模型详细步骤如下：1）执行经验模式特征分解（EMD）。将全体数据分解得到多个本征模分量和一个剩余分量。2）数据无量纲化预处理。对原始网络流量时间序列x（t）归一化处理，归一

11、化公式见（9）式。3）模型变量的确定。模型采用多输入单输出的预测方法，构造输入输出向量矩阵从而建立训练样本。训练样本结构如表2所示。4）确定合适的核函数和支持向量机参数寻优计算。支持向量机模型常用的核函数有线性函数、本文采用高斯径向基（RBF）函数，采用粒子群优化选择优化参数，对各分量值进行预测。5）各分量合成。计算证明在本实验模型中无法将各分量的预测值简单线性相加、或者作为输入建立非线性模型得到最后的预测值。而是将各个IMF同时刻的平稳分量作为输入，将同时刻的相应的实际值作为输出，然后再用向量机训练建立模型。训练样本结构如表2所示，从而使得各个参加组合的分量和实际输出值之间建立一种非线性映射关系。3结果与分析

展开阅读全文