预测模型数据处理方法分解

资源描述

《预测模型数据处理方法分解》由会员分享，可在线阅读，更多相关《预测模型数据处理方法分解（30页珍藏版）》请在金锄头文库上搜索。

1、预预测测模模型型最近几年，在全国大学生数学建模竞赛常常出最近几年，在全国大学生数学建模竞赛常常出现预测模型或是与预测有关的题目，例如疾病的传现预测模型或是与预测有关的题目，例如疾病的传播，雨量的预报，人口的预测等。什么是预测模型？播，雨量的预报，人口的预测等。什么是预测模型？如何预测？有那些方法？对此下面作些介绍。如何预测？有那些方法？对此下面作些介绍。预测的目的在于认识自然和社会发展规律，以及预测的目的在于认识自然和社会发展规律，以及在不同历史条件下各种规律的相互作用，揭示事物在不同历史条件下各种规律的相互作用，揭示事物发展的方向和趋势，分析事物发展的途径和条件，发展的方向和趋势，

2、分析事物发展的途径和条件，使人们尽早地预知未来的状况和将要发生的事情，使人们尽早地预知未来的状况和将要发生的事情，并能动地控制其发展，使其为人类和社会进步服务。并能动地控制其发展，使其为人类和社会进步服务。一一预测的前期准备工作预测的前期准备工作为保证预测结果的精确度，预测之前必须做一系为保证预测结果的精确度，预测之前必须做一系列的准备工作：列的准备工作：（一）数据的准备：（一）数据的准备：数据的收集和整理；数据的收集和整理；数据的分析和处理；数据的分析和处理；数据的内涵及数量；数据的内涵及数量；数据处理的原则数据处理的原则准确准确，处理后的数据能正确反映事物发展的未来，处理后的

3、数据能正确反映事物发展的未来趋势和状况；趋势和状况；及时及时，数据的处理要及时；，数据的处理要及时；适用适用，处理的数据能满足建模的需要；，处理的数据能满足建模的需要；经济经济，要尽量减少数据处理的费用，以降低预测，要尽量减少数据处理的费用，以降低预测成本；成本；一致一致，处理的数据在整个比较性。使用期间内必，处理的数据在整个比较性。使用期间内必须是一致的，具有可比较性须是一致的，具有可比较性数据处理的方法数据处理的方法（1）判别法判别法通过对历史数据的判断，选择其中可代表整个通过对历史数据的判断，选择其中可代表整个预测过程中很可能发生的模式的数据作为建模数据预测过程中很可能发生的

4、模式的数据作为建模数据（2）剔除法剔除法如果数据量比较大，且非必须具备连续的数据如果数据量比较大，且非必须具备连续的数据量，这时可剔除数据中受随机干扰的异常值；量，这时可剔除数据中受随机干扰的异常值；（3）平均值法平均值法在数据比较少或需要连续数据时，则可采取平在数据比较少或需要连续数据时，则可采取平均值法对数据进行处理。均值法对数据进行处理。（4）拉平法拉平法由于条件发生变化，常常使一些厉史数据不能由于条件发生变化，常常使一些厉史数据不能反映现时的情况，例如，大型钢铁厂、化肥厂、或反映现时的情况，例如，大型钢铁厂、化肥厂、或油气田的建成投产或开发，可以使产量猛增，这时油气田的建成投产

5、或开发，可以使产量猛增，这时历史数据将发生突变，出现一个转折，如用这类数历史数据将发生突变，出现一个转折，如用这类数据建模，则需要处理。这时拉平法是一种较好的方据建模，则需要处理。这时拉平法是一种较好的方法。它的原理是对转折点前的数据加一个适当的量法。它的原理是对转折点前的数据加一个适当的量值，使其与折点后的数据走向一致。值，使其与折点后的数据走向一致。（5）比例法比例法销售条件与环境的变化常常会引起一个企业产销售条件与环境的变化常常会引起一个企业产品市场销售比例的改变。当比例变化较大时，说明品市场销售比例的改变。当比例变化较大时，说明销售条件与环境对销售的影响己超过其他因素对销销售条件与环

6、境对销售的影响己超过其他因素对销售的影响，也说明以前的销售统计数据所体现出的售的影响，也说明以前的销售统计数据所体现出的销售发展规律不再适用之于目前的情况了。如果仍销售发展规律不再适用之于目前的情况了。如果仍然利用这些数据建立预测模型，将无法体现销售条然利用这些数据建立预测模型，将无法体现销售条件和环境变化后的销售量变化的规律，用这样的模件和环境变化后的销售量变化的规律，用这样的模型进行预测，将会造成较大的误差。因此，如果还型进行预测，将会造成较大的误差。因此，如果还想利用这些数据建立模型，进行预测，就应该把它想利用这些数据建立模型，进行预测，就应该把它们处理成能体现条件与环境发生变化之后的情

7、况的们处理成能体现条件与环境发生变化之后的情况的数据。对于这类数据，比例法就是一种比较有效的数据。对于这类数据，比例法就是一种比较有效的处理方法。处理方法。（6）移动平均和指数平滑法移动平均和指数平滑法如果原始数据总体走向具有一定规律性，但因受随如果原始数据总体走向具有一定规律性，但因受随机因素干扰，数据离散度很大，采用平均值法也难机因素干扰，数据离散度很大，采用平均值法也难以处理。这时可采用一次、二次、甚至三次移动平以处理。这时可采用一次、二次、甚至三次移动平均和指数平滑对数据进行平滑，用平滑的数据建模。均和指数平滑对数据进行平滑，用平滑的数据建模。在分解预测时，为处理季节数据，则必须采用

8、高次在分解预测时，为处理季节数据，则必须采用高次幂的移动平均法，对数据平滑。幂的移动平均法，对数据平滑。（7）差分法差分法有些模型，例如鲍克斯有些模型，例如鲍克斯-詹金斯模型只能处理平詹金斯模型只能处理平稳数据，如果原始数据为非平稳数据，则需釆取差稳数据，如果原始数据为非平稳数据，则需釆取差分处理。差分有三种主要类型：前向差分、后向差分处理。差分有三种主要类型：前向差分、后向差分、中心差分。分、中心差分。前向差分前向差分：在处理时间数列时，一阶前向差分定义：在处理时间数列时，一阶前向差分定义为为一阶前向差分是当时间由一阶前向差分是当时间由t变到变到t+1时，时，的改变量。的改变量。二阶前向

9、差分定义为二阶前向差分定义为后向差分后向差分：在处理时间数列时，一阶后向差分定义：在处理时间数列时，一阶后向差分定义为为一阶后向差分是当时间由一阶后向差分是当时间由t递推到递推到t-1时，时，的改变量。的改变量。二阶后向差分定义为二阶后向差分定义为中心差分中心差分：在处理时间数列时，一阶中心差分定义：在处理时间数列时，一阶中心差分定义为为二阶中心差分为二阶中心差分为在处理时间数列时，主要应用后向差分。一次在处理时间数列时，主要应用后向差分。一次多项式数据通过一阶差分就可转换为平稳数据，二多项式数据通过一阶差分就可转换为平稳数据，二次多项式和三次多项式数据分别通过二阶和三阶差次多项式和三次多

10、项式数据分别通过二阶和三阶差分可转换为平稳数据，而三次以上的高次多项式在分可转换为平稳数据，而三次以上的高次多项式在应用中很少采用。应用中很少采用。二二预测的数学准备预测的数学准备在预测过程中需要很多数学知识，主要有在预测过程中需要很多数学知识，主要有微分方程、概率与数理统计、线性规划和微分方程、概率与数理统计、线性规划和非线性规划等等。但使用最多的是统计学非线性规划等等。但使用最多的是统计学的相关知识：常用的统计量、参数的估算、的相关知识：常用的统计量、参数的估算、假设检验、区间估计等。这些我们就不做假设检验、区间估计等。这些我们就不做介绍了。介绍了。定量预测法定量预测法时间序列模型时

11、间序列模型时间序列模型主要研究事物的自身发展规律，时间序列模型主要研究事物的自身发展规律，借以预测事物的未来趋势。主要方法有移动平均、借以预测事物的未来趋势。主要方法有移动平均、指数平滑、分解预测、鲍克斯詹金斯模型、多变指数平滑、分解预测、鲍克斯詹金斯模型、多变量模型以及类推法等。量模型以及类推法等。特点和应用范围特点和应用范围时间序列一般指一组按时间顺时间序列一般指一组按时间顺序排列的数据，展示了研究对象在一定时期的发序排列的数据，展示了研究对象在一定时期的发生变化过程。时间序列模型，就是根据预测对象生变化过程。时间序列模型，就是根据预测对象时间变化特征，研究事物自身的发展规律，探讨时

12、间变化特征，研究事物自身的发展规律，探讨未来发展趋势，是一种重要的定量预测方法，包未来发展趋势，是一种重要的定量预测方法，包括多种模型，主要适用于经济预测、商业预测、括多种模型，主要适用于经济预测、商业预测、需求预测、库存预测等，预测期限主要为中、短需求预测、库存预测等，预测期限主要为中、短期，不适用于有拐点的长期预测。期，不适用于有拐点的长期预测。（一）移动平均值模型（一）移动平均值模型移动平均法是一种最简单的适应模型，是在算术平均移动平均法是一种最简单的适应模型，是在算术平均的基础上发展起来的一种预测方法。的基础上发展起来的一种预测方法。算术平均虽能代表一组数据的平均水平，但它不能反算术平

13、均虽能代表一组数据的平均水平，但它不能反映数据的变化趋势，而原始数据虽然存在某种趋势，映数据的变化趋势，而原始数据虽然存在某种趋势，但数据可能是零散的或杂乱无章的，无法直接加以分但数据可能是零散的或杂乱无章的，无法直接加以分析。移动平均法克服了上述弱点，其基本方法是，选析。移动平均法克服了上述弱点，其基本方法是，选一个固定的周期一个固定的周期N，对数据进行平均，每递推一个周，对数据进行平均，每递推一个周期就加上后一个数据，舍去初始数据，依次类推，直期就加上后一个数据，舍去初始数据，依次类推，直至把数据处理完毕。至把数据处理完毕。以以N=5为例：例：表示第五、第六个周期的一次移表示第五、第六

14、个周期的一次移动平均平均值，依次依次类推。若移推。若移动平均的周期平均的周期为N，则可得到可得到计算移算移动平均平均值的一般公式的一般公式：其中，其中，表示第表示第t期的一次移期的一次移动平均平均值可见，移动平均法实际上是对于某一期数据，可见，移动平均法实际上是对于某一期数据，取前取前N N个数据进行平均，个数据进行平均，N N个数权数相同，而其它数个数权数相同，而其它数据的权这样，经过移动平均，将消除数据列中异常据的权这样，经过移动平均，将消除数据列中异常的因素，对数据进行修匀。一般情况下，如果数据的因素，对数据进行修匀。一般情况下，如果数据没有明显的周期变化和趋势变化，可用第没有明显的周

15、期变化和趋势变化，可用第t t期的一期的一次移动平均值作为次移动平均值作为t+1t+1期的预测值，即期的预测值，即其一般公式其一般公式为表表1 1中的的第一列和第二列，即是原始数据与中的的第一列和第二列，即是原始数据与一次移动平均值的对比。始取一次移动平均值的对比。始取N=3N=3的的3 3期移动平均，期移动平均，则第三期数据的移动值为则第三期数据的移动值为5766.335766.33，是，是l l由（由（560056005796579659305930）/3/3得到的。如用于预测，它可以作为得到的。如用于预测，它可以作为第第4 4期的预测值。在一次移动平均值的基础上，应期的预测值。在一次移

16、动平均值的基础上，应用移动平均的原理，还可以进行二次甚至多次的移用移动平均的原理，还可以进行二次甚至多次的移动平均，二次移动平均，就是以一项移动平均值为动平均，二次移动平均，就是以一项移动平均值为原始数据，再进行一次移动平均，如以原始数据，再进行一次移动平均，如以N=5N=5为例：为例：其公式为其公式为其公式为其公式为式中：式中：表示第表示第9期的二次移期的二次移动平均平均值，其一般公式其一般公式为二次移动平均使原始数据得到了进一步修匀，二次移动平均使原始数据得到了进一步修匀，使其显现线性趋势。表使其显现线性趋势。表1 1中的第三列数据为中的第三列数据为N=3N=3的二的二次移动平均值。次

17、移动平均值。移动平均值移动平均值表（表（1）式中：式中：-预测超前期数超前期数通通过查表（多表（多项式模型参数估算公式）可知：式模型参数估算公式）可知：对于上表中的数据，如以于上表中的数据，如以11期数据期数据预测12期期值，当取当取N=3时，则有：有：在二次移动平均值的基础上，可建立线性模型：在二次移动平均值的基础上，可建立线性模型：预测方程为预测方程为使用移动平均法，最重要的是移动周期使用移动平均法，最重要的是移动周期N N的选的选择。因为择。因为式中：式中：移移动平均平均值方差方差原始数据点方差原始数据点方差N 数据点数数据点数也就是说，移动平均修匀后的方差，随着也就

18、是说，移动平均修匀后的方差，随着N的加大而减的加大而减少。也就是少。也就是N越大，对原始数据修匀能力越强。下表数据可越大，对原始数据修匀能力越强。下表数据可清楚反映这一规律。清楚反映这一规律。（某日用品电器销售额的移动平均预测）表（某日用品电器销售额的移动平均预测）表（2）然而修匀能力与对外界变化的反映速度是互相然而修匀能力与对外界变化的反映速度是互相矛盾的，两者不能兼得。因此，对于矛盾的，两者不能兼得。因此，对于N N值一般应视值一般应视具体情况，采用折衷办法确定。根据过程的实际发具体情况，采用折衷办法确定。根据过程的实际发展趋势，展趋势，N N值大体有如下四种选择方法：值大体有如下四种选

19、择方法：（1）水平式水平式也就是趋势保持不变，移动平均值是无编差也就是趋势保持不变，移动平均值是无编差的，的，M值与值与N值无关。值无关。（2）脉冲式脉冲式趋势仅在某一段时间突然增加或减少，随后趋势仅在某一段时间突然增加或减少，随后又保持不变，又保持不变，N取得越大，取得越大，M的误差越小，因此的误差越小，因此N应取得较应取得较大些。大些。（3）阶梯式阶梯式趋势仅在开始一段时间保持不变，然后增加趋势仅在开始一段时间保持不变，然后增加或减少到一个新的水平后又保持不变，或减少到一个新的水平后又保持不变，N取得越小，取得越小，M的误的误差越小，因此差越小，因此N应取得较小。应取得较小。（4）

20、斜坡式斜坡式趋势周期的递增或递减，趋势周期的递增或递减，M总是比实总是比实际趋向落后，因此际趋向落后，因此N应取得越小越好。应取得越小越好。一般情况下，如欲加大原始数据的修句力度，一般情况下，如欲加大原始数据的修句力度，则则N宜取大些，如果希望加大对外界变化的反映力宜取大些，如果希望加大对外界变化的反映力度，刨度，刨N宜取小些。宜取小些。N的取值范围一般为的取值范围一般为320。例例我国我国19801990年工业劳动人数见表，用二次年工业劳动人数见表，用二次移动平均数法预测移动平均数法预测19911994年的劳动人数。年的劳动人数。19801990年我国工业劳动人数（万人）（表年我国工业

21、劳动人数（万人）（表3）首先，选择移动平均周期首先，选择移动平均周期N。本例中数据趋势。本例中数据趋势较明显，呈直线趋势，为尽量反映近期变化动向，较明显，呈直线趋势，为尽量反映近期变化动向，可取可取N=3。利用移动平均公式，首先计算一次移动。利用移动平均公式，首先计算一次移动平均数：平均数：在此基础上再计算二次移动平均数：在此基础上再计算二次移动平均数：计算结果见（表）。根据表（计算结果见（表）。根据表（3）的数据可建）的数据可建立线性趋势模型：立线性趋势模型：前已前已计算得：算得：则：由此得由此得19911994年劳动人数分别为年劳动人数分别为8338.7，8638.2，8937

22、.7，和，和9236.2万人。万人。（二）（二）指数平滑模型指数平滑模型在时间序列预测过程中，一般来说历史数据对在时间序列预测过程中，一般来说历史数据对未来发展的影响是不等价的，数据由近及远对未来未来发展的影响是不等价的，数据由近及远对未来的影响价值递减。如果这种递减遵循指数规律，并的影响价值递减。如果这种递减遵循指数规律，并以此进行预测，则可采用指数平滑法。指数平滑法以此进行预测，则可采用指数平滑法。指数平滑法比移动平均法需要的数据量少，计算更为方便。比移动平均法需要的数据量少，计算更为方便。一次指数平滑公式为一次指数平滑公式为其中其中 t期数据的指数平滑期数据的指数平滑值，a 平滑常数，平滑常数，0a1, 现期数据期数据值。对上式递推展开则得依此类推可得一次指数平滑的一般公式为上式表明，数据列上式表明，数据列的权数分别是的权数分别是a，a(1-a)，即离即离t时刻越刻越远的数据，的数据，权数越小，而且数越小，而且权数的数的变化呈指数几何化呈指数几何级数。数。用一次指数平滑法进行预测时，将用一次指数平滑法进行预测时，将t期的平滑期的平滑值作为值作为t+1期的预测值，即期的预测值，即

展开阅读全文

预测模型数据处理方法分解

最新文档