[最新4-28]基于数据挖掘的铁路运输需求预测方法

资源描述

《[最新4-28]基于数据挖掘的铁路运输需求预测方法》由会员分享，可在线阅读，更多相关《[最新4-28]基于数据挖掘的铁路运输需求预测方法（6页珍藏版）》请在金锄头文库上搜索。

1、2022年-2023年建筑工程管理行业文档齐鲁斌创作基于数据挖掘的铁路运输预测方法研究李彦(中铁第四勘察设计院集团有限公司线路站场研究处，湖北武汉 430063)摘要：随着铁路部门信息化建设逐步进行，数据的大量积累使得采用数据挖掘方法对铁路运输需求进行预测成为可能。然而，因为缺乏系统而完整的知识发现方法，数据挖掘方法在铁路决策系统中很少应用。有鉴于此，本文通过系统分析、数据预处理、数据挖掘、知识提取四个阶段，提出了预测铁路运输需求的数据挖掘模型，该模型阐述了如何在铁路运输数据库中进行知识发现的标准化过程。最后案例研究结果表明，本文所提出方法能对铁路运输需求进行准确有效的预测。关键词：铁路需

2、求预测；数据挖掘；知识发现高效的管理离不开周密而详尽的计划，各行各业的国营或私营企业，为了做到有效管理，必需对企业未来运营坏境及其相关因素做出预测。对于铁路管理者而言，预测铁路运输需求的增长状况，发掘出影响某些起讫点之间需求和供给能力的主要因素，是做出正确决策的首要基础，从而搭建必要的设备和人力平台以满足将来的运输情况。同时，无论是铁路管理部门的宏观战略抉择还是站段间的局部业务决策，都需要对铁路站场之间的货物流量关系进行预测，流量关系是铁路业务存在的基础。因此，研究系统性的模型和局部性的程序来定性、定量分析上述流量关系，能为铁路部门提供有效的决策支持。本文尝试建立基于数据挖掘的铁路需求预测标准

3、化方法，从而能够辅助铁路资源的分配和设计。该预测方法能为铁路管理者提供大量短期决策，同时也能为编组、运输和站场容量等长远投资决策提供重要辅助。1 铁路需求预测铁路运输容量大且高效节能，主要适于中长期、远距离运输。相较于公路运输，发生意外、抢劫、盗窃的概率较低，其安全性更高。因此，在世界各地，铁路是一种重要的客运、货运手段。而规划和调控铁路运输活动，需要对铁路运输需求做出准确的预测，现有预测方法已有300多种，归纳起来主要为定性预测和定量预测两种1。其中，定性预测技术，也称为“主观”或“基于标准判断”的技术，主要是通过人力来归纳和推理的方法。定量预测技术，是指通过数学方法对历史数据进行计算、分析

4、，找出铁路需求的变化规律和特征，从而对未来数据作出合理的判断。常见的铁路需求定量预测方法主要有：指数平滑法、回归分析法、弹性系数法、灰色系统法、模糊逻辑、人造神经网络（ANN）等2-5。使用定量预测方法必须满足以下条件：（1）有真实可靠的历史信息；（2）信息可以被数字化且便于管理；（3）数据满足“连贯性假定”法则，即适用于过去的假定在某种程度上同样适用于未来的情况。2 数据挖掘伴随着信息技术的不断进步，数据库中的知识发现（KDD，Knowledge Discovery and Data Mining）技术被广泛应用于科学、工业和商业等领域。“数据挖掘”，作为数据库中知识发现特定阶段的通俗表达，

5、在广泛参考各相关领域研究成果的基础上，于1989年召开的第11届国际人工智能联合学术会议(IJCAI)上首次提出了KDD的概念（从数据库获取知识），并得到了正式承认。当今最流行的定义是由Fayyad于1996年提出的：“KDD的过程，是从大量数据中提取出可信的、新颖的、有效的并能被人理解的知识的高级处理过程。”数据挖掘的任务主要有关联分析、聚类、分类、预测、时序模式等6。（1）关联分析（association analysis）。关联规则挖掘是由Rakesh Apwal等人首先提出，关联是指两个或两个以上变量的取值之间存在某种规律性。数据关联是数据库中存在的一类重要的、可被发现的知识，而关联分

6、析的目的就在于找出数据库中隐藏的关联网。一般用支持度和信任度两个阀值来度量关联规则的重要性，通过引入兴趣度、相关性等参数，使得所挖掘的规则更符合实际需求。常见算法有：Apriori算法及其改进、FP-growth算法等。（2）聚类(clustering)。是指把数据按照相似性原则划分为若干类别，同一类中的数据彼此相似，不同类中的数据差异显著。聚类分析是建立宏观概念，发现数据分布模式及数据属性之间的相互关系的基础上。聚类的算法大体可分为以下几类：划分法、层次法、基于密度法、基于网格法和基于模型法等。常见的聚类算法有：k-means、k最近邻、k-modoid、DBSCAN、BIRCH、CURE、

7、k-prototypes、CLARANS、CLIQUE等。（3）分类(classification)。即找出一个类别的概念描述，该描述能代表这类数据的整体信息（内涵描述）并用其构造模型，一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则，可被用于规则描述和预测，算法主要包括，决策树(decision tree)法、ID3法、SLIQ法、Bayes分类法，神经网络和支持向量机等。（4）预测(predication)。是指利用历史数据找出变化规律，建立模型，并由此对未来数据的种类及特征进行预测。预测关心的是精度和不确定性，通常用预测方差来度量。用于预测的方法主要有线性回归

8、、非线性回归、神经网络、支持向量回归机等方法。（5）时序模式(time-series pattern)。是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样，它也是利用己知的数据预测未来值，其区别在于变量所处的时间不同。现代社会中，通过对历史事件发生规律的探求，进而预测未来演变趋势的运用越来越多，所以深入开展有关数据挖掘的研究是十分必要的。3 铁路需求预测的数据挖掘方法3.1 数据挖掘方法总体思路考虑到数据库中知识发现的固有复杂性，该方法以行为计划为基础。即根据每个KDD应用目标，知识发现的每个分步骤在执行前先指定相应的计划。本文的知识发现方法分为系统分析、数据预处理、数据挖掘、知识提取

9、四个阶段（图1），其中每个阶段都可以为前一阶段提供反馈，也就是说后续阶段的结果是前面阶段调整和优化的依据。本文中所采的数据挖掘方法是基于交互性、反复迭代的过程，即根据每步的结果，KDD分析师可以返回至任何一步搜索和调整前面的过程从而得到更优的结果。为了做到这一点，本方法需要对通过详细的文档记录每个实施方案并对其结果进行估计。为了达到该目的，推荐采用基于软件成熟度模型（CMM）中的支持基线推理的文档模型，来辅助完成不同情况下的程式选择，并且上述方法同样适用于整个项目的文档管理。并且这个跌代过程的向优收敛性是由以下两方面保证的：其一，由KDD分析师基于目标对所选用算法、数据甚至数据挖掘模型和过程进

10、行调整和优化；其二，基于目标的算法本身的自优化。下面对上述的四个过程分别予以阐述。图1 知识发现过程3.2 数据挖掘方法不同阶段（1）系统分析。这是本方法第一阶段，主要任务是定义用于KDD过程中的问题类型和应用范畴。在该过程中，数据挖掘参与者、问题描述、要解决和改善的目标和每个过程的目标及其改进都将被予以确定。如图2中所示，期限表示数据挖掘方法应用的截止时间。而图中循环箭头表示，其中每一个步骤的执行结果都将作为反馈对之前的方法和结果的调整提供有效的参照。例如，在确定挖掘目标的时候如果十分困难，则KDD挖掘师应、领域专家以及决策者讨论前一阶段对于问题的描述是否清楚等。图2 系统分析阶段（2）数据

11、预处理。该阶段包括为数据挖掘获取、组织、处理和预备数据等过程，是数据挖掘过程中最基本的阶段。它包括对应于数据挖掘算法的错误数据校正，数据格式的调整，如图3所示。在这个过程中，一般数据清洗选择和清洗过程是必须的过程，而其他过程是根据问题和数据特点的可选过程。图3 数据预处理阶段（3）数据挖掘。在通过系统分析确定挖掘目标，并对数据按照要求进行预处理后，需要选择适合的数据挖掘技术以保证所获得结果的精准性。数据挖掘是本方法的主要阶段，其主要作用是从数据中发现新颖、有效的知识。因此，很多学者认为数据挖掘和KDD过程是相互结合的，甚至是同义的。该阶段主要操作如图4所示。从本部分的循环可以看出，数据挖掘工具

12、和方法的选择是这部分的核心所在。图4 数据挖掘阶段（4）知识提取。该阶段包括对前期数据挖掘得出知识模型的简化和表达。通常，该过程由KDD专家和领域专家来评价所得结果，并对将来的决策提供一定的辅助。这也是本方法的最后阶段操作如图5所示。图5 知识提取阶段4 案例研究方法应用针对本文所介绍方法，选取湖北省娄邵线年货运量较大的五个站的发货量数据如表1所示，以评价该方法在铁路部门运输需求预测中的有效性。由于本文方法采用迭代式，所以当应用技术不同时，某些操作会被多次重复（例如算法中参数的多次迭代优化以及方法的测试及选择）。根据分析预测目标，首先确定KDD过程的参与者娄底站货运部，并随之提出相应车站在决策

13、方面所面临的问题即不能准确的预测未来的货运需求；然后限定目标即预测娄邵线未来的货运需求，给出预测模型的期望定义为误差幅度不超过20%，其中误差幅度是指平均绝对百分误差（MAPE）及平均绝对误差（MAD）。本文数据预处理阶段为：选择20002004年的历史数据为输入（有效数字保留1为小数，单位为万吨），以2005年的数据为目标构造回归模型，并用2006年数据为验证，以选择最优的算法。其目的在于：将来可以使用选择的最优算法对2007、2008年的年货运量进行预测。而对于数据挖掘阶段，数据挖掘工具选用Matlab软件，挖掘方法选用线性回归模型、BP神经网络及支持向量回归机（使用由SteveGunn提

14、供的SVM工具箱），其中BP神经网络使用三层结构，隐结点选择为10个，其变换函数选取tansig型函数。对于支持向量回归机，核函数选择RBF函数，多次迭代后选择参数sigma为1000和C为100。预测结果如表1所示，其中第八列06表示06年的实际货运量，第九、十、十一列分别为线性回归、BP神经网络及支持向量回归机方法时06年的预测值。预测结果的MAPE及MAD如表2所示，由此可知BP神经网络的预测效果最为理想。知识提取阶段及原因分析：货运数据其线性程度比较差，对于支持向量回归机因为其输入参数较少所以精确度也不高，而BP神经网络十分适合非线性回归所以具有较好的效果。最后值得指出的是，案例研究的

15、目标不仅是对各种技术性能的比较，更是文章所述方法的采用。此外，由于数据选择和准备时间及使用技术的独立性，数据预处理阶段在整个KDD过程中最为耗时，约占总间的70%。表1. 娄邵线各站历年完成客货运量及06年预测值对比（单位万吨）站名00010203040506RGBPSVM邵阳北63.14137.23954.540.548.226.340.553.9邵东57.845.835.543.665.958.754.052.358.778.1双板桥45.640.125.73135.844.549.439.144.559.3娄底264.8300.7331.5359358454.8505.3453.5454.8603.2表2. 不同预测方法的MAPE及MAD对比方法线性回归支持向量回归机BP神经网络MAPE（%）19.119.911.1MAD（%）34.421.416.955 结论数据挖掘方法在各个领域已得到快速发展，但该方法在铁路行业的应用却较为少见，体系化、标准化的可应用于铁路需求预测层面的数据挖掘方法，就更为少见。本文提出的确定标准化模型，包括严格的、系统化方法，具有标准化形式和分阶段特性，经过案例研究证明，该方法能有效预测铁路运输需求，为我国铁路运输需求预测研究提供了新的思路。

展开阅读全文