防冻液工程项目数据分析与挖掘

资源描述

《防冻液工程项目数据分析与挖掘》由会员分享，可在线阅读，更多相关《防冻液工程项目数据分析与挖掘（16页珍藏版）》请在金锄头文库上搜索。

1、防冻液工程项目数据分析与挖掘一、项目背景分析我国近年来随着汽车市场的迅猛发展,为汽车配套的各种材料消耗品也逐年增加,品质也在不断提高。其中车用防冻液得到广泛的应用,防冻液在低温时起到了很好的水箱防冻功能,同时还有耐腐蚀、防沸等功能。车用防冻液的市场总需求将随着汽车保有量的增加而增加,而目前市场总体处于供大于求的状态,市场竞争激烈。防冻液由水、防冻剂和各种添加剂组成。通常防冻液按照防冻剂的不同进行分类,分为乙二醇防冻液和丙二醇防冻液。其中乙二醇具有优异的降低冰点的效果,同时具有沸点高、黏度适中、成本较低等特点,是目前应用最为广泛的防冻剂。添加剂主要由缓蚀剂、防垢剂、消泡剂和着色剂等组成。目前市

2、场上的防冻液产品可谓良莠不齐,一些生产厂家为了降低成本不惜以牺牲品质为代价。拿乙二醇型防冻液来说,合格的产品原料是去离子水、乙二醇和添加剂,而一些厂家为了降低成本,一是不采用去离子水、不加添加剂,这必然会造成对水箱和冷却系统金属件的腐蚀,导致水箱等机件的过早损坏。二是通过添加甲醇等其它低价原料来降低冰点,添加甲醇的防冻液由于甲醇有较强的挥发性,使用一段时间后冰点会达不到要求,将对冷却系统造成损坏。这些低质的防冻液以低价入市,但是其对车辆造成的损坏让很多消费者大受其害。二、层次分析法的基本步骤当一个决策者在对问题进行分析时，首先要将分析对象的因素建立起彼此相关因素的层次系统结构，这种层次结构可

3、以清晰地反映出相关因素（目标、准则、对象）的彼此关系，使得决策者能够把复杂的问题顺理成章，然后进行逐一比较、判断，从中选出最优的方案。运用层次分析法大体上分成四个步骤：建立层次结构模型；构造比较判别矩阵；单准则下层次排序及其一致性检验；层次总排序及其一致性检验。（一）建立层次结构模型层次分析法先将决策的目标、考虑的因素（评价准则）和决策对象（行动方案）按它们之间的相互关系分为最高层、中间层和最低层，其中最高层称为目标层，这一层中只有一个元素，就是该问题要达到的目标或理想的结果；中间层为准则层，层中的元素为实现目标所采用的措施、政策、准则等，准则层中可以不止一层，可以根据问题规模的大小和复杂程度

4、，分为准则层、子准则层；最低层为方案层，这一层包括了实现目标可供选择的方案。据此绘出层次结构模型图，模型中，目标、评价准则和行动方案处于不同的层次，彼此之间关系用线段表示，评价准则可细分多层。在层次结构模型中，各层均由若干因素构成，当某个层次包含因素较多时，可将该层次进一步划分成若干子层次。通常应使各层次中的各因素支配的元素一般不超过9个，这是因为支配元素过多会给两两比较带来困难。一个好的层次结构模型对解决问题极为重要，因此，在构建层次结构模型时，应注意以下四点：1自上至下顺序地存在支配关系，用直线段表示上一层次因素与下一层次因素之间的关系，同一层次及不相邻元素之间不存在支配关系；2整个结构不

5、受层次限制；3最高层只有一个元素，每个元素所支配元素一般不超过9个，元素过多可进一步分层；4对某些具有子层次结构可引入虚元素，使之成为典型层次结构模型。（二）构造比较判别矩阵层次结构建立后，评价者根据自己的知识、经验和判断，从第一个准则层开始向下，逐步确定各层不同因素相对于上一层因素的重要性权数。层次分析法在确定各层不同因素相对于上一层各因素的重要性权数时，通常使用两两比较的方法。（三）单准则下层次排序及其一致性检验层次分析法的信息基础是比较判断矩阵。由于每个准则都支配下一层若干个因素，这样对于每一个准则及它所支配的因素都可以得到一个比较判断矩阵。因此，根据比较判断矩阵如何求出各因素对于准则的

6、相对排序权重的过程称为单准则下的排序。计算权重的方法有多种，其中和法和根法是比较成熟并得到广泛应用的方法。1和法2根法3判断矩阵一致性检验由于客观事物的复杂性，会使我们的判断带有主观性和片面性，完全要求每次比较判断的思维标准一致是不大可能的。事实上，在构建比较判断矩阵时，我们虽然不要求判断具有一致性，但一个混乱的，经不起推敲的比较判断矩阵有可能导致决策的失误，所以我们希望在判断时应大体上的致。而上述计算权重方法，当判断矩阵过于偏离一致性时，其可靠程度也就值得怀疑了，故对于每一层次作单准则排序时，均需要作一致性的检验。（四）层次总排序及其一致性检验1层次总排序计算同一层次中所有元素对于最高层（总

7、目标）的相对重要性标度（又称排序权重向量）称为层次总排序。2总排序一致性检验人们在对各层元素作比较时，尽管每一层中所用的比较尺度基本一致，但各层之间仍可能有所差异，而这种差异将随着层次总排序的逐渐计算而累加起来，因此需要从模型的总体上来检验这种差异尺度的累积是否显著，检验的过程称为层次总排序的一致性检验。三、时间数据分析方法（一）时间数据时间数据也称时间序列（Timeseries）或动态数据，是按时序排列的一组来自同一现象的观察值。时间序列可按日、月、季度、年等收集，有些呈现很强的季节性，建模时应给予反映。气象、水文、生态环境、经济及社会活动都能观察到周期性时间序列。实际观测并记录的时间序列

8、，实际上是随机过程的样本，即，在产生时间序列的实际过程的每一时点上，人们看到的只是该时点随机变量的样本，并不能观察到母体。时间序列可分为平稳和非平稳序列，还可以分成线性和非线性时间序列。（二）时间序列分析1概述时间序列分析是根据随机过程理论，研究时间序列的统计规律。时间序列分析广泛应用于信息压缩、利用卫星照片识别地球资源、石油勘探、经营管理、预测（气象、水文、地震、地下水位、农作物病虫灾害）、控制（环境污染、生态平衡）（天文学和海洋学）等方面。时间序列预测的基本依据是：（1）客观过程是连续的，有惯性，现在是过去的继续，过去的信息会传递到现在与未来，利用过去的数据或信息能推测未来。（2）偶然因素

9、会影响到客观过程，使其行为与模式有随机性。预测要利用时间序列各时点随机量的相关关系。时间序列的趋势与波动称为“模式”，时间序列分析首要要识别其模式，然后用适当的曲线拟合。拟合模式的各种参数根据按“最优预测”原则估算出的时间序列数字特征（期望值、方差、协方差、自相关函数）等确定。2.时间序列成分时间序列常含有4种成分：趋势、季节变动、规则波动和不规则波动。所谓趋势，是长期持续向上或持续向下的倾向。季节变动，是实际过程受气候、市场状况、节假日或风俗习惯等影响而呈现的周期性波动。规则波动，是周期不等的变动，呈涨落交替之状。波动的周期可能很长，但与趋势不同。不规则波动，是时间序列除去趋势、季节变动和周

10、期波动之后的波动。不规则波动总是夹杂在时间序列中，致使时间序列产生一种波浪形或震荡式的变动。时间序列经常是各种周期成分的叠加，例如地震或人工地震波的记录。这样的序列要做频域分析。频域分析确定时间序列各周期成分称为“谱”或“功率谱”的能量分布形态。频域分析又称谱分析。谱分析的重要内容就是通过序列的周期图（）的极值点寻找各种分量的周期。3时间序列建模时间序列建模一般有如下几个步骤（1）取得时间序列样本。（2）将样本点画成图，进行相关分析。时间序列图形可显示出变化趋势和周期，并发现离群点和转折点。若离群点确实为观测值，建模时应加以考虑，若非，应加以调整。转折点指时间序列趋势突变的点。如果发现转折拐点

11、，则在建模时须分段用不同的模型拟合时间序列，例如用门限回归模型。（3）模式识别与拟合。时间序列模式众多。小样本可用趋势模型、季节模型加上随机误差拟合。对于样本容量（即观测值个数）大于50的平稳时间序列，可用ARMA（自回归移动平均）模型拟合。非平稳时间序列可经差分化为平稳时间序列，再用ARMA模型拟合。（4）预测未来。利用建成的模型预测时间序列未来值。4时间序列常用模型（1）ARMA模型（2）回归模型四、大数据系统和数据挖掘技术（一）数据挖掘概述1大数据大数据是指超过既往数据库系统规模、传输速度和处理能力，或者既往数据库系统结构无法容纳的数据。大数据常以万亿或EB衡量，且种类多、实时性强，蕴

12、藏的商业价值大。很多现有的新或旧的信息基础设施、工具和技术可用来开发和利用大数据中蕴藏的价值。大数据有各种各样的来源：传感器、气候信息、公开的信息、如杂志、报纸、文章、买卖记录、网络日志、病历、事监控、视频和图像档案，及大型电子商务。大数据是数据挖掘产生与生存发展的土壤。如今数据每五年翻一番，面对前所未有的海量数据，为了从中发现有用的信息必须进行数据挖掘。此外，计算机存储、处理大量数据，以及运算的能力大为增强，为数据挖掘创造了条件，使其成为一门独特的学科和技术。2数据挖掘与数据分析的区别数据挖掘与数据分析的主要区别在于：（1）处理工作量。数据分析的数据量可能并不大，而数据挖掘的数据量极大。（2

13、）制约条件。数据分析是从某些假设出发，建立方程或模型，而数据挖掘不作假设，可以自动建立方程。（3）处理对象。数据分析往往是针对数字型数据，而数据挖掘对象类型繁多，例如图像、声音、文本等。（4）处理结果。数据分析可以解释结果的含义；数据挖掘的结果不易解释，着眼于预测未来，并提出决策建议。想要从数据中发现规律（即认知），往往需将数据分析和数据挖掘结合起来。（二）数据挖掘步骤按挖掘对象，数据挖掘分为数据库与数据仓库挖掘和网络挖掘两种，各自步骤分述如下。1数据库与数据仓库挖掘数据挖掘一般有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘、模式评估和知识表示8个步骤。（1）信息收集。从确定的挖

14、掘对象中提取特征，然后选择合适的收集方法，将收集到的信息存入数据库。对于海量数据，必须选择合适的数据仓库。（2）数据集成。把来源、格式、特点、性质不同的数据按逻辑或物理属性加以编排，以便以后使用。（3）数据规约。多数数据挖掘算法耗时很长，商业数据往往较多，数据挖掘更耗时间。数据规约就是简化已有可用数据集的表示，规约后数量大减，但仍能保持原数据的完整性，对规约数据的挖掘结果，与对规约前数据的挖掘结果相同或几乎相同。（4）数据清理。有些数据不完整（属性缺少属性值）、含噪声（属性值错误），不一致（同一信息有多种表示），需要清理，使其完整、正确、一致后存入数据仓库。（5）数据变换。将数据变换成适合数据

15、挖掘的形式。实数型数据，可将其分层和离散化。（6）数据挖掘。根据数据格式、属性与特点，选择合适的处理工具，例如统计方法、事例推理、决策树、规则推理、模糊集，甚至神经网络，取得有用的信息。（7）模式评估。由行业专家核实数据挖掘结果是否合理、是否可用。（8）知识表示。将数据挖掘得到的信息以可视方式交给用户，或作为新的知识存人知识库，供其他应用程序使用。并非所有的数据挖掘都要走上述的每一步。若只有一个数据源，则可以省略数据集成。数据规约、数据清理、数据变换合称数据预处理。数据挖掘至少60%的费用要花在信息收集阶段，而至少60%以上的精力和时间要花在数据预处理上。数据挖掘是一个反复多次的过程，若一次未

16、满足要求或未得到有用结果，则需回到前面，经过调整后重新开始。2，网络挖掘网络挖掘可分为网络用户行为挖掘与网络信息挖掘。前者基本不在工程咨询人员关心之列。后者可理解为“从WWW中发现和分析有用的信息”。网络信息挖掘是在已知数据样本的基础上，通过归纳学习、机器学习、统计分析等发现挖掘对象间的内在关系与特性，进而在网络中提取用户感兴趣的信息，获得更高层次的知识和规律。网络信息挖掘沿用了Robot，全文检索、人工智能的模式识别、神经网络等技术。现在的搜索引擎使用了这些技术，能够在网页或网站数据库中为用户搜寻有用信息。网络信息挖掘具体步骤如下：（1）确立目标样本。由用户选择目标文本，提取特征信息。（2）提

展开阅读全文

防冻液工程项目数据分析与挖掘

最新文档