数据挖掘技术及其在钢铁领域应用

资源描述

《数据挖掘技术及其在钢铁领域应用》由会员分享，可在线阅读，更多相关《数据挖掘技术及其在钢铁领域应用（4页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘技术及其在钢铁领域应用摘要：钢铁企业的各层次的信息化、网络化，每天都产生海量的数据。过去由于缺乏恰当的技术，使得包含在这些数据中许多有用的知识难以使用。本文介绍了通过数据挖掘技术，可以充分发现有益于提高钢铁企业经济效益的各种知识，供企业有关人员使用。关键词：数据挖掘、钢铁企业、优化1、引言中国钢铁工业崛起、钢铁工业全球化、钢铁工业集中化和钢铁生产用原料供需平衡态势，被认为是驱动世界钢铁工业巨变的四大因素1。现代信息技术，是支持中国钢铁工业高速发展的技术手段之一，特别是适合于海量数据处理的数据挖掘技术2-14。在钢铁生产工程中，每时每刻都有大量的传感数据通过集散控制系统、计算机网络以各

2、种形式传到数据服务器。这些有用的数据，由于缺乏合适的处理技术而没有充分利用，因此成为制约企业生产效益的技术难点之一。80年代出现的数据挖掘技术，是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程2-14。将先进数据挖掘算法和针对钢铁生产数据挖掘问题领域知识相结合，会给钢铁生产的各环节优化管理提供重要的技术支持。2、钢铁生产过程中的数据特点2.1 钢铁企业信息化钢铁企业信息化主要面对生产自动化控制、生产管理问题。目前人们将它分成5个层次2。第一层为基础自动化：主要完成设备的工艺控制，包括电气控制和仪表控制两部分。第二层为过程控制：主要完成设定计算、生产实绩收集、模型计算/过程优化、

3、班/日报表生成等。第三层为分厂级生产控制：其功能定位为分厂级生产过程控制计算机系统。各生产单元的分厂级生产过程控制计算机系统实现物流跟踪管理、产成品库的三维动态管理、作业计划管理以及第二层生产过程控制系统数据的采集等功能。第三层生产控制计算机与第二层生产过程控制系统的集成构成了钢铁信息系统的基础数据处理平台。第四层为企业EPR管理系统（企业资源计划管理系统）：总厂级生产调度中心系统，将各生产过程管理系统与动力过程控制系统、运输调度控制系统和企业资源计划管理系统进行集成。第五层为企业SCM/CRM/EC/EB/DSS/EIP系统：实现供应链管理、客户关系、电子商务、决策支持、企业信息门户等整个生

4、产环境的优化管理。2.2 钢铁企业生产过程中数据的特征钢铁生产过程是一种极其复杂的大系统，其中各层次信息普遍存在多变量、非线性、高噪音的特征，并且数据量巨大。据统计，在一些现代化工厂，因为缺乏有效的信息处理技术，已有的数据库中9O以上的数据多年无人问津。例如基础自动化层次，某企业中各类传感器每天产生的数据可在TB级。同时钢铁生产机理复杂，影响产品质量的因素相当多，例如原料成分、性能；各种生产工艺条件等。如何从与生产有关的诸多变量中，考查和筛选出作用因子较大的变量，删除影响不大的变量，从而建立出一个维数较低的描述模型，成为多变量数据处理的一大难题。传统的通过建立数学模型进行生产管理和控制优化

5、的方法很难有效地达到目的。非线性是生产过程中数据的又一特征。影响产品质量的各因素，作用的方式、机理等，是复杂的甚至是未知的。这些变量之间的关系，一般都不是线性的。同时，由于各种原因，这些数据可能包含较强的噪声，并且甚至难以判断什么是噪声：影响产品质量的因子太多，并且作用的机理复杂。由于钢铁生产机理的复杂性，目前还有大量的关于生产优化方面的规律和知识还未被人们所认知。在上面提到的五个层次中都需要高效的信息处理技术：这不仅表现在生产过程中存在大量的可控参数，即生产过程中存在极大的、可调的自由度；还表现在显著提高生产管理和控制效率方面，存在着极大的寻优空间。3、数据挖掘技术3.1 数据挖掘的基本含

6、义“数据挖掘”译自英文“Data Mining”，直译就是“数据采矿”。基本意思是通过仔细分析大量数据（通常是不完全的、有噪声的、模糊的和随机的数据）来揭示有意义的新的关系、趋势和模式的过程，即发现隐含在这些数据中的人们事先不知道，但又是潜在有用的信息和知识。通常把这些有用的信息归纳成知识规则、约束，使人便于在更抽象/概括的层次上使用这些数据4-8。人们建立了各种数据库后，被淹没在数据的海洋中，但无法从中获取有用的知识。形象地说：查询是数据库的奴隶，发现才是数据库的主人；数据只为职员服务，不为老板服务!从海量数据中寻找知识/模式的各种方法，就是数据挖掘技术。学术些讲，数据挖掘的任务就是发现

7、隐藏在数据中的模式/知识。常见的模式有两种：描述型模式和预测型模式。描述型模式是对当前数据中存在的事实做规范描述，刻画当前数据的一般特性；预测型模式则是以时间为关键参数，对于时间序列型数据，根据其历史和当前的值来预测其未来的值。更具体些，数据挖掘是要发现如下几种知识/模式：分类模式/知识，通过模型创建和模型使用，按照某些指定的特征把数据分类。聚类模式/知识，将数据项分组成多个类，类之间的数据差别应尽可能大，类内的数据差别应尽可能小。即“最小化类间的相似性，最大化类内的相似性”。回归模式/知识，主要用于连续值(例如使用回归方法)的预测，许多问题可以用线性回归解决。对于许多非线性问题可以通过对变

8、量进行变换，从而转换为线性问题来解决。关联模式/知识，是数据项之间存在的关联规则，是在同一事件中出现的不同项之间的相关性。序列模式/知识，根据历史的和当前的数据推测未来数据，即描述基于时间或其他序列的经常发生的规律或趋势，并对其建模。偏差模式/知识，是对差异和极端特例的描述，如聚类外的离群值。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃，然而在一些应用中，罕见的数据可能比正常的数据更有用。所有这些模式/知识都可以在不同的概念层次上被发现，随着概念树的提升，从微观到中观再到宏观，以满足不同用户、不同层次决策的需要。下面的故事可以帮助我们理解“数据”、“知识”和“数据挖掘”的关系。第谷从15

9、76年开始进行了20多年的天文观测，积累了大量的“数据”。开普勒利用第谷多年积累的观测资料，仔细分析研究（“数据挖掘”），发现了行星沿椭圆轨道运行，并且提出行星运动三定律（即开普勒定律）。开普勒第一和第二定律在1609年新天文学一书提出；开普勒第三定律在1619年宇宙谐和论一书中提出。“开普勒定律”就是由数据得到的“知识”。牛顿在1665-1666年提出了引力的平方反比定律（万有引力定律）。这是牛顿对开普勒三定律，以及更多的天文观测数据进行分析、挖掘的结果。这里，第谷的观测是基础数据；开普勒三定律是数据挖掘得到的知识；牛顿的万有引力定律是数据挖掘得到的更高级知识，是对开普勒第三定律的进一步提炼

10、。3.2 数据挖掘简史与数据挖掘这一术语相含义相似的术语还有很多，如数据开采、从数据库中发现知识(KDD)、知识采掘、知识抽取、知识考察、数据融合(Data Fusion)以及决策支持等。该术语于1989年8月在美国底特律召开的第11届国际人工智能联合会议“IJCAI会议-数据库中的知识发现讨论专题”上提出4-5，Fayyad定义为“KDD是从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程”。随后在1991年、1993年和1994年都举行关于数据挖掘的专题讨论会。汇集来自各个领域的研究人员和应用开发者，集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题

11、。随着参与人员的不断增多，KDD国际会议发展成为年会。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论。并且有3O多家软件公司展示了他们的数据挖掘软件产品，不少软件已在北美、欧洲等国得到广泛应用。目前数据挖掘技术在货篮数据(Basket Data)分析、金融风险预测、产品产量、质量分析、分子生物学、基因工程研究、Internet站点访问、模式发现以及信息搜索和分类等许多领域得到了成功的应用。因此，数据挖掘作为一个新兴的多学科交叉应用领域，正在各行各业的决策支持活动扮演着越来越重要的角色。3.3 数据挖掘的常见技术在应用上数据挖掘往往是针对特定的实际问题进行的。

12、有多种方法用于从数据库中发现知识。一些常用的方法有4-8：（1）模糊方法：利用模糊集合论对实际问题进行模糊评判、模糊决策、模糊聚类分析。模糊推理注重的是把握结论的趋势，是近似的而不是精确的结果。模糊集注重描述信息的含糊程度。（2）粗糙集理论：是一种研究不完整、不确定知识和数据的表达、学习和归纳的理论方法，现已成为数据挖掘研究中的最有力工具，也最有发展前途。粗糙集强调数据的不可辨别、不精确和模棱两可。（3）证据理论：是以概率论为主要理论基础的一种用途广泛的不确定性推理模型。采用信任函数作为不确定性度量的手段。它通过对一些事件的概率加以约束来建立信任函数而避开难于获得的概率，满足比概率论更弱的公理

13、系统。当概率值已知时，证据理论就变成了概率论。证据理论的最大特点是能够处理理由不知道引起的不确定性。证据处理的数学模型为：首先确立辨识框架，把对于命题的研究转化为对集合的研究；根据证据建立一个信度的初始分配，即证据处理人员对证据加以分析，确定出证据对每个集合(命题)本身的支持程度；分析前因后果，算出我们对于所有命题的信度。（4）人工神经网络：由多个神经元按照某种方式相互连接形成，靠网络状态对外部输入信息的动态响应来处理信息，网络的信息分布式存储于连接权系数中，使网络具有很强的容错性和鲁棒性。在数据挖掘中，神经网络主要用于获取分类模式。（5）遗传算法：是通过模拟自然界中生物进化机制进行搜索的一种算法。一般经过遗传操作符、后生环境、选择环境来实现进化过程。首先采用某种编码方式将解空间映射到编码空间，每个编码对应问题的一个解，称为染色体或个体。一般通过随机方法确定起始的一群个体，称为种群，在种群中根据适应值或某种竞争机制选择个体，使用各种遗传操作算子产生下一代如此进化下去，直到满足期望的终止条件。（6）归纳学习：是从大量的经验数据中归纳抽取出一般的规则和模式，是一种重要的数据挖掘方法。归纳学习的算法大部分来自于机器学习领域，分类速度快，适合于大数据库的学习。

展开阅读全文