智能控制第二版教学课件 ppt 作者李少远王景成 Chapter 8

资源描述

《智能控制第二版教学课件 ppt 作者李少远王景成 Chapter 8》由会员分享，可在线阅读，更多相关《智能控制第二版教学课件 ppt 作者李少远王景成 Chapter 8（40页珍藏版）》请在金锄头文库上搜索。

1、第八章,控制系统数据处理的智能方法,8.1 数据挖掘与信息处理的基本概念,数据挖掘概念：数据挖掘就是从大量的数据中提取或挖掘知识。信息处理概念：数据挖掘可以看作是信息处理的一个工具。信息处理是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取出隐含在其中的、人们事先不知道的、但又有潜在价值的信息和知识的过程。,8.2 基于智能技术的控制系统数据挖掘,数据挖掘中常用技术：在数据挖掘中，常用到的技术有：神经网络(NN)技术、决策树技术、遗传算法等。遗传算法上章已经介绍过。下面介绍一下神经网络和决策树。,1.神经网络,神经网络常用于处理两类问题：分类和回归。在结构上，可以把一个神经网络

2、划分为输入层、输出层和隐含层。输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量，可有多个。隐含层的层数和每层节点的个数决定了神经网络的复杂度。,1. 神经网络,每个连接对应一个权重，节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到，把这个函数称为活动函数或挤压函数。神经网络的每个节点都可表示成预测变量（节点1、2）的值或值的组合（节点36）。,1. 神经网络,调整节点间连接的权重就是在建立（也称训练）神经网络时要做的工作。最早的也是最基本的权重调整方法是BP算法，现在较新的有变化坡度法、类牛顿法、Levenberg-Marquardt

3、法和遗传算法等。无论采用哪种训练方法，都需要有一些参数来控制训练的过程，如防止训练过度和控制训练的速度。决定神经网络拓扑结构（或体系结构）的是隐含层及其所含节点的个数，以及节点之间的连接方式。,1. 神经网络,在诸多类型的神经网络中，最常用的是前向传播式神经网络。下面详细讨论一下，为讨论方便假定只含有一层隐含节点。其过程如下：（1）前向传播：数据从输入到输出的过程是一个从前向后的传播过程，后一节点的值通过它前面相连的节点传过来，然后把值按照各个连接权重的大小加权输入活动函数再得到新的值，进一步传播到下一个节点。（2）回馈：当节点的输出值与预期的值不同，也就是发生错误时，神经网络就要“学习

4、”。学习的方法是采用惩罚的方法。对训练集中的每一条记录都要重复这个步骤，用前向传播得到输出值，如果发生错误，则用回馈法进行学习。,1. 神经网络,训练过度：神经网络训练时间太长的话，得到的模型对训练集会有很高的准确率，而一旦离开训练集应用到其他数据，很可能准确度急剧下降。为了防止这种训练过度的情况，必须知道在什么时候要停止训练。,1. 神经网络,训练过度：神经网络训练时间太长的话，得到的模型对训练集会有很高的准确率，而一旦离开训练集应用到其他数据，很可能准确度急剧下降。为了防止这种训练过度的情况，必须知道在什么时候要停止训练。,2. 决策树,决策树提供了一种展示类似在什么条件下会得到

5、什么值这类规则的方法。比如，在贷款申请中，要对申请的风险大小做出判断，下图便是为了解决这个问题而建立的一棵决策树，从中可以看到决策树的基本组成部分：决策节点、分支和叶子。,2. 决策树,决策树中最上面的节点称为根节点，是整个决策树的开始。每个分支要么是一个新的决策节点，要么是树的结尾，称为叶子。在沿着决策树从上到下遍历的过程中，在每个节点都会遇到一个问题，对每个节点上问题的不同回答导致不同的分支，最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程。,2. 决策树,本例中根节点是“收入￥40,000”，对此问题的不同回答产生了“是”和“否”两个分支。 “年收入￥40,000”和“高

6、负债”的用户被认为是“高风险”，同时“收入5年”的申请，则被认为“低风险”而建议贷款。,2. 决策树,建立一颗决策树可能只要对数据库进行几遍扫描之后就能完成，这也意味着需要的计算资源较少，而且可以很容易地处理包含很多预测变量的情况，因此决策树模型可以建立得很快，并适合应用到大量的数据上。对最终用于分析的决策树来说，在建立过程中让其生长得太“枝繁叶茂”是没有必要的，这样既降低了树的可理解性和可用性，同时也使决策树本身对历史数据的依赖性增大，因此需要有一种方法能在适当的时候停止树的生长。常用的方法是设定决策树的最大高度（层数）来限制树的生长。,8.2.2 数据挖掘的功能特性,数据挖掘所涉及的学科

7、领域和方法很多，以下介绍了四种常见的发现任务。（1）数据总结（2）分类（3）聚集（4）关联规则,8.2.2 数据挖掘的功能特性,1聚集聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显，而同一个群之间的数据尽量相似。 2分类数据分类是一个两步的过程。第一步，建立一个模型，描述预定的数据类集或概念集。通过对由属性描述的数据项的分析，构造模型。第二步，使用模型进行分类。,8.2.2 数据挖掘的功能特性,3挖掘关联规则关联规则是寻找在同一个事件中出现的不同项的相关性，可记为A=B，A称为前提和左部(LHS)，B称为后续或右部(RHS)。一般用两个参数描述关联规则的属性

8、：（1）可信度(Confidence)：可信度即是“值得信赖性”。可信度（A B）=包含A和B 的元组数/包含A的元组数，即在出现A的事务集中，项集B也同时出现的概率。（2）支持度(Support) 支持度（AB）=包含A和B的元组数/元组总数。支持度描述了A和B这两个项集在所有事务中同时出现的概率。,8.2.2 数据挖掘的功能特性,关联规则的种类：基于规则中处理变量的类型，关联规则可以分为布尔型和数值型。基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。基于规则中涉及到的数据的维数，关联规则可分为单维的和多维的。,8.2.2 数据挖掘的功能特性,关联规则挖掘的经典算法

9、： Apriori算法是一个挖掘数据库中项集间的关联规则的重要方法，其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。 Apriori算法的基本思想是，首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。其中将所有支持度大于最小支持度的项集称为频繁项集，或简称项集。而同时满足最小支持度阈值和最小可信度阈值的规则称为强规则。,8.2.2 数据挖掘的功能特性,频繁项集的性质是，频繁项集的所有非空子集都必须也是频繁的。根据这个性质，分析如何由L(k-1)推出Lk。算法分两步完成：

10、 (1) 连接步为了找Lk，通过与自己连接产生候选k项集，该候选项集记为Ck。设L1和L2是L(k-1)中的项集，记号Lij示Li的第j项。如果L11=L21L1k-2=L2K-2 L1k-1 L2k-1，则做L(k-1) L(k-1), 连接条件是两个项的前k-2项相同，连接结果为：L11 L12 L1k-1 L2k-1。（2) 剪枝步联结之后的结果Ck是Lk的超集，它的成员可能是不频繁的，这时就要从扫描数据库确定Ck中每个候选的计数，从而确定Lk。确定Lk可用频繁项集的性质对Ck进行剪枝，把子集不在L(k-1) 中的候选K项从Ck中删除。,8.2.2 数据挖掘的功能特性,提高Ap

11、riori算法有效性的方法： (1) 基于散列技术的方法 (2) 事务压缩 (3) 杂凑 (4) 划分 (5) 选样 (6) 动态项集计数,8.2.2 数据挖掘的功能特性,不产生候选挖掘频繁项集的方法： Apriori算法的缺点是，可能产生大量的候选集。针对Apriori算法的固有缺陷，J.Han等提出了不产生候选挖掘频繁项集的方法FP-树频集算法。采用分而治之的策略，在经过第一遍扫描之后，把数据库中的频集压缩进一棵频繁模式树(FP-tree)，同时依然保留其中的关联信息，随后再将FP-tree分化成一些条件库，每个库和一个长度为1的频集相关，然后再对这些条件库分别进行挖掘。实验表明，FP-

12、树频集算法对不同长度的规则都有很好的适应性，同时在效率上较之Apriori算法有很大的提高。,8.2.3 数据挖掘在控制系统的应用：SAS技术在宝钢的应用,通过对关联规则的挖掘，可以发现某个或某些输入对性能指标的某种联系。通过这种联系可以达到改善控制性能的目的。而且，能自动发现出某些不正常的数据分布，暴露制造和装配操作过程中变化情况和各种因素，从而协助质量工程师很快地注意到问题发生范围和采取改正措施。,8.2.3 数据挖掘在控制系统的应用：SAS技术在宝钢的应用,1智能型的数据挖掘集成工具SAS/EM的介绍 SAS/EM是一种智能型的数据挖掘集成工具，拥有图形化界面、可视化操作。SAS/EM可

13、实现同数据仓库和数据集市、商务智能及报表工具的无缝集成，它内含完整的数据获取工具、数据取样工具、数据筛选工具、数据变量转换工具、数据挖掘数据库、数据挖掘过程以及数据挖掘评价工具。,8.2.3 数据挖掘在控制系统的应用：SAS技术在宝钢的应用,2基于传统统计算法的数据挖掘工具SAS/INSIGHT、SAS/STAT以及SAS/ETS等的介绍 SAS/INSIGHT 是一个可视化数据探索与分析工具，它将统计方法与交互式图形显示融合在一起，提供全新的使用统计分析方法的环境。可以考察单变量的分布，显示多变量数据，用回归分析、方差分析和广义线形模型等方法去建立模型。 SAS/STAT软件包中包含实用数理

14、统计方法，提供多个过程进行不同类型模型与不同特点数据的回归分析，具有多种形式模型化的选择方法，可处理多种复杂数据，并为多种试验设计模型提供方差分析工具。 SAS/ETS提供丰富的计量经济学和时间序列分析方法，用以研究复杂系统和进行预测。它提供方便的模型设定手段与多样的参数估计方法。,8.2.3 数据挖掘在控制系统的应用：SAS技术在宝钢的应用,3在宝钢配矿系统中的应用宝钢在冶炼钢铁的过程中要使用多种矿石原料，且大多靠进口，这使得配矿一直是宝钢努力研究解决的问题。宝钢在配矿上迫切需要解决的问题有如下几点： (1) 选用什么矿石，用怎样的比例混匀，才能保证烧结矿的质量？ (2) 如何评价各种矿

15、石以及它们对烧结矿有怎样的影响？ (3) 如何形成多种配矿方案，以应付各种情况？ (4) 怎样降低配矿成本？,8.2.3 数据挖掘在控制系统的应用：SAS技术在宝钢的应用,3在宝钢配矿系统中的应用为解决上述问题，宝钢采用数据挖掘技术，应用SAS全套的数据挖掘和数据分析软件产品。应用SAS的聚类分析技术解决配矿方案分类和矿石分类的问题应用SAS神经元网络来探索配矿规律，建立配矿模型应用SAS全面的数据分析技术，对配矿方案整体优化，寻求配矿方案中“足够优”的答案,8.3 基于智能技术的控制系统数据校正与数据融合,8.3.1 数据校正目的：消除随机误差和剔除过失误差步骤：（1）变量分类

16、：确定变量的可观/不可观、冗余性等（2）过失误差的检测：辨识过失误差的位置，并进行剔除或补偿（3）参数估计和数据协调：对可观但没有能测量的变量进行参数估计，利用数据协调改善对过程的认识，两者可同时进行。,8.3 基于智能技术的控制系统数据校正与数据融合,1. 过程测量模型过程测量的基本模型可表示为：式中被测变量的测量值被测变量的真实值测量误差约束条件表示为：假设过程处于稳态；测量数据线性无关；线性约束,8.3 基于智能技术的控制系统数据校正与数据融合,2. 数据协调主要目的是消除测量数据中的随机干扰因素，补偿随机误差的影响，使调整后的测量值接近于真值并满足约束方程。针对过程测量模型和等式约束条件，数据协调在测量值的基础上寻求最优估计值的和，使得在满足约束条件的基础上，估计值和测量值的偏差的平方和最小。,8.3 基于智能技术的控制系统数据校正与数据融合,3. 显著误差的检测当存在显著误差时，过程的测量模型可以

展开阅读全文

智能控制 第二版 教学课件 ppt 作者 李少远 王景成 Chapter 8

智能控制第二版教学课件 ppt 作者李少远王景成 Chapter 8