基于聚类分析的间歇过程时段划分的MPCA建模的故障分析

资源描述

《基于聚类分析的间歇过程时段划分的MPCA建模的故障分析》由会员分享，可在线阅读，更多相关《基于聚类分析的间歇过程时段划分的MPCA建模的故障分析（30页珍藏版）》请在金锄头文库上搜索。

1、各专业全套优秀毕业设计图纸基于聚类分析的间歇过程时段划分的MPCA建模的故障分析摘要对于具有过渡特性、多阶段特性的间歇过程的故障检测是非常复杂的。间歇过程最基本的特征就是多阶段，每个阶段操作条件、参数等特性都有一定的差异。由于对于间歇过程的建模和故障诊断都要求对数据进行预处理才能得到有效的检验结果，所以需要找到合适的方法对间歇过程进行阶段划分，才能有效提高建模和故障诊断的准确性。为了实现更加准确地对间歇过程进行阶段划分，最终实现更加精准、有效的故障检测及诊断，降低系统误报率。本文采用一种基于马氏距离的K-means聚类算法，该方法依据基于协方差距离的方法实现对间歇过程的阶段划分，在MATLAB

2、编程环境下，完成基于马氏距离的间歇过程时段划分算法程序的整体设计方案，编写马氏距离实现以及K-means聚类算法的相应程序，完成对间歇过程进行划分的实现；最后通过Pensim青霉素发酵仿真软件获取青霉素发酵过程的间歇过程仿真数据，设计基于多向主元分析（MPCA）模型的故障检测方法，并利用MPCA建模对基于马氏距离的K-means聚类划分的子时段进行故障检测。实验结果表明，在K-means聚类算法对间歇过程进行分段模块，基于马氏距离的K-means聚类方法的分段效果较符合生产实际；在故障检测的效果方面，基于马氏距离的K-means聚类的故障检测准确，误报率低，达到了预期效果。关键词：间歇过程；聚

3、类分析；K-均值；马氏距离目录前言1第1章绪论2第2章基于聚类分析的间歇过程时段划分算法原理3第2.1节聚类分析算法原理32.1.1 聚类分析算法概述32.1.2 K-means聚类分析算法原理42.1.3 马氏距离基本原理52.1.4 马氏距离与欧氏距离的比较5第2.2节基于MPCA的故障检测原理62.2.1基于批次展开的MPCA方法原理62.2.2主元分析方法原理7第2.3节总体方案设计9第3章基于聚类分析间歇过程时段划分算法程序的设计与实现10第3.1节数据获取及预处理模块设计与实现10第3.2节基于K-means的聚类分析算法模块设计与实现12第3.3节基于MPCA的故障检测模块设计与

4、实现15第4章实验与分析18第4.1节基于K-means的聚类分析算法模块的实验与分析184.1.1实验数据获取184.1.2 基于马氏距离的K-means聚类分析算法的实验与分析194.1.4 聚类结果分析19第4.2节基于MPCA的故障检测模块的实验与分析204.2.1 MPCA的数据预处理与建模204.2.2 故障检测结果214.2.3 故障溯源23I前言复杂工业过程往往伴随着很多危险因素，一个环节控制不准确就可能会引起生产运行不稳定、产品质量不可靠等问题，甚至可能造成财产及人身安全的重大事故。所以对生产过程的故障检测、预测、排除等技术的研究近年来一直受到国内外的广泛关注，也成为一个炙手

5、可热的研究热点。随着社会对工业产品高精度、高质量、多品种的需求，小批量的精细生产也成为一个重要的发展趋势。工业化生产更加依赖间歇过程。间歇过程具有多时段和过渡性的特点，导致这类系统通常是非线性、时变、滞后的，并且模型不确定，对这类系统很难建立一个精确的数学模型来对其进行控制和检测，这个问题一直是控制界一个非常具有挑战性的课题之一，因而对间歇过程系统控制问题的研究，具有一定的理论价值和实际应用价值。传统聚类分析方法采用欧氏距离进行计算，即用两点之间的距离的平方和来比较实际操作数据与质心的距离。这种方法虽然比较简单，而且比较实用，但是也存在着明显的缺陷。欧氏距离将不同属性的变量等同对待，这一点有时

6、并不能满足实际的要求。而采用马氏距离不受量纲的影响，可以排除变量之间相关性的干扰，克服指标变量不同量纲不同权重所造成的误判。本课题对传统的欧氏距离方法上进行改进，采用马氏距离方法进行聚类分析。在MATLAB编程环境下实现基于马氏距离的间歇过程时段划分算法程序设计。并使用Pensim青霉素发酵仿真软件对青霉素发酵过程的间歇过程数据进行实验测试。第1章绪论随着工业水平的不断发展和提高，间歇过程已经广泛应用于各个领域，如精细化工产业、生物产业、农产品深加工等。同时为了适应市场对于产品多品种、多规格、高质量的要求，间歇生产越来越受到重视。间歇过程中，受生产设备的物理结构，或其他经济和技术上因素的影响，

7、使生产过程由一个或多个一定顺序执行的操作阶段组成。在执行过程中，都会受其生产环境和动态特性的影响，使得生产的产品和工艺操作条件频繁发生变化。与连续生产过程相比，间歇过程具有动态性，多样性，不确定性等特征。如果分段不合理，就不能很好的反映过渡阶段特性的变化，从而造成相邻阶段的过渡过程特性变化对监控结果产生很大影响1。多阶段是间歇过程的一个固有特征，过程的每个阶段都有不同的过程特征及过程主导变量，而且过程变量相关关系并非随着时间变化，而是跟随过程操作进程或过程机理特性变化呈现分阶段性2-4。然而由于这些过程本身其动态特性，以及当在同一设备上要求运行不同的生产批次，所需要产生的各批次之间的操作条件的

8、变化会带来产品质量不高或重复性差等问题，也会造成许多安全隐患5。K-means聚类算法是一种经典的划分的聚类算法，具有算法简单，收敛速度快，适用于处理大数据集等优点，该算法在当聚类是密集的，且类与类之间区别明显时，效果较好，该算法本身具有优化迭代功能，可以在已经求得的聚类上再次进行迭代修正确定部分样本的聚类，对初始样本分类不合理的地方进行。在处理大数据集时，K-means聚类算法是相对可伸缩和高效的，是一种简单快捷的方法。因此针对间歇过程的动态特性，K-means聚类分析算法是一种可行性很强的方法，能行之有效地实现对间歇过程的故障检测。1)第2章基于聚类分析的间歇过程时段划分算法原理第2.1节

9、聚类分析算法原理2.1.1 聚类分析算法概述聚类是一种将未知变量划分成类的方法，这也是聚类与分类的根本差别。通过将不同数据划分成簇，一个簇内部的对象之间有很强的相似性，而不同的簇之间则有很大的区别。这样一个搜索簇的无监督的学习过程不需要依赖事先定义好的类或者带有类标记实例，而是需要聚类学习算法自动地确定标记。因此，聚类是一种观察式学习而非示例式学习。聚类可以定义如下：在数据空间中，数据由许多个数据点（或对象）组成，数据点的每个属性既可以是数值型的，也可以是非数值型的。假设数据集X有N个对象，则X可以用一个的矩阵表示。聚类的最终目的是把数据集X划分为p个分割，当然，也可能有些对象不属于任何一个分

10、割，将这些对象归类为噪声。所有这些分割和噪声集的并集就是数据集X，并且这些分割之间的交集为空。聚类分析是多元统计方法之一，按照隶属度的取值范围，则可以把聚类算法分成传统的硬聚类算法(如K-平均算法)和模糊聚类算法(如模糊C 均值) 等。模糊聚类技术基于模糊集合论，被广泛应用于模式识别和数据挖掘等领域，成为一个研究的热点，不断涌现出一些聚类分析算法16,17。但目前为止大多数算法都是以欧氏距离作为相似性度量的，只考虑了各类别样本均值这种一阶统计特征，得到的聚类结果是超球型的。而实际大多数情况下因为每个变量的方差并不是相同的，尤其在间歇过程中，各阶段变量变化特征不同，每一类的域应该是超椭圆而不是超

11、球面，这样，传统的聚类方法会导致数据不正确的分类。基于欧氏距离的聚类算法倾向于发现具有相近尺度和密度的球状簇，即在不同的方向上相似性的尺度都一样，然而，簇可能是任意形状的，因此提出能发现任意形状簇的算法是很重要的。聚类分析算法旨在将相似的失误进行归类，是依据事物本身的特征来研究个体。这种方法具有同一类的个体相似度较高，不同类的个体差异度很大的原则。聚类分析算法的三个特征分别为：(1) 对没有先验知识的分类适用。即便没有先验知识或其他的国际标准、国内标准以及行业标准，聚类分析算法可以通过设定一些边角完善的分类变量，来实现较为合理、科学的分段。(2) 能处理由多个变量决定的分类。例如根据一个学生每

12、月的开支分类比较容易。但是在进行数据挖掘的过程中，要求根据该生的家庭收入、家庭支出、平均每天消费金额等多个指标完成分类比较困难的，不过聚类分析解决这一类问题。(3) 聚类分析算法属于一种探索性的分析方法，可以利用聚类分析探索一些事物的内在的规律和特点。然后按照相似性原则对研究对象进行分组。现有的主要聚类算法大致可以分为以下几种：划分聚类算法、层次聚类算法、基于密度的聚类算法、基于网格的聚类算法以及基于模型的聚类算法等。本文采用的K-means聚类分析算法属于划分聚类算法，划分聚类算法是指对于一个给定的N个数据对象的数据集，采用目标函数最小化策略，通常把数据分成k个组,每个组为一个类（或簇）。可

13、以看出，这种聚类方法同时满足以下两个条件：(1) 每个类至少包含一个数据对象；(2) 每个数据对象必须属于且只属于一个类。当然，在有些情况，如模糊聚类、可能性聚类等，条件（2）可以放宽要求。最著名与最常用的划分聚类算法是K-均值算法和K-中心点算法，其他划分算法大都是这些算法的变种。2.1.2 K-means聚类分析算法原理K-means算法是一种经典的基于划分的聚类方法。它的基本思想是先随机产生K个初始点作为K个簇的中心点，将靠近它们的相似的点分到不同的簇，然后按照一定的方法计算各个簇的质心，从而确定新的质心，不断进行迭代，直到质心的移动范围满足给定的要求。这种算法比较简单快捷，但是它的关键

14、在K值的选择和距离公式是否准确。K-means算法实现的具体步骤可以概括为以下5步：(1) 从m个数据中任意选取K个对象作为初始的聚类中心；(2) 分别计算每个数据对象到每个聚类中心的距离，距离最近的一个中心所在的聚类就是该点所在的聚类；(3) 聚类完成后运用一定方法重新计算该聚类中距离每一个点的最近的中心点；(4) 如果与上一次计算出的聚类中心相同则说明聚类结果成立，转（5）；如果不同，则转（2）重新进行计算；(5) 输出聚类结果。基于欧氏距离的K-means算法非常简单而且便于解决实际问题，该算法应用比较广泛，但是有一定的缺点。首先，欧氏距离适用于超球形聚类，在不同的方向上相似的尺度一样，

15、倾向于发现具有相近尺度和密度的球状簇。同时，由于基于欧氏距离的K-means算法对野值点和噪声敏感。即使对于一个远离聚类中心的目标，算法也强行将其划入一个类中，从而扭曲了聚类形状。本文采用一种基于马氏距离的K-means算法进行聚类。马氏距离定义了空间中样本之间的协方差距离。考虑了指标变量的协方差矩阵结构及相关性对分类的影响，可以减弱由变量属性之间的相互影响而使聚类产生的误差。2.1.3 马氏距离基本原理马氏距离表示数据的协方差距离。设总体G为m维总体（考虑m个指标），均值向量为，协方差矩阵为，则样品与总体G的马氏距离定义为： (21)其中，当时， (22)利用马氏距离进行计算在聚类上具有显著的优势，它可以使分类过程中的相似的数据点距离较近。这样可以减弱各属性数据间的相关性影响，降低误差。在具体间歇过程应用中，既能考虑到稳定阶段下的监控，也能兼顾不同阶段间的监控和故障检测。2.1.4 马氏距离与欧氏距离的比较欧氏距离是在m维空间中两个点之间的真实距离。设m维空间中两点，和，它们之间的欧氏距离为： (23)可以看出，欧氏距离算法虽然简单，但是在分析处理多元

展开阅读全文