模糊聚类分析

上传人:豆浆 文档编号:50746060 上传时间:2018-08-10 格式:PPT 页数:35 大小:1.83MB
返回 下载 相关 举报
 模糊聚类分析_第1页
第1页 / 共35页
 模糊聚类分析_第2页
第2页 / 共35页
 模糊聚类分析_第3页
第3页 / 共35页
 模糊聚类分析_第4页
第4页 / 共35页
 模糊聚类分析_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《 模糊聚类分析》由会员分享,可在线阅读,更多相关《 模糊聚类分析(35页珍藏版)》请在金锄头文库上搜索。

1、第章 模糊聚类分析 一、模糊聚类分析及其步骤二、基于模糊等价关系的传递闭包法三、基于模糊相似关系的直接聚类法四、基于模糊c-划分的模糊聚类法模糊聚类分析是一类应用很广泛的数学模糊聚类分析是一类应用很广泛的数学 方法,就其理论来说,大致分为三种:方法,就其理论来说,大致分为三种: 一是基于模糊等价关系的传递闭包法,一是基于模糊等价关系的传递闭包法, 二是基于模糊相似关系的直接聚类法,二是基于模糊相似关系的直接聚类法, 三是基于模糊三是基于模糊c-c-划分的模糊聚类法划分的模糊聚类法。.1 模糊聚类分析及步骤数学上,把按一定要求和规律,对事物进行分类 数学上,把按一定要求和规律,对事物进行分类 的

2、方法叫聚类分析,它属于数理统计多元分析的一的方法叫聚类分析,它属于数理统计多元分析的一 支,是对清晰事物进行分类的一种方法,然而现实支,是对清晰事物进行分类的一种方法,然而现实 生活中,事物间的界限往往不一定很清晰,很多分生活中,事物间的界限往往不一定很清晰,很多分 类问题,都多伴有模糊性,如天气,晴、阴、雨天类问题,都多伴有模糊性,如天气,晴、阴、雨天 之间就无绝对的界限,普通的聚类分析对此是无能之间就无绝对的界限,普通的聚类分析对此是无能 为力的;用模糊数学的语言和方法来描述和解决就为力的;用模糊数学的语言和方法来描述和解决就 成为自然和方便的了,这就产生了模糊聚类分析成为自然和方便的了,

3、这就产生了模糊聚类分析模糊聚类分析的步骤:模糊聚类分析的步骤: 一、选择统计指标一、选择统计指标根据实际问题,选择那些具有明确的意义,有较 根据实际问题,选择那些具有明确的意义,有较 强的分辨力和代表性的特征,作为分类事物的统计指强的分辨力和代表性的特征,作为分类事物的统计指 标,统计指标选择的如何,对分类结果有直接的影响;标,统计指标选择的如何,对分类结果有直接的影响; 二、数据标准化(正规化)二、数据标准化(正规化)把代表事物各特征的统计指标的数据进行处理,使把代表事物各特征的统计指标的数据进行处理,使 之便于分析和比较,数据标准化可这样进行:令之便于分析和比较,数据标准化可这样进行:令其

4、中其中x x原始数据,原始数据,为其的平均值,为其的平均值, 为其标准差为其标准差三、标定三、标定 所谓标定,就是根据实际情况,按一个准所谓标定,就是根据实际情况,按一个准 或某种方法,给论域或某种方法,给论域 U U中的元素两两之间中的元素两两之间 都赋以都赋以0,10,1间的一个数,叫做相似系数,其大小表征间的一个数,叫做相似系数,其大小表征 两个元素彼此接近或相似的程度;两个元素彼此接近或相似的程度;设设为待分事物的全体,为待分事物的全体, 由一组数由一组数据据来表征,用来表征,用表示元素表示元素的相似的相似系数,系数,表示表示截然不同,毫无相似截然不同,毫无相似之处;之处;表示表示完全

5、相似或等同;当完全相似或等同;当i=ji=j时,时,就是就是和自己的相似程度,恒取和自己的相似程度,恒取1 1可据实际情况,选择下列方法之一来确定:可据实际情况,选择下列方法之一来确定:(1 1)数量乘积法)数量乘积法其中其中显然显然如果如果中出现负值,可采用下面中出现负值,可采用下面方法将全体方法将全体进行调整进行调整. .方法方法1. 1. 令令则则方法方法2. 2. 令令于是于是其中其中(2 2)夹角余弦法)夹角余弦法如果如果中出现负值,也可采用上面方法调整中出现负值,也可采用上面方法调整. .(3 3)最大最小法)最大最小法(4 4)算术平均最小法)算术平均最小法(5 5)绝对值减数法

6、)绝对值减数法其中其中c c适当选取,使适当选取,使 在在0 ,10 ,1中且分散开中且分散开. .后,后,其它方法请参阅教材!以上方法其它方法请参阅教材!以上方法究竟选哪一种,视问题实际特点而定,究竟选哪一种,视问题实际特点而定,通过标定求出相似系数通过标定求出相似系数可得模糊相似矩阵可得模糊相似矩阵四、聚类四、聚类选择一种合适的聚类方法,便可以得到分类结果.2 基于模糊等价关系的传递闭包法基于模糊等价关系的传递闭包法一、传递闭包法一、传递闭包法BasicBasicidea :idea : 据上面标定所得的模糊矩阵R,求出其传递闭包为模糊等价矩阵,然后由3.4之方法,令从1降到0,便可按需要

7、对U进行分类,这样的聚类方法,称传递闭包法传递闭包法例7.1 环境单元分类 设为五个环境单元的集合,每个环境单元有空气、水分、土壤、作物四个要素,环境单元的污染状况由污染物在四个要素中含量的超限度来描述,若其污染数据为:试对U进行分类.解解 :(1)按绝对值减数法进行标定,如取c=0.1,则于是得模糊相似矩阵(2)用逐次平方法计算R的传递闭包因为所以传递闭包然后依次取的截矩阵并按 将U分成等价类.若=1, 便将U分为5类, 即若=0.8, 便将U分为4类, 即若=0.6, 便将U分为3类, 即若=0.5, 便将U分为2类, 即若=0.4, 便将U全归为为1类, 即聚类图见教材3.4图3-3 二

8、、最佳或值二、最佳或值 的确定的确定聚类图给出各聚类图给出各 值对应的分类值对应的分类, ,形成一种动态聚形成一种动态聚 类类, ,便于全面了解元素聚类便于全面了解元素聚类, , 然后根据实际需要选然后根据实际需要选 择其或值择其或值 便可确定一种分类便可确定一种分类, , 至于如何选择或值至于如何选择或值 , , 使分类更合理使分类更合理, , 除了凭经验外除了凭经验外, , 还可用还可用F-F-统计量统计量 来选取来选取. .设为待分事物的全体, 为描述元素 的第k个特征的数据,又设c为对应于值的类数, 为第i类元素的个数,第i类元素记为记为第i类元素第k个特征的平均值, 称为第i 类的聚

9、类中心向量聚类中心向量; 为全体元素的中心向量中心向量, 而于是称为为F-F-统计量统计量, 其中为第i类中心元素的距离.例7.2 气象预报中最佳或值的选取(数据分析见教材 第156页).3 基于模糊相似关系的直接聚类法基于模糊相似关系的直接聚类法BasicBasicidea :idea : 用传递闭包法分类需要先建立U上的模糊等价矩阵, 但矩阵阶数较高时, 计算便变得较困难.而采用相似矩阵R进行分类的直接聚类法直接聚类法其计算 量则要小很多,这种方法聚类的原则是:与在水平上同类在R的图中, 存在一条权重不低于的路联结 与直接聚类法直接聚类法最大树法最大树法编网法编网法画出以被分类元素为结点,

10、以相似矩阵R的元 素 为权重的一棵最大树;取定0,1,砍断权重低于的枝,得到一个不 连通图,各连通分支便构成了在水平上的分类对给定的模糊相似矩阵R,取定水平0,1,作截 矩阵R,在R主对角线上填入元素的符号,在对 角线下方以结点号”*”代替1,而”0”则略去不写, 由结点向主对角线上引经线和纬线,叫编网编网, ,由经 纬线能相互连接起来的元素,属于同类,从 实现了分类.4 基于模糊基于模糊c-c-划分的模糊聚类法划分的模糊聚类法一、一、c-c-划分划分1、普通集合上的c-划分集合 上的c-c-划分划分是指U的c个子集满足 :记矩阵其中若( 属于第 i 类);若满足:(表示每个 属于且只属于某一

11、类)(表示每类 至少有一个元素)反之, 具有上述条件的矩阵A对应着U上的一个分类A称为集合U的一个c-c-划分矩阵划分矩阵. .如给定四元集U一个分类结果则对应分化矩阵为若分类矩阵为则对应U的分类为记为实矩阵的集合, 且称为将U分成c类的分类空间分类空间.这样的分类是通常意义下的分类, 称为硬分类硬分类. .2、模糊c-划分设一个模糊矩阵若满足:(表示每个 属于c个模糊子集 的(表示每类 不等于或U )的程度总和为1);则A称为U的模糊模糊c-c-划分矩阵划分矩阵, , 记称为U U的的c c类软分类空间类软分类空间. .显然二、目标函数聚类法和硬二、目标函数聚类法和硬c-c-均值算法均值算法

12、BasicBasicidea :idea :在目标函数法中, 目标函数是对给定c的所有候选分类 进行度量,最优的类就是使目标函数达到局部最小的类 对于硬分类情形, 目标函数一般选为总体组内误差平 方和.其定义如下:其中 为 中元素各特征分别取平均值后所得的聚类中心向量, 也称 的聚类中心.类中元素向量和 类中元素个数记V称为聚类中心矩阵, 若 则 到聚类中心的距离为中全体元素到中心距离平方和为而V中其它元素到其所在类中心距离平方和为Remark:Remark:最理想的c-划分应该是J(A, V)取极小的A, 寻找最小的A并非易事,这是因为Mc的容量虽有限但非常大, 最常见的方法是硬c-均值算法

13、:Step1 假设给出n个数据点其中取定c (2cn), 并初始化Step2 当迭代次数为时,计算聚类中心向量其中Step3 用下式将更新为其它和Step4 比较若 (是一个非常小的常数),则停止算法;否则, 令返回Step2关于算法的使用说明, 见教材164-165页!三、模糊三、模糊c-c-均值算法均值算法定义目标函数其中r1是一个加权指数.BasicBasicidea :idea : 模糊c-均值算法的目标在于找到和使得最小 . 下面的定理给出了上述最小化问题之必要条件定理 令为一给定数据集. 设和假设对所有1kn和1ic,有则仅当和时,和才是的局部最小值.注: 模糊c-均值算法是建立在

14、定理必要条件()和()的基础上的, 算法步骤如下:Step1 给定数据集设定和并初始化Step2 当迭代次数为时,计算聚类中心向量Step3 用下式将更新为Step4若 则停止算法;否则, 令返回Step2(是一个非常小的常数),Remark:Remark: 此算法也称为模糊ISODATA方法.遇到只有一个样本的类,要在聚类前先排除, 待聚类后再加上该类, 而参数r一般常取r=2. 此算法要求 ,因此取初始分类 时三、模糊划分清晰化三、模糊划分清晰化实际问题中, 最后的分类结果都要求是明确的,因 此,在使用模糊c-划分分类后, 都必须将模糊划分清晰 化,可用下述方法进行:方法I 对若则将归入类.类.方法II 对若归入则将关于算法的使用说明, 见教材168-169页!例7.3 模糊ISODATA聚类算法的应用(教材第169页)例7.4 应用模糊聚类分析对地下水位动态分类(教材第170页)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号