模糊聚类案例分析

上传人:博****1 文档编号:557225344 上传时间:2023-09-28 格式:DOCX 页数:10 大小:64.56KB
返回 下载 相关 举报
模糊聚类案例分析_第1页
第1页 / 共10页
模糊聚类案例分析_第2页
第2页 / 共10页
模糊聚类案例分析_第3页
第3页 / 共10页
模糊聚类案例分析_第4页
第4页 / 共10页
模糊聚类案例分析_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《模糊聚类案例分析》由会员分享,可在线阅读,更多相关《模糊聚类案例分析(10页珍藏版)》请在金锄头文库上搜索。

1、EAST CHINA INSTITUTE OF TECHNOLOGY模糊数学方法及其应用论文题目:模糊聚类方法案例分析小组成员:王季光宋申辉兰洁陈倩芸肖仑杨洋吴云峰2013年10月27日模糊聚类分析方法1.1距离和相似系数为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多 的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的 绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比 较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个 样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离 较远的点归为不同的类。

2、但相似系数和距离有各种各样的定义,而这些定义与变 量的类型关系极大,因此先介绍变量的类型。由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定 性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分: 间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。在间 隔尺度中,如果存在绝对零点,又称比例尺度,本书并不严格区分比例尺度和间 隔尺度。有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间 有次序关系,如某产品分上、中、下三等,此三等有次序关系,但没有数量表示。名义尺度:变量度量时、既没有数量表示,也没有次序关系,如某物体有红、 黄、白三种

3、颜色,又如医学化验中的阴性与阳性,市场供求中的“产”和“销” 等。不同类型的变量,在定义距离和相似系数时,其方法有很大差异,使用时必 须注意。研究比较多的是间隔尺度,因此本章主要给出间隔尺度的距离和相似系 数的定义。设有乃个样品,每个样品测得P项指标(变量),原始资料阵为XX1%Xp 1x x x111121pXx x xX = .2 :21222 p:Xx x xnn1n2np其中xij(i = 1-,您J = 1-,P)为第i个样品的第j个指标的观测数据。第i个样 品Xi为矩阵X的第i行所描述,所以任何两个样品XK与XL之间的相似性,可 以通过矩阵X中的第K行与第L行的相似程度来刻划;任何

4、两个变量七与七之 间的相似性,可以通过第K列与第L列的相似程度来刻划。1.2 F相似关系1.2.1定义设R e F(U x U),如果具有自反和对称关系,则称R为U上的一个F相似关系(F表示模糊)当论域U为有限时,F相似关系可以用F矩阵表示。具有F相似关系的矩阵,称为F相似矩阵。在实际应用时,通常只能得到自反矩阵和对称举证,即相似矩 阵。现在的问题是对具有相似关系的元素怎样进行分类,也就是如何将相似矩阵 改造为等价矩阵。1.2.2定理若Rt = R,则称R为对称矩阵。(1)若R D I( I是单位矩阵),则称R为自反矩阵。(2)若R目R2,则称R为传递的F关系。(3)若满足上面三点则称为等价矩

5、阵。定理1:相似矩阵服、的传递闭包是等价矩阵,且R = Rn。证只需要证明r是自反的、对称的。R = nRk = Rn 目 I因R是自反的,故R M 1,R 2目R。不难得到Rn不减,因此k=i,即r是自反的。因为R = Rt,(Rn)T =(Rt) = Rn,故R是对称的。有定理1可见,要想将相似矩阵改变为等价矩阵,只需求相似矩阵的传递闭 包。定理2:设R e %是自反矩阵,则任意自然数m 2 n,都有R = Rm证由R自反性推得R Q R2 Q . Q Rn Q .当m 2 n时,有R = Rn Q Rm Q URk = Rk=11.3聚类分析所谓聚类分析,就是用数学的方法对事物进行分类,

6、它有广泛的实际应 用。在模糊数学产生之前,聚类分析已是数理统计多元分析的一个分支,然而现 实的分类问题往往伴有模糊性。例如,环境污染分类、春天连阴雨预报、临床症 状资料分类、岩石分类,等等。对这些伴有模糊性的聚类问题,用模糊数学语言 来表达更为自然。模糊聚类分析的步骤:第一步:数据标准化数据矩阵设论域U = 气,七气为被分类的对象,每个对象由m个指标表示其性状,即X = (X , X ,., X )iz2 m于是得到原始数据矩阵为X1m(XX1112XX2122Xnm3 X2数据标准化在实际问题中,不同的数据一般有不同的量纲。为了使有不同的量纲的量也能进 行比较,通常需要对数据作适当的变换。但

7、是,即使这样,得到的数据也不一定 在区间0,1上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将 数据压缩到区间0,1上。通常需要作如下集中变换。1)平移标准差变换2)平移极差变换3)对数变换第二步标定(建立模糊相似矩阵)设U = u ,u ,u 为待分类的全体。其中每一待分类对象由一组数据表征如12n下:现在的问题是如何建立ui和七之间的相似关系。这有许多方法(这里选一些,列在下面),我们可以按照实际情况,选其中一种来求ui与七的相似关系R(u , u ) = r(1)形似系数法 数量积法11寸乙X .尤M “ jk=1其中M为一适当选择之正数,满足M max(咒 j k =1X .

8、X )夹角余弦法ij jkrijk=1-相关系数法riji jkj (X - X)2 .k=1k (X - X )2j Jk=1其中最大最小法mikk=1 min(x , x )lk jk-k=1 max(x , x )ik jkk=1k k算术平均最小法rij min(x , x )lk jkk=11 ( x + x )2 kjkk=1 kk几何平均最小法rij min(x , x ) jkk=, k=1k 4绝对值指数法/,IX. X , Ir绝对值减数法Ifr = 一i 1 一 c I x - x I 当 i 丰 j、 k=1 k 其中,c适当选取,使0 - rij - 1。(2)距离法

9、1)直接距离法海明距离欧几里得距离切比雪夫距离2)倒数距离法3)指数距离法选择上述哪一个方法好,要按实际情况而定。在实际应用时,最好采用多种 方法,选取分类最符合实际的结果。第三步聚类(求动态聚类图)。由第一步得到的矩阵R一般只满足自反性和对称性,即R是相似矩阵,需将它改造成模糊等价矩阵。为此,采用平方法求出R的传递闭包R,R便是所 一 . 一求的模糊等价矩阵。通过R便可对U进行分类。实际应用具体问题如下:X:地区生产总值(当年价格)(亿元);X 2 :第一产业增 加值;x 3:第二产业增加值;X4 :第三产业增加值;X5 :地方财政一般预算内 收入;X :工业企业数(个);X :工业总产值(

10、当年价格)(万元);X。:从业人 678员年平均人数(万人);X9 :流动资产年平均余额(万元);X10 :主营业务收入(万元)X11 :利润总额(万元);X :移动电话年末用户数(万户);X13 :国际互联网用 12户数(户);X 14公路里程;X 15普通中学学生数(万人);X 16医院、卫生院数X(个);17医生数(执业医师+执业助理医师)(个)。17项指标来描述江西省11 各市区经济发展水平情况。现将11个不同经济发展水平的市区进行聚类。入 1 3526811 479 10 分类数1110.857310*0.68539*0.66203.80.614470.56366V0.496950.

11、48624V0.45273拳0.43162,01标准差变换下一一相关系数法构造相似矩阵R采用传递闭包法进行聚类, 到的动态聚类图如下:入1 9245678 10 311 分类数111*0.9526100.87290.868480.857270.840860.837350.8273540.7549130.71652A0.68881入 1 2354789 10 11 6 分类数1*110.890410,0.86449*0.839480.8376a*70.783860.7733150.771940.720130.6949320.63561极差变换下一一相关系数法构造相似矩阵R采用传递闭包法进行聚类,得到 的动态聚类图如下:入 1 9 2 4 7 8 5 10 3 6 11 分类数1110.9563*10.0.936690.8859580.8767*70.85960.83085V0.756740.756530.6922*0.677211

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号