模式识别与分类课件

上传人:工**** 文档编号:593454603 上传时间:2024-09-25 格式:PPT 页数:38 大小:419.50KB
返回 下载 相关 举报
模式识别与分类课件_第1页
第1页 / 共38页
模式识别与分类课件_第2页
第2页 / 共38页
模式识别与分类课件_第3页
第3页 / 共38页
模式识别与分类课件_第4页
第4页 / 共38页
模式识别与分类课件_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《模式识别与分类课件》由会员分享,可在线阅读,更多相关《模式识别与分类课件(38页珍藏版)》请在金锄头文库上搜索。

1、模式识别与分类导言 Clustering/Classification 统称 如下问题 人眼识别物 中医看舌苔/脉搏 图谱辨别化合物 低维与高维数据 一次观察的矢量表示n为空间维数,变量数变量即特征各特征类型/量纲/大小相差大模式识别与分类数据预处理 值域调整range scaling 自标度化 Autoscaling均值0方差1模长模式识别与分类数据预处理 标准化 Normalization模长为1色谱面积归1质谱最大为1模式识别与分类数据预处理 变换法原变量相加/减/除等 组合法模式识别与分类数据预处理 特征的选择偏差权重法s大的变量更重要Fisher比率法F大的变量更重要模式识别与分类数

2、据预处理协方差矩阵C与相关矩阵R对于n为对象数,p为特征数方差j=1,p 协方差j,k=1,p;jk 模式识别与分类数据预处理方差-协方差矩阵,简称协方差矩阵如下:对称矩阵模式识别与分类数据预处理相关矩阵如下:其中但对于Autoscaling后的数据,s=1。C即为R。模式识别与分类主成分分析PCA因子分析FA聚类分析clustering无监督方法模式识别与分类PCA得分score载荷loading d为主成分数 模式识别与分类PCA投影判别法 数据重构组成互不相关的新变量 取较少的主成分数(常为2),完成分类模式识别与分类PCA实例1 不同嫌疑人头发中元素的含量(g/g) 样品CuMnClB

3、rI19.20.30 173012.0 3.6 212.40.39 93050.0 2.3 37.20.32 275065.3 3.4 410.20.36 15003.4 5.3 510.10.50 104039.2 1.9 66.50.20 249090.0 4.6 75.60.29 294088.0 5.6 811.80.42 86743.1 1.5 98.50.25 16205.2 6.2 原始数据原始数据X(95)autoscaling计算算相关矩相关矩阵计算算特征特征值返回模式识别与分类方差百分数主成分数的确定指定 ,如90% 相应的dPCA实例1 头发样品中的特征值与方差 成分数

4、特征值 方差% 累计方差% 1 3.352 67.05 67.05 2 1.182 23.65 90.70 3 0.285 5.70 96.40 4 0.135 2.70 99.10 5 0.045 0.90 100.00特征值1对于相关矩阵, 1的成分为主成分Scree检验nPC在2-3间斜率下降 因此d=2合适模式识别与分类得分图主成分图形解释PCA实例13个聚类分属三人t1对t2作图t1最重要模式识别与分类主成分图形解释PCA实例1载荷图l1对l2作图特征在主成分上的投影各变量的相关信息夹角越小,相关性越高高度相关的特征取1即可载荷大小是重要性的度量位于原点的载荷不重要金属间的相关性大于

5、卤素间的Cu与Cl反性相关l1最重要,距原点距离越大,该特征权重越大,Cu模式识别与分类主成分图形解释PCA实例1 相似系数或相关系数表 CuCu 1.000 MnMn 0.697 1.000 ClCl -0.950 -0.692 1.000 BrBr -0.530 -0.233 0.588 1.000 I -0.645 -0.749 0.581 -0.084 相似系数相关系数Br/I接近正交Cu/Cl负相关1:完全相同0:完全正交自标度化的数据cos=r模式识别与分类得分图主成分图形解释PCA实例1特征的选择5个全取取Cu/Br/I仍能分类效果略差取Cu/Mn/Cl分类效果差l2无效果3个,

6、仅1个12.57,0.38,0.05一维投影结果原始数据模式识别与分类主成分图形解释PCA实例1双重图biplott1各元素均有贡献t2由Br和I表征Cu/Mn/Cl/I将对象聚为2组Br将对象聚为另2组模式识别与分类PCA实例1应用示例应用示例烟叶硅烟叶硅烷化色化色谱 辽宁凤城烟叶不同辽宁凤城烟叶不同部位烟叶的区分部位烟叶的区分下部上部中部模式识别与分类FA 用少数几个通用因子描述矩阵中的特征 抽象因子需经旋转变换成实因子TTFA包含d个因子的特征参数,各因子对应1个起因与对应因子相关的载荷分数由剩余p-d个和通用因子无关的特殊因子构成,如噪声因子模式识别与分类FA目标转换因子分析Targe

7、t Transformation FA变换矩阵抽象载荷目标预测目标均值相对偏差relative deviation估计两者的一致性模式识别与分类FA实例TTFA多环芳烃HPLC-DAD数据有3个重要因子模式识别与分类多环芳烃HPLC-DAD数据FA实例TTFA已知4物的纯光谱但仅3个主因子F补一列模式识别与分类多环芳烃HPLC-DAD数据FA实例TTFA283.331545.91126.4-58.497102.72120.36217.71172.223.665-106.13-223.13-169.66-63.573-628.81-435.2476.663111.23112.88282.7427

8、4.6138.03685.85873.30428.34552.66370.73415.276-24.929110.5432.7193.991310.64514.72625.2127.38911.377存在不存在模式识别与分类聚类分析 无监督学习方法 根据相似性度量,物以类聚 分类方法是把未知对象分配到已存在类中聚类分析步骤n个个样本本n类计算距离算距离最近最近的的2类合并合并 继续合并合并最近的最近的2类经n-1次合并次合并最后成最后成1类模式识别与分类聚类分析距离与相似性度量的方法明氏Minkowski距离欧氏Euclidean距离曼哈顿Manhattan距离city-block距离模式识别

9、与分类聚类分析距离与相似性度量的方法马氏Mahalanobis距离基于协方差矩阵C的向量运算基于马氏距离的相似性量度完全相似 Sij=1完全不相似 Sij=0马氏距离可避免特征向量的相关性引起的失真无需对数据进行调整模式识别与分类聚类分析实例6个血清样本的分级聚类对象1、2距离最短,聚为新对象1*设其距离为0与其余各对象用平均法或新距离模式识别与分类聚类分析实例6个血清样本的分级聚类4,6并并4*4*,5并5*1*,3并3*模式识别与分类聚类分析实例6个血清样本的分级聚类1231234651*3*4*5*欧氏距离6个血清样本实际上可分为两类模式识别与分类聚类分析A、B聚后新距离的算法加权均连w

10、eighted average linkage单连法(最近距离)single linkage全连法(最远距离)complete linkage其他方法模式识别与分类线性学习机LLMK最近邻法KFASIMCA法有监督方法模式识别与分类LLM11111111122222222判别面以分类(疾病判断)为例存在一判别面,用垂直的法线(权)矢量w表示 与类1中任一样本矢量的夹角 ,与类2中 线性判别函数s(标量) ,s0 ,s0模式识别与分类LLM步骤已知样本作训练得法线矢量w未知样本计算s并预测分类初值w,可随机确定第第1个已知个已知样本本计算算s 不符下一个下一个样本本计算算s继续调整w 模式识别与

11、分类LLM实例数据初值模式识别与分类LLM实例修正w不修正须修正以后还需修正1次,最终判别模式识别与分类LLM实例程序clear;close all;Y= load(E:bkjshxjiazx.txt);Y(:,1)=; n,p = size(Y); cluster = Y(:,p);cluster = cluster*(-2)+3*ones(n,1); %let symbol of first cluster=1 and second cluster=-1Y(:,p)=; Y_std = Y(1:16,:); clu_std = cluster(1:16,:);Y_unk = Y(17:20

12、,:); clu_unk = cluster(17:20,:);n_std,p = size(Y_std); n_unk,p = size(Y_unk);Part I 数据准备w = ones(1,p)*(-1); % 给初值,w设为行矢量 for i = 1:n_std s = w*Y_std(i,:); % s 是标量 if s*clu_std(i,1)0 c = (-2)*s/(Y_std(i,:)*Y_std(i,:); w = w+c*Y_std(i,:); endendPart II 训练确定wfor i = 1:n_unk s = w*Y_unk(i,:); fprintf( F

13、or unknown sample No.:%3.0ft,i); if s*clu_unk(i,1)0 fprintf( the judgement is WRONG. n); else fprintf( the judgement is RIGHT. n); endendPart III 判断未知样本llm.m初值不同,w也不同作业1重现TTFA法对PAH的HPLC-DAD数据进行是否存在的判断。作业220个香烟理化指标的测定数据,前10个样本为双喜,后10个为中华。1.用PCA对样本分类,并评价各指标的重要性及相关性。2.用LLM方法计算法向量,并对部分样本进行预报。E:bkjshxdataYancao.xls

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号