聚类及贝叶斯分类

上传人:wt****50 文档编号:50721800 上传时间:2018-08-10 格式:PPT 页数:47 大小:2.01MB
返回 下载 相关 举报
聚类及贝叶斯分类_第1页
第1页 / 共47页
聚类及贝叶斯分类_第2页
第2页 / 共47页
聚类及贝叶斯分类_第3页
第3页 / 共47页
聚类及贝叶斯分类_第4页
第4页 / 共47页
聚类及贝叶斯分类_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《聚类及贝叶斯分类》由会员分享,可在线阅读,更多相关《聚类及贝叶斯分类(47页珍藏版)》请在金锄头文库上搜索。

1、聚类(Cluster)聚类目的在将相似的事物归类。 聚类分析又称为“同质分组”或者“无监 督的分类”,指把一组数据分成不同的“簇 ”,每簇中的数据相似而不同簇间的数据则 距离较远。相似性可以由用户或者专家定义 的距离函数加以度量。 好的聚类方法应保证不同类间数据的相似 性尽可能地小,而类内数据的相似性尽可能 地大。 1* 聚类分析的基本思想是认为所研究的数据集中 的数据或者属性之间存在着程度不同的相似性。 于是从数据集中取出一批数据,具体找出一些能 够度量数据值之间或者属性之间相似程度的量, 以这些量为中心作为划分类型的依据,把一些相 似程度较大的数据或属性聚合为一类,把另外一 些彼此之间相似

2、程度较大的样品又聚合为另一类 ,关系密切的聚合到一个小的分类单位,关系疏 远的聚合到一个大的分类单位,直到所有数据或 属性都聚合完毕,把不同的类型一一划分出来。比较常用的距离有 绝对值距离 欧氏距离 明斯基距离*4Hierarchical Clustering层次聚类法 该方法是利用距离矩阵作为分类标准,将n个样品各作为 一类;计算n个样品两两之间的距离,构成距离矩阵;合 并距离最近的两类为一新类;计算新类与当前各类的距离 ;再合并、计算,直至只有一类为止。Step 0Step 1Step 2Step 3Step 4bdceaa bd ec d ea b c d eStep 4Step 3St

3、ep 2Step 1Step 0agglomerative (AGNES)divisive (DIANA)K均值算法 K均值(k-means)是一种简便、实用的无监 督聚类分析算法。这种算法在已知簇的个数时 ,可很好地实现数据的聚类分析。 基本思想(1)首先,随机选择k个数据点做为聚类中心 ;(2)然后,计算其它点到这些聚类中心点的距 离,通过对簇中距离平均值的计算,不断改变 这些聚类中心的位置,直到这些聚类中心不再 变化为止。*6K-Means Clustering K-均值聚类方法 Example:0123456789100123456789100123456789100123456789

4、10K=2Arbitrarily choose K object as initial cluster centerAssign each objects to most similar centerUpdate the cluster meansUpdate the cluster meansreassignreassign K均值的流程由流程图可知,k-均值算法是一种基于对数 据集进行划分的方法进行聚类的算法。它是不断 趋于最优解的试探过程。每一次迭代都试图使簇 中心的选择更加接近于数据集的实际簇中心。输 出N输入读 入标 准 化归 一 化初 始 化 簇计 算 簇 平 均 值更 改 簇 中

5、 心重新 决定 点归 何簇Y簇中心 是否变 化K均值算法 优势 (1)算法简单; (2)执行和收敛过程相对较快,是一种常见的聚类 算法。 局限性 (1)算法要求簇是密集的、簇和簇之间的差异比较 大; (2)数据集的平均值的计算必须有适当的定义; (3)对于某些孤立数据和“噪声”点敏感等。 Nave Bayes算法 微软朴素贝叶斯算法是SAS中最简单的算 法,通常用作理解数据基本分组的起点,说 的简单一点就是处理数据的分类 虽然该算法既可用于预测也可用于分组, 但最常用于模型构建的早期阶段,更常用 于分组而不是预测某个具体的值 定义 事件组A1,A2,An (n可为),称为样本 空间S的一个划分

6、,若满足:A1A2 AnBNave Bayes 分类定理 设A1,, An是S的一个划分,且P(Ai) 0,(i1,n),则对任何事件BS,有 式子就称为贝叶斯公式。贝贝叶斯定理回顾顾例子:已知某种疾病的发病率为0.1%, 该种疾病患者一个月 以内的死亡率为90%;且知未患该种疾病的人一个月以内的 死亡率为0.1%;现从人群中任意抽取一人,问此人在一个月 内死亡的概率是多少?若已知此人在一个月内死亡,则此人 是因该种疾病致死的概率为多少?贝贝叶斯定理回顾顾贝贝叶斯公式给给出了结结果事件B已发发生的条件下 ,原因属于事件Ai的条件概率. 从这这个意义义上讲讲,它是一个“执执果索因”的条 件概率计

7、计算公式.相对对于事件B而言 ,概率论论 中把P(Ai)称为为先验验概率(Prior Probability ),而把P(Ai|B)称为为后验验概率 (Posterior Probability),这这是在已有附加信息(即事件 B已发发生)之后对对事件发发生的可能性做出的重 新认识认识 ,体现现了已有信息带带来的知识识更新. 贝贝叶斯定理回顾顾分类问题 这个人会不会逃税?税号去年退税婚姻状况可征税收入逃税 1是单身125k否 2否婚姻中100k否 3否单身70k否 4是婚姻中120k否 5否离婚95k是 6否婚姻中60k否 7是离婚220k否 8否单身85k是 9否婚姻中75k否 10否单身9

8、0k是分类问题 名称胎生会飞水中生活有腿类别 Human是否否是哺乳动物 python否否否否非哺乳动物 salmon否否是否非哺乳动物 whale是否是否哺乳动物 frog否否有时是非哺乳动物 komodo否否否是非哺乳动物 bat是是否是哺乳动物 pigeon否是否是非哺乳动物 cat是否否是哺乳动物 leopard_shark是否是否非哺乳动物 turtle否否有时是非哺乳动物 penguin否否有时是非哺乳动物 porcupine是否否是哺乳动物 eel否否是否非哺乳动物 salamander否否有时是非哺乳动物 gila_monster否否否是非哺乳动物 platypus否否否是哺乳

9、动物 owl否是否是非哺乳动物 dolphin是否是否哺乳动物 eagle否是否是非哺乳动物胎生会飞水中生活有腿类别是否是否?贝叶斯分类方法 把每一个属性(输入) 和分类变 量(输出) 都看作随机变量 对于具有属性值(A1, A2,An)的观测记录 目标是预测类别 C 特别地, 我们想找能够最大化P(C| A1, A2,An )的 C 值 能否从直接数据中估计P(C| A1, A2,An )?贝叶斯分类方法 方法: 使用贝叶斯定理对于分类变量C的所有值计算后验概率 P(C | A1, A2, , An) , 选择C 使得P(C | A1, A2, , An)最大 等价于选择C 使得 P(A1,

10、 A2, , An|C) P(C)最大 如何估计P(A1, A2, , An | C )?简单贝简单贝 叶斯 假设在给定的类别上属性变量 Ai 相互独立: P(A1, A2, , An |C) = P(A1| Cj) P(A2| Cj) P(An| Cj) 对所有的Ai 和 Cj计算P(Ai| Cj). 如果对某一个Cj ,P(Cj) P(Ai| Cj) 最大,新的数据点就 被分类到Cj 。分类问题 税号去年 退税 婚姻状况可征税 收入逃税 1是单身125k否 2否婚姻中100k否 3否单身70k否 4是婚姻中120k否 5否离婚95k是 6否婚姻中60k否 7是离婚220k否 8否单身85k

11、是 9否婚姻中75k否 10否单身90k是 类别 : P(Ck) = Nk/N 例如, P(C=否) = 7/10, P(C=是) = 3/10 Nk 是类别C=Ck.的数量 对离散属性:P(Ai | Ck) = |Aik|/ Nk |Aik| 是属性值为Ai 且属于 Ck的记录数量 例如:P(婚姻状况=婚姻中|否) = 4/7 P(去年退税=是|是)=0 对于连续 属性: (sqlserver不能处理连续型属性) 离散化 把属性的范围划分为许多段: 每一段设定一个有序值 这样会违反独立性假设 估计概率密度 假定属性服从正态分布 估计该属性分布的参数(例如, 均值和标准差) 在得到概率密度之后

12、,我们可以使用它估计条件概 率P(Ai|c)分类问题 分类问题 税号去年 退税 婚姻状况可征税 收入逃税 1是单身125k否 2否婚姻中100k否 3否单身70k否 4是婚姻中120k否 5否离婚95k是 6否婚姻中60k否 7是离婚220k否 8否单身85k是 9否婚姻中75k否 10否单身90k是 每一对(Ai,ci)的正态分布: 例如对于(收入,逃税=否): 在逃税=否的情况下,可征 税收入的 样本均值= 110 样本方差= 2975分类问题 税号去年 退税 婚姻状况可征税 收入逃税 1是单身125k否 2否婚姻中100k否 3否单身70k否 4是婚姻中120k否 5否离婚95k是 6否

13、婚姻中60k否 7是离婚220k否 8否单身85k是 9否婚姻中75k否 10否单身90k是 每一对(Ai,ci)的正态分布: 例如对于(收入,逃税=否): 在逃税=否的情况下,可征 税收入的 样本均值= 110 样本方差= 2975l思路:看p(逃税=否| X)是否大于p (逃税=是| X)lp(逃税=否| X)=p(逃税=否) P(X|逃税=否)/ p(B)lp(逃税=是| X)=p(逃税=是) P(X|逃税=是)/ p(B)lP(X|逃税=否)= P(去年退税=否|逃税=否) P(婚姻中| 逃税=否) P(收入=120K| 逃税=否)lP(X|逃税=是)=P(去年退税=否| 逃税=是)

14、P(婚姻中| 逃税=是) P(收入=120K| 逃税=是)分类问题 P(X|逃税=否) = P(去年退税=否|逃税=否) P(婚姻中| 逃税=否) P(收入=120K| 逃税=否)= 4/7 4/7 0.0072 = 0.0024P(X|逃税=是) = P(去年退税=否| 逃税=是) P(婚姻中| 逃税=是) P(收入=120K| 逃税=是)= 1 0 1.2 10-9 = 0因为: P(X|否)P(否) P(X|是)P(是) 0.0024*0.3 0*0.7 所以: P(否|X) P(是|X)= 逃税 = 否A: (胎生是,会飞否,水中生活是,有腿否)M: 哺乳动物N: 非哺乳动物P(A|M

15、)P(M) P(A|N)P(N)= 哺乳动动物分类问题 名称胎生会飞水中生活有腿类别Human是否否是哺乳动物python否否否否非哺乳动物salmon否否是否非哺乳动物whale是否是否哺乳动物frog否否有时是非哺乳动物komodo否否否是非哺乳动物bat是是否是哺乳动物pigeon否是否是非哺乳动物cat是否否是哺乳动物leopard_shark是否是否非哺乳动物turtle否否有时是非哺乳动物penguin否否有时是非哺乳动物porcupine是否否是哺乳动物eel否否是否非哺乳动物salamander否否有时是非哺乳动物gila_monster否否否是非哺乳动物platypus否否否是哺乳动物owl否是否是非哺乳动物dolphin是否是否哺乳动物eagle否是否是非哺乳动物胎生会飞水中生活 有腿类别是否是否? 这个算法之所以称为“朴素”,是因为所有属性 的重要性是一样的,没有谁高谁低一说。它是一 种运用算术原则来理解数据的方法 对此算法的另一个理解就是:所有属性都是独 立的,互不相关的。从字面来看,该算法只是计 算所有属性之间的关联。 虽然该算法既可用于预测也可用于分组,但最 常用于模型构建的早期阶段,更常用于分组而不 是预测某个具体的值。通常要将所有属性标记为 简单输入或者既是输入又是可预测的,因为这就 可以要求算法在执行的时候考虑到所有属性

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号