《精编》数据挖掘相关资料

上传人:tang****xu4 文档编号:133195171 上传时间:2020-05-25 格式:PPT 页数:63 大小:779.50KB
返回 下载 相关 举报
《精编》数据挖掘相关资料_第1页
第1页 / 共63页
《精编》数据挖掘相关资料_第2页
第2页 / 共63页
《精编》数据挖掘相关资料_第3页
第3页 / 共63页
《精编》数据挖掘相关资料_第4页
第4页 / 共63页
《精编》数据挖掘相关资料_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《《精编》数据挖掘相关资料》由会员分享,可在线阅读,更多相关《《精编》数据挖掘相关资料(63页珍藏版)》请在金锄头文库上搜索。

1、讲授 吴雄华 第一章数据挖掘概述 电话 13752460206 Email wuxionghua2003 一 引例 网站这种推荐并非漫无边际 而是有一定技术依据的 这种技术就是数据挖掘技术 DM 网站怎么知道读者可能会对这些物品干兴趣 这是因为网站采用了新的技术来了解顾客的潜在需求 比如 网站从顾客的购买清单中发现你买的书与张三买过的书有几本是相同的 但是还有些书张三已经买了 而你却还没买 网站会据此认为你们的阅读偏好相近 从而你会对那些书也干兴趣 例1 如果你在当当的购书网站并购买过书籍或音像制品 以后再浏览该网站时经常看到类似的提示 欢迎你 下面是我们给您推荐的新书和VCD 然后就可以在网

2、页的某个位置看到几本新书或VCD的名字及其相关链接 从这个销售数据中可以得出什么结论 某超市Post机上记录如下的销售数据 例2 啤酒与尿布的故事 从数据挖掘的角度就是得到了如下的很强的关联规则 简单分析发现 有6个顾客买了啤酒 而其中5个人买了尿布 或说 5个买了尿布的顾客都买了啤酒 规则1 买啤酒 买尿布 置信度为5 6 规则2 买尿布 买啤酒 置信度为5 5 结论 买尿布的顾客很可能会买啤酒 原因 对决策者的启示 商品的摆放设计和销售策略 二 数据挖掘的定义 三 数据挖掘技术产生的动力 数据挖掘的定义有多种不同的定义方式 现在为大家广泛采用的是如下定义 数据挖掘是从大量的数据中挖掘出隐含

3、的 未知的 用户可能感兴趣的和对决策有潜在价值的知识和规则 简单的说 数据挖掘就是从大量的数据中发现有用的信息 1 数据爆炸问题 例3 美国未来学家阿尔温 托夫勒在1980年的著作在 第三次浪潮 中认为 未来的信息量将以指数级的速度增长 现在已成事实 例5 JohnRoth在联合国世界电信论坛上又提出了一个关于网络科技的一个观点 互联网宽带每9个月会增加一倍的容量 但成本降低一半 比芯片的变革速度还快 光纤定律 例4 1965年 Intel公司联合创始人GordonMorore在准备一个演讲时发现了一个具有历史意义的现象 芯片的容量每18 24个月增加一倍 他据此推断 按此趋势发展下去 在较短

4、时间内计算能力将呈指数增长 摩尔定律 还有很多案例都可以印证 现在的社会是一个信息爆炸的社会 是在信息的潮流中随波逐流还是 到中流击水 浪遏飞舟 数据挖掘技术的另一个产生动力2 数据过量而知识贫乏 现代人了解古代的主要方式主要是通过前人留下的记录 但是这些记录往往是零碎的 不完全的 例如 想象一下 如果后人希望了解现在人们的生活状况 他们面临的已不再是信息缺失 而是需要从浩如烟海的资料中有选择性的收集他们认为有用的信息 若没有一定技术支持 其难度恐怕可以用 浪里淘金 或 大海捞针 来形容 四 数据挖掘的支撑技术 数据挖掘融合了统计 人工智能及数据库等多种学科的理论 方法和技术 如统计学 除了实

5、验设计与数据挖掘的关系不大 其他几乎所有方法都可以用于数据挖掘 如估计 假设检验 回归分析 主成分分析 时间序列分析 马尔科夫链等 五 数据挖掘的主要任务 1 预测 分类和回归 2 关联分析 如研究顾客的行为模式 3 聚类分析 例如对于新闻可以根据他们的主题分组 4 异常检测 识别其特征显著不同于其他数据的观测值 异常点 主要应用包括检测欺诈 网络攻击 疾病的不寻常模式等 例6 信用卡欺诈检测信用卡公司记录每个持卡人所做的交易 同时也记录信用限度 年龄 年薪和地址等个人信息 由于与合法交易相比 欺诈行为的数目相对较少 因此异常检测技术可以用来构造合法交易的轮廓 当一个新的交易到达时就与之比较

6、如果该交易的特性与所构造的轮廓很不相同 就把交易标记为可能是欺诈 第二章数据 一 理解数据 例1 有人给你如下数据 每行包含一个病人的信息 用前4个字段预测后一个字段 你做了相关的工作后再与数据提供者交流 字段1只是一个标号不代表任何实际意义 而字段4中0表示缺失值 在录入数据时偏偏所有的10都变成了0 二 数据属性及其类型 属性 Attitude 是对象的性质或特性 三 数据集的类型 1 记录数据 如 三 数据集的类型 2 事务数据 购物篮数据 如 三 数据集的类型 3 矩阵数据 如距离矩阵 协方差矩阵 相关系数矩阵等 4 文档 词数据 如 5 时间序列数据 6 其他 四 数据对象之间的相异

7、度和相似度 1 简单属性的相似度和相异度 假设数据对象只有一个属性 则通常其相似度和相异度可按如下定义 1 1标称属性的相异度和相似度 相异度 相似度 s 1 d 例如 如果只考虑顾客的性别属性 如果都是 男 则他们的相似度为1 相异度为0 1 简单属性的相似度和相异度 1 2序数属性的相异度和相似度 d x y n 1 相异度 相似度 s 1 d 例如 考虑学生的成绩 共分为A B C D四个等级 则n 4 相异度为2 3 其中n为属性取值的总个数 1 简单属性的相似度和相异度 1 3区间或比率属性的相异度和相似度 d x y 相异度 较常用的相似度有 s 1 1 d 例如 考虑如下的身高数

8、据 S 1 d min d max d min d 可以计算学生身高的相异度矩阵如下 二元属性 属性的值只接受两个值 如真 假 男 女 是 否等 通常用0 1表示 则S2与S6之间的相异度为10 而相似度为1 11 有min d 2 max d 29 因此 也可以定义相似度为1 10 2 29 2 19 27 2 数据对象之间的相似度 相似性度量的例子 2 1 二元数据的相似性度量 两个仅包含二元属性的对象之间的相似性度量也称为相似系数 设x和y是两个对象 都由n个二元属性组成 定义如下四个量 f00 x取0且y取0的属性个数 f01 x取0且y取1的属性个数 f10 x取1且y取0的属性个数

9、 f11 x取1且y取1的属性个数 2 1 1一种常用的相似系数是简单匹配系数 SimpleMatchingCoeffient SMC 定义如下 SMC f00 f11 对于类似顾客是否购买某商品这样的非对称二元数据 这个相似系数则难以体现顾客相同的购买行为 Why 2 1 2Jaccard相似系数 Jaccard JaccardCoeffient JC 相似系数定义如下 J f11 例1 设二元数据对象x和y如下 计算其SMC和J x 1000101001 y 1010110011 解 f00 3 f01 3 f10 1 f11 3 因此 SMC 6 10 J 3 7 例2 设两个顾客x和y

10、购买的商品如下 计算它们的相似系数SMC和J 2 1 3余弦相似度 通常类似于文档 词这样的数据 度量其相似性不能依赖共享0的个数 如果统计0 0匹配 则大多数文档都非常相似 因此同样要忽略0 0匹配 这类数据最常用的相似度之一就是余弦相似度 定义如下 Cos x y xy x y 2 1 4广义Jaccard系数 广义Jaccard系数也可以用于文档数据 并在二元属性情况下归约为Jaccard系数 其定义如下 例3 两个文档向量x和y如下 分别计算其余弦相似度cos x y 和EJ x 3205000200 EJ xy x 2 y 2 xy y 1003106001 2 1 4相关性 两个具

11、有二元变量或连续的数据之间对象之间的相关性是对象之间线性联系的度量 一般可以用Pearson相关系数 Pearson scorrelation 来描述 其定义如下 其中 第三章数据挖掘中的统计方法 一 数据探索 1 1汇总统计 1 1 1频率与众数 给定一个在 v1 v2 vk 取值的分类属性x和m个对象的集合 值vi的频率定义为 f vi 具有属性值vi的对象数 m 众数 具有最高频率的分类属性 例1 某所大学中各年级的学生人数如下表 则年级属性的众数为 一年级 对于连续属性 按照目前的定义 众数通常没有用 为什么 但在某些情况下 众数可能提供关于值的性质或关于出现遗漏值的重要信息 例如 以

12、毫米为单位 20个人的身高通常不会重复 但如果以分米为单位 则某些人很可能具有相同的身高 此外 如果使用一个唯一的值表示遗漏值 该值通常用众数 1 1 2百分位数 百分位数的定义 设有容量为n的样本观察值想x1 x2 x3 xn 样本的p分位数 0 p 1 是指满足如下性质的xp A 至少有np个观察值小于或等于xp B 至多有n 1 p 个观察值大于或等于xp 样本的p分位数xp可以按如下方法求得 将观察值按自小到大的顺序排列成 x 1 x 2 x n 即 xp 1 若np不是整数 则只有一个数据满足定义的两点要求 这一数据位于大于np的最小整数处 即 np 1处 2 若np是整数 则位于n

13、p和np 1位置的数据均符合要求 此时取这两个数的平均值作为xp 当np不是整数 x np x np 1 2 当np是整数 与分位数有关常用术语 一 极差 x n x 1 median x 二 中位数 p 0 5 此时xp称为中位数 记为median x 其计算如下 当n为奇数 x n 2 x n 2 1 2 当n整为偶数 三 第一四分位数Q1 p 0 25 第三四分位数Q3 p 0 75 四分位数极差IQR Q3 Q1 例1 下表是中国各省 市 国有单位的人均报酬 单位 元 年 分别计算p 0 25 0 5 0 75时的分位数及样本均值 解 n 34 n 0 75 8 5 Q3 32738

14、江苏 同理 median 22956 湖北或湖南 Q1 21608 贵州 Q3 Q1 11130 样本均值为27501 59 箱线图如下 18392 黑龙江 21608 贵州 32738 江苏 50311 上海 箱线图的说明 若中位数位于箱子中间 则数据分布较为对称 若Min离M的距离较Max离M的距离大 在表示数据分布向左倾斜 反之向右 二 估计 2 1点估计 2 1 1矩估计与极大似然估计 另外一种常用的估计方法为折叠刀估计 它通过从一组观测值中忽略一个值来实现对参数的估计 假设一个具有n个值的集合x x1 x2 xn 对均值的单次估计为 2 1 2折叠刀估计 i x1 xi 1 xi 1

15、 xn n 1 对这些单次估计求平均值 1 n n作为总统的均值估计 例 设总体的分布率如下 现有样本的10个观察值 3 3 2 2 1 2 1 2 3 3 分别用矩估计发 极大似然估计法和折叠刀估计法估计 解 矩估计法 E X 3 2 又样本均值为2 2 因此 得矩估计值为0 4 极大似然估计 L 的极大似然估计值也是0 4 数据 3 3 2 2 1 2 1 2 3 3 折叠刀估计法 计算 1 3 2 2 1 2 1 2 3 3 9 2 9 10 19 9 因此对总体均值的估计为 19 9 20 9 4 21 9 2 10 19 8 9 3 3 3 2 1 2 1 2 3 3 9 4 6 8

16、 20 9 5 3 3 2 2 2 1 2 3 3 9 7 6 21 9 又E X 3 2 令3 2 19 8 9 解得 0 4 估计的一个指导思想是奥卡姆剃刀原则 Ockham sRazor 越简单的模型能产生越好的结果 三 主成分分析 3 1主成分分析概述 在处理多元样本数据时 经常遇到观察数据多 维数很高的问题 如果有每个观察对象有p个属性 选取n个对象进行观察 则达到n p个数据 如何从这些数据中提取主要规律 从而分析样本或总体的主要性质 例如 要分析若干个地区的经济发展状况 对每个地区都要统计很多指标 但如果只根据这些统计数据对不同地区进行评价 比较或排序 则因指标太多 主次不明显很难做到公正客观 另外 这些指标有点是主要的 有点是 有的是次要的 甚至某些指标间还有一定的相关性 能否用较少的几项指标来代替原来较多的指标 使得这较少的几项指标仍能反映原来较多的指标反映的信息 主成分分析就是把一种原来多个指标变量转化为少数几个相互独立指标变量的统计方法 它不是去分析比较各指标的重要性 将那些不重要的指标简单去掉 而是通过全面分析各项指标所携带的信息 从中提取一下潜在的综合性指标

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号