《精编》数据挖掘相关资料

资源描述

《《精编》数据挖掘相关资料》由会员分享，可在线阅读，更多相关《《精编》数据挖掘相关资料（63页珍藏版）》请在金锄头文库上搜索。

1、讲授吴雄华第一章数据挖掘概述电话 13752460206 Email wuxionghua2003 一引例网站这种推荐并非漫无边际而是有一定技术依据的这种技术就是数据挖掘技术 DM 网站怎么知道读者可能会对这些物品干兴趣这是因为网站采用了新的技术来了解顾客的潜在需求比如网站从顾客的购买清单中发现你买的书与张三买过的书有几本是相同的但是还有些书张三已经买了而你却还没买网站会据此认为你们的阅读偏好相近从而你会对那些书也干兴趣例1 如果你在当当的购书网站并购买过书籍或音像制品以后再浏览该网站时经常看到类似的提示欢迎你下面是我们给您推荐的新书和VCD 然后就可以在网

2、页的某个位置看到几本新书或VCD的名字及其相关链接从这个销售数据中可以得出什么结论某超市Post机上记录如下的销售数据例2 啤酒与尿布的故事从数据挖掘的角度就是得到了如下的很强的关联规则简单分析发现有6个顾客买了啤酒而其中5个人买了尿布或说 5个买了尿布的顾客都买了啤酒规则1 买啤酒买尿布置信度为5 6 规则2 买尿布买啤酒置信度为5 5 结论买尿布的顾客很可能会买啤酒原因对决策者的启示商品的摆放设计和销售策略二数据挖掘的定义三数据挖掘技术产生的动力数据挖掘的定义有多种不同的定义方式现在为大家广泛采用的是如下定义数据挖掘是从大量的数据中挖掘出隐含

3、的未知的用户可能感兴趣的和对决策有潜在价值的知识和规则简单的说数据挖掘就是从大量的数据中发现有用的信息 1 数据爆炸问题例3 美国未来学家阿尔温托夫勒在1980年的著作在第三次浪潮中认为未来的信息量将以指数级的速度增长现在已成事实例5 JohnRoth在联合国世界电信论坛上又提出了一个关于网络科技的一个观点互联网宽带每9个月会增加一倍的容量但成本降低一半比芯片的变革速度还快光纤定律例4 1965年 Intel公司联合创始人GordonMorore在准备一个演讲时发现了一个具有历史意义的现象芯片的容量每18 24个月增加一倍他据此推断按此趋势发展下去在较短

4、时间内计算能力将呈指数增长摩尔定律还有很多案例都可以印证现在的社会是一个信息爆炸的社会是在信息的潮流中随波逐流还是到中流击水浪遏飞舟数据挖掘技术的另一个产生动力2 数据过量而知识贫乏现代人了解古代的主要方式主要是通过前人留下的记录但是这些记录往往是零碎的不完全的例如想象一下如果后人希望了解现在人们的生活状况他们面临的已不再是信息缺失而是需要从浩如烟海的资料中有选择性的收集他们认为有用的信息若没有一定技术支持其难度恐怕可以用浪里淘金或大海捞针来形容四数据挖掘的支撑技术数据挖掘融合了统计人工智能及数据库等多种学科的理论方法和技术如统计学除了实

5、验设计与数据挖掘的关系不大其他几乎所有方法都可以用于数据挖掘如估计假设检验回归分析主成分分析时间序列分析马尔科夫链等五数据挖掘的主要任务 1 预测分类和回归 2 关联分析如研究顾客的行为模式 3 聚类分析例如对于新闻可以根据他们的主题分组 4 异常检测识别其特征显著不同于其他数据的观测值异常点主要应用包括检测欺诈网络攻击疾病的不寻常模式等例6 信用卡欺诈检测信用卡公司记录每个持卡人所做的交易同时也记录信用限度年龄年薪和地址等个人信息由于与合法交易相比欺诈行为的数目相对较少因此异常检测技术可以用来构造合法交易的轮廓当一个新的交易到达时就与之比较

6、如果该交易的特性与所构造的轮廓很不相同就把交易标记为可能是欺诈第二章数据一理解数据例1 有人给你如下数据每行包含一个病人的信息用前4个字段预测后一个字段你做了相关的工作后再与数据提供者交流字段1只是一个标号不代表任何实际意义而字段4中0表示缺失值在录入数据时偏偏所有的10都变成了0 二数据属性及其类型属性 Attitude 是对象的性质或特性三数据集的类型 1 记录数据如三数据集的类型 2 事务数据购物篮数据如三数据集的类型 3 矩阵数据如距离矩阵协方差矩阵相关系数矩阵等 4 文档词数据如 5 时间序列数据 6 其他四数据对象之间的相异

7、度和相似度 1 简单属性的相似度和相异度假设数据对象只有一个属性则通常其相似度和相异度可按如下定义 1 1标称属性的相异度和相似度相异度相似度 s 1 d 例如如果只考虑顾客的性别属性如果都是男则他们的相似度为1 相异度为0 1 简单属性的相似度和相异度 1 2序数属性的相异度和相似度 d x y n 1 相异度相似度 s 1 d 例如考虑学生的成绩共分为A B C D四个等级则n 4 相异度为2 3 其中n为属性取值的总个数 1 简单属性的相似度和相异度 1 3区间或比率属性的相异度和相似度 d x y 相异度较常用的相似度有 s 1 1 d 例如考虑如下的身高数

8、据 S 1 d min d max d min d 可以计算学生身高的相异度矩阵如下二元属性属性的值只接受两个值如真假男女是否等通常用0 1表示则S2与S6之间的相异度为10 而相似度为1 11 有min d 2 max d 29 因此也可以定义相似度为1 10 2 29 2 19 27 2 数据对象之间的相似度相似性度量的例子 2 1 二元数据的相似性度量两个仅包含二元属性的对象之间的相似性度量也称为相似系数设x和y是两个对象都由n个二元属性组成定义如下四个量 f00 x取0且y取0的属性个数 f01 x取0且y取1的属性个数 f10 x取1且y取0的属性个数

9、 f11 x取1且y取1的属性个数 2 1 1一种常用的相似系数是简单匹配系数 SimpleMatchingCoeffient SMC 定义如下 SMC f00 f11 对于类似顾客是否购买某商品这样的非对称二元数据这个相似系数则难以体现顾客相同的购买行为 Why 2 1 2Jaccard相似系数 Jaccard JaccardCoeffient JC 相似系数定义如下 J f11 例1 设二元数据对象x和y如下计算其SMC和J x 1000101001 y 1010110011 解 f00 3 f01 3 f10 1 f11 3 因此 SMC 6 10 J 3 7 例2 设两个顾客x和y

10、购买的商品如下计算它们的相似系数SMC和J 2 1 3余弦相似度通常类似于文档词这样的数据度量其相似性不能依赖共享0的个数如果统计0 0匹配则大多数文档都非常相似因此同样要忽略0 0匹配这类数据最常用的相似度之一就是余弦相似度定义如下 Cos x y xy x y 2 1 4广义Jaccard系数广义Jaccard系数也可以用于文档数据并在二元属性情况下归约为Jaccard系数其定义如下例3 两个文档向量x和y如下分别计算其余弦相似度cos x y 和EJ x 3205000200 EJ xy x 2 y 2 xy y 1003106001 2 1 4相关性两个具

11、有二元变量或连续的数据之间对象之间的相关性是对象之间线性联系的度量一般可以用Pearson相关系数 Pearson scorrelation 来描述其定义如下其中第三章数据挖掘中的统计方法一数据探索 1 1汇总统计 1 1 1频率与众数给定一个在 v1 v2 vk 取值的分类属性x和m个对象的集合值vi的频率定义为 f vi 具有属性值vi的对象数 m 众数具有最高频率的分类属性例1 某所大学中各年级的学生人数如下表则年级属性的众数为一年级对于连续属性按照目前的定义众数通常没有用为什么但在某些情况下众数可能提供关于值的性质或关于出现遗漏值的重要信息例如以

12、毫米为单位 20个人的身高通常不会重复但如果以分米为单位则某些人很可能具有相同的身高此外如果使用一个唯一的值表示遗漏值该值通常用众数 1 1 2百分位数百分位数的定义设有容量为n的样本观察值想x1 x2 x3 xn 样本的p分位数 0 p 1 是指满足如下性质的xp A 至少有np个观察值小于或等于xp B 至多有n 1 p 个观察值大于或等于xp 样本的p分位数xp可以按如下方法求得将观察值按自小到大的顺序排列成 x 1 x 2 x n 即 xp 1 若np不是整数则只有一个数据满足定义的两点要求这一数据位于大于np的最小整数处即 np 1处 2 若np是整数则位于n

13、p和np 1位置的数据均符合要求此时取这两个数的平均值作为xp 当np不是整数 x np x np 1 2 当np是整数与分位数有关常用术语一极差 x n x 1 median x 二中位数 p 0 5 此时xp称为中位数记为median x 其计算如下当n为奇数 x n 2 x n 2 1 2 当n整为偶数三第一四分位数Q1 p 0 25 第三四分位数Q3 p 0 75 四分位数极差IQR Q3 Q1 例1 下表是中国各省市国有单位的人均报酬单位元年分别计算p 0 25 0 5 0 75时的分位数及样本均值解 n 34 n 0 75 8 5 Q3 32738

14、江苏同理 median 22956 湖北或湖南 Q1 21608 贵州 Q3 Q1 11130 样本均值为27501 59 箱线图如下 18392 黑龙江 21608 贵州 32738 江苏 50311 上海箱线图的说明若中位数位于箱子中间则数据分布较为对称若Min离M的距离较Max离M的距离大在表示数据分布向左倾斜反之向右二估计 2 1点估计 2 1 1矩估计与极大似然估计另外一种常用的估计方法为折叠刀估计它通过从一组观测值中忽略一个值来实现对参数的估计假设一个具有n个值的集合x x1 x2 xn 对均值的单次估计为 2 1 2折叠刀估计 i x1 xi 1 xi 1

15、 xn n 1 对这些单次估计求平均值 1 n n作为总统的均值估计例设总体的分布率如下现有样本的10个观察值 3 3 2 2 1 2 1 2 3 3 分别用矩估计发极大似然估计法和折叠刀估计法估计解矩估计法 E X 3 2 又样本均值为2 2 因此得矩估计值为0 4 极大似然估计 L 的极大似然估计值也是0 4 数据 3 3 2 2 1 2 1 2 3 3 折叠刀估计法计算 1 3 2 2 1 2 1 2 3 3 9 2 9 10 19 9 因此对总体均值的估计为 19 9 20 9 4 21 9 2 10 19 8 9 3 3 3 2 1 2 1 2 3 3 9 4 6 8

16、 20 9 5 3 3 2 2 2 1 2 3 3 9 7 6 21 9 又E X 3 2 令3 2 19 8 9 解得 0 4 估计的一个指导思想是奥卡姆剃刀原则 Ockham sRazor 越简单的模型能产生越好的结果三主成分分析 3 1主成分分析概述在处理多元样本数据时经常遇到观察数据多维数很高的问题如果有每个观察对象有p个属性选取n个对象进行观察则达到n p个数据如何从这些数据中提取主要规律从而分析样本或总体的主要性质例如要分析若干个地区的经济发展状况对每个地区都要统计很多指标但如果只根据这些统计数据对不同地区进行评价比较或排序则因指标太多主次不明显很难做到公正客观另外这些指标有点是主要的有点是有的是次要的甚至某些指标间还有一定的相关性能否用较少的几项指标来代替原来较多的指标使得这较少的几项指标仍能反映原来较多的指标反映的信息主成分分析就是把一种原来多个指标变量转化为少数几个相互独立指标变量的统计方法它不是去分析比较各指标的重要性将那些不重要的指标简单去掉而是通过全面分析各项指标所携带的信息从中提取一下潜在的综合性指标

展开阅读全文