数据挖掘-西安电子科技大学软件学院

上传人:xmg****18 文档编号:111364756 上传时间:2019-11-02 格式:PPT 页数:92 大小:3.66MB
返回 下载 相关 举报
数据挖掘-西安电子科技大学软件学院_第1页
第1页 / 共92页
数据挖掘-西安电子科技大学软件学院_第2页
第2页 / 共92页
数据挖掘-西安电子科技大学软件学院_第3页
第3页 / 共92页
数据挖掘-西安电子科技大学软件学院_第4页
第4页 / 共92页
数据挖掘-西安电子科技大学软件学院_第5页
第5页 / 共92页
点击查看更多>>
资源描述

《数据挖掘-西安电子科技大学软件学院》由会员分享,可在线阅读,更多相关《数据挖掘-西安电子科技大学软件学院(92页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘与商务智能 Data Mining & Business Intelligence 第二章 数据及数据预处理,西安电子科技大学 软件学院 主讲人:黄健斌,内容提纲,2.1数据类型 2.2数据质量 2.3数据预处理 2.4数据相似性和相异性度量 2.5数据统计汇总 2.6数据可视化,记录数据 关系记录 数据矩阵,例如,数值矩阵,交叉 文档数据:文本文件:词频向量 交易数据 图形和网络 万维网 社会或信息网络 分子结构 有序 时间数据:时间序列 顺序数据:交易序列 基因序列数据 视频数据的图像序列 空间,图像和多媒体: 空间数据:地图,2.1数据类型,数据对象,数据集由数据对象组成 一个数

2、据对象代表一个实体 例子 销售数据库:客户,商店物品,销售额 医疗数据库:患者,治疗信息 大学数据库:学生,教授,课程信息 称为样品,示例,实例,数据点,对象,元组(tuple)。 数据对象所描述的属性。 数据库中的行 - 数据对象;列 - “属性”。,属性,属性(或尺寸,特征,变量):一个数据字段,代表一个数据对象的特征或功能。 例如,客户_ID,姓名,地址 类型: 标称 二进制 数字:定量 规模区间 缩放比率,属性类型,标称:类别,状态,或“名字的东西” Hair_color=黑色,棕色,金色,红色,红褐色,灰色,白色 婚姻状况,职业,身份证号码,邮政编码 二进制 只有2个状态(0和1)的

3、属性 对称二进制两种结果重要 例如,性别 不对称的二进制结果同样重要。 例如,医疗测试(正面与负面) 公约:将1至最重要的成果(例如,HIV阳性) 序数词 价值观有一个有意义的顺序(排名),但不知道连续值之间的大小。 大小=小,中,大,等级,军队排名,2.2数据质量,被广泛接受的数据质量测量标准 准确性 完整性 一致性 合时性 可信度 解释性,2.3数据预处理,数据预处理:概述 数据预处理主要任务 数据清洗 数据集成 数据缩减 数据转换和数据离散化 总结,2.3数据预处理主要任务,数据清理 填写缺失值,平滑噪声数据,识别或删除离群,并解决不一致问题 数据集成 整合多个数据库,多维数据集或文件

4、数据缩减 降维 Numerosity reduction 数据压缩 数据转换和数据离散化 正常化 生成概念层次结构,数据清洗,在现实世界中的数据是“脏”的: 不完整的:缺少属性值,缺乏某些属性值,或只包含总数据 例如,职业=“ ”(丢失的数据) 含嘈杂的噪音,错误或离群 例如,工资=“-10”(错误) 不一致的代码或不符的名称 年龄=“42”生日=“03/07/1997” 曾经评级“1,2,3”,现在评级“A,B,C” 重复的记录之间的差异,不完整(缺少)数据,数据并不总是可用的 例如,许多元组没有属性,如客户收入、销售数据的记录值 丢失的数据,可能是由于 设备故障 与其他记录的数据不一致,从

5、而删除 因误会而未读入 在读入的时候,某些数据可能不会被认为是重要的 不是历史或更改的数据注册 丢失的数据可能需要被推断,如何处理丢失数据?,忽略元组:通常是类标签丢失时(这样做分类),每个属性的缺失值有很大的差别 手动填写遗漏值 自动填写 全局常量 属性含义 属性意味着所有样本属于同一类 最有可能的值:基于诸如贝叶斯公式或决策树推理,噪声数据,噪声:一个测量变量中的随机错误或方差 原因 收集工具故障 数据录入问题 数据传输问题 技术限制 命名约定不一致 其他数据问题需要数据清理如 重复记录 数据不完整 不一致的数据,如何处理噪声数据?,回归 数据拟合 聚类 检测和删除离群 结合计算机和人工检

6、查 检测可疑的数据(例如人工处理可能的异常值),数据清洗,数据的误差检测 使用元数据(例如,领域,范围,依赖,分销) 检查是否溢出 检查唯一性规则,连续统治和空的规则 使用商业工具 数据清理:使用领域知识(例如,邮政编码,拼写检查),检测错误并改正 数据审计:通过分析数据检测违规者(例如,关联和聚类规则和关系,寻找离群) 数据迁移和整合 数据迁移工具:允许指定的转换 ETL(提取/转换/加载)工具:通过图形用户界面允许用户指定转换 两个过程的集成 迭代和交互,数据集成,数据集成 将来自多个数据源的数据组合成一个连贯的数据源 模式集成:例如,A.cust-id B.cust-# 整合来自不同来源

7、的元数据 实体识别问题: 识别来自多个数据源的真实世界的实体,例如,Bill Clinton = William Clinton 数据冲突检测和解决 对于同一个真实世界的实体,来自不同源的属性值 可能的原因:不同的表述,不同的尺度,例如,公制与英制单位,数据集成中的冗余信息的处理,整合多个数据库经常发生数据冗余 Object identification:相同的属性或对象可能有不同的名字在不同的数据库中 Derivable data:一个属性可能是“派生”的另一个表中的属性,例如,年收入 通过相关性分析和协方差分析可以检测到冗余的属性 仔细集成来自多个数据源,可能有助于减少/避免冗余和不一致的

8、地方,并提高读取速度和质量,相关分析,2 (chi-square) test 2值越大,越有可能变量是相关的 The cells that contribute the most to the 2 value are those whose actual count is very different from the expected count 相关性并不意味着因果关系 # of hospitals and # of car-theft in a city 是相关的 两者都因果联系的第三个变量为人口,2 (chi-square) test举例,2(卡方)计算(括号中的数字是预计计数基于两个

9、类别中的数据分布计算) 这表明,组中的like_science_fiction和play_chess相关,相关分析数据(数字数据),相关系数(也称为皮尔逊积矩系数) 其中n是元组的数目,而p和q是各自的具体值, p和q是各自的标准偏差, 如果R(p,q) 0,p和q是正相关的(p的值增加为q的),较高的相关性。 R(p,q)=0:独立; R(p,q) 0负相关,视觉评估相关,散点图显示的相似性,从-1到1。,相关(视为线性关系),相关测量对象之间的线性关系 为了计算相关性,将数据对象标准化,p和q,然后计算他们的点积,协方差(数字数据),类似相关协方差 其中n是元组的数目,p和q是各自的平均值

10、或期望值, p和q是各自的标准偏差。 正的协方差:如果COV(p,q)0,则p和q都倾向于是大于它们的预期值。 负的协方差:如果在COV(p,q) 0,则如果p是大于它的预期值,q是可能要小于它的预期值。 独立性: COVP(p,q) = 0 可具有某些对随机变量的协方差为0,但不是独立的。一些额外的假设(例如,数据是否服从多元正态分布)做了协方差为0意味着独立,协方差:举例,它可以简化计算 假设两只股票A和B具有在1个星期的以下值:(2,5),(3,8),(5,10),(4,11),(6,14)。 问题:如果股票都受到同行业的趋势,他们的价格一起上升或下降? E(A)=(2+3+5+4+6)

11、/5= 20/5 = 4 E(B)=(5+8+10+11+14)/5=48/5= 9.6 COV(A,B)=(25+38 +510+411+614)/ 5 - 49.6= 4 结论:A和B在一起上升,因为Cov(A, B) 0。,数据缩减策略,数据还原:还原面积更小、体积减少的数据集,但尚未产生相同(或几乎相同)的分析结果 为什么数据缩减? - 由于数据仓库可以存储TB的数据,因此在一个完整的数据集上运行时,复杂的数据分析可能需要一个很长的时间 数据缩减战略 降维,例如,删除不重要的属性 小波变换 主成分分析(PCA) 特征选择,特征创建 Numerosity reduction 回归和对数线

12、性模型 直方图,聚类,取样 数据立方体聚集 数据压缩,降维,原因 随着维数的增加,数据变得越来越稀疏 对孤立点分析使得密度和距离变得意义不大 子空间的可能的组合将成倍增长 降维作用 避免维数灾难 帮助消除无关紧要的属性,并降低噪音 减少数据挖掘所需的时间和空间 更容易的可视化 降维技术 小波变换 主成分分析 监督和非线性技术(例如,特征选择),将数据映射到一个新的空间,傅里叶变换 小波变换,Two Sine Waves,Two Sine Waves + Noise,Frequency,小波变换是什么?,分解成不同的频率子带的信号 适用于n维信号 转化的数据是在不同级别的分辨率中保存 用于图像压

13、缩,小波变换,离散小波变换(DWT)的线性信号处理 压缩近似:只有一小部分的小波系数最强 离散傅里叶变换(DFT)类似,但在空间中有更好的压缩效果 方法: 长度L,必须是2的整数次幂(0填充,必要时) 每个变换具有2个功能:平滑,差异 适用于双数据,在两个集得到的长度为L/2的数据 施加两个递归函数,直到达到所需要的长度,小波变换,小波:空间高效分解的数学工具 2,2,0,2,3,5,4,4可转化为S = S =23/4,-11/ 4,1/2,0,0,-1,0 压缩:许多小细节系数可以替换为0的,只有显示的系数被保留,为什么小波变换?,使用hat-shape滤波器 强调区域点聚集的地方 在边界

14、禁止较弱的信息 有效去除离群值 对噪声不敏感 多分辨率 在不同尺度检测任意形状的集群 高效 复杂度为O(N) 只适用于低维数据,主成分分析(PCA),原始数据投影到一个更小的空间,从而查找投影来捕获最大的变化量数据的,从而维数降低。 发现协方差矩阵的特征向量,用这些特征向量定义新的空间,主成分分析(步骤),从n维向量中的N个数据中,求kN个正交向量(主成分)能用来表示数据 归一输入数据:每个属性落在相同的范围内 (单元)计算K:正交向量,即,主成分 每个输入的数据(矢量)是k个主分量矢量的线性组合 通过排序减少“意义”或强度的组成部分 由于这些组件的排序方式,消除了弱的元件,即具有低方差(即,

15、使用最强的主成分,也能够重建原始数据的一个很好的近似,可以减少数据的大小),属性子集选择,通过属性子集选择以减少数据的维 多余的属性 复制所有的信息中包含一个或多个其他属性 例如,购买一个产品的价格和支付额两个属性相同,是多余的属性 不相关的属性 不包含任何信息的属性 例如,学生的ID往往在预测学生的GPA是不相关的,启发式搜索属性选择,d的属性有可能是2d属性组合 典型的启发式属性选择方法: Best single attribute属性独立性假设:选择进行检验 分步进行的功能选择: 分步进行属性消除: 反复淘汰不需要的属性 最佳组合的属性选择和淘汰 优化分支和绑定: 使用属性消除和回溯,创

16、建属性(特征生成),创建新的属性(特征),可以更有效地比原来的数据捕捉重要的信息三个一般方法 属性提取 domain-specific 将数据映射到新的空间(见:数据缩减) 例如,傅立叶变换,小波变换,歧管的方法(未覆盖) Attribute construction 数据离散化,Numerosity Reduction,通过选择更小的数据来替代从而减少数据量 参数方法(例如,回归) 假设数据适合一些模型,估计模型参数,只存储参数,并丢弃数据(可能的异常值除外) 例如:对数线性模型在一个点在MD的空间作为产品上获得价值,适当的边际子空间 非参数方法 不要假设模型 主要方法:直方图,聚类,取样,.,参数数据还原:回归和对数线性模型,线性回归:一次函数 通常使用最小二乘法来拟合线 多元回归:允许多维特征向量的线性函数建模为变量Y 对数线性模型:近似离散的多维概率分布,回归分析,回归分析:组成的一个因变量(也称为响应变量)和一个或多个独立变量(亦称解释变量或预测变量的值的数值数据建模和分析技术的统称) 参数估计,以便使数据“最适合”

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号