数据挖掘-西安电子科技大学软件学院

资源描述

《数据挖掘-西安电子科技大学软件学院》由会员分享，可在线阅读，更多相关《数据挖掘-西安电子科技大学软件学院（92页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘与商务智能 Data Mining & Business Intelligence 第二章数据及数据预处理,西安电子科技大学软件学院主讲人：黄健斌,内容提纲,2.1数据类型 2.2数据质量 2.3数据预处理 2.4数据相似性和相异性度量 2.5数据统计汇总 2.6数据可视化,记录数据关系记录数据矩阵，例如，数值矩阵，交叉文档数据：文本文件：词频向量交易数据图形和网络万维网社会或信息网络分子结构有序时间数据：时间序列顺序数据：交易序列基因序列数据视频数据的图像序列空间，图像和多媒体：空间数据：地图,2.1数据类型,数据对象,数据集由数据对象组成一个数

2、据对象代表一个实体例子销售数据库：客户，商店物品，销售额医疗数据库：患者，治疗信息大学数据库：学生，教授，课程信息称为样品，示例，实例，数据点，对象，元组（tuple）。数据对象所描述的属性。数据库中的行 - 数据对象；列 - “属性”。,属性,属性（或尺寸，特征，变量）：一个数据字段，代表一个数据对象的特征或功能。例如，客户_ID，姓名，地址类型：标称二进制数字：定量规模区间缩放比率,属性类型,标称：类别，状态，或“名字的东西” Hair_color=黑色，棕色，金色，红色，红褐色，灰色，白色婚姻状况，职业，身份证号码，邮政编码二进制只有2个状态（0和1）的

3、属性对称二进制两种结果重要例如，性别不对称的二进制结果同样重要。例如，医疗测试（正面与负面）公约：将1至最重要的成果（例如，HIV阳性）序数词价值观有一个有意义的顺序（排名），但不知道连续值之间的大小。大小=小，中，大，等级，军队排名,2.2数据质量,被广泛接受的数据质量测量标准准确性完整性一致性合时性可信度解释性,2.3数据预处理,数据预处理：概述数据预处理主要任务数据清洗数据集成数据缩减数据转换和数据离散化总结,2.3数据预处理主要任务,数据清理填写缺失值，平滑噪声数据，识别或删除离群，并解决不一致问题数据集成整合多个数据库，多维数据集或文件

4、数据缩减降维 Numerosity reduction 数据压缩数据转换和数据离散化正常化生成概念层次结构,数据清洗,在现实世界中的数据是“脏”的：不完整的：缺少属性值，缺乏某些属性值，或只包含总数据例如，职业=“ ”（丢失的数据）含嘈杂的噪音，错误或离群例如，工资=“-10”（错误）不一致的代码或不符的名称年龄=“42”生日=“03/07/1997” 曾经评级“1,2,3”，现在评级“A，B，C” 重复的记录之间的差异,不完整（缺少）数据,数据并不总是可用的例如，许多元组没有属性，如客户收入、销售数据的记录值丢失的数据，可能是由于设备故障与其他记录的数据不一致，从

5、而删除因误会而未读入在读入的时候，某些数据可能不会被认为是重要的不是历史或更改的数据注册丢失的数据可能需要被推断,如何处理丢失数据？,忽略元组：通常是类标签丢失时（这样做分类），每个属性的缺失值有很大的差别手动填写遗漏值自动填写全局常量属性含义属性意味着所有样本属于同一类最有可能的值：基于诸如贝叶斯公式或决策树推理,噪声数据,噪声：一个测量变量中的随机错误或方差原因收集工具故障数据录入问题数据传输问题技术限制命名约定不一致其他数据问题需要数据清理如重复记录数据不完整不一致的数据,如何处理噪声数据？,回归数据拟合聚类检测和删除离群结合计算机和人工检

6、查检测可疑的数据（例如人工处理可能的异常值）,数据清洗,数据的误差检测使用元数据（例如，领域，范围，依赖，分销）检查是否溢出检查唯一性规则，连续统治和空的规则使用商业工具数据清理：使用领域知识（例如，邮政编码，拼写检查），检测错误并改正数据审计：通过分析数据检测违规者（例如，关联和聚类规则和关系，寻找离群）数据迁移和整合数据迁移工具：允许指定的转换 ETL（提取/转换/加载）工具：通过图形用户界面允许用户指定转换两个过程的集成迭代和交互,数据集成,数据集成将来自多个数据源的数据组合成一个连贯的数据源模式集成：例如，A.cust-id B.cust-# 整合来自不同来源

7、的元数据实体识别问题：识别来自多个数据源的真实世界的实体，例如，Bill Clinton = William Clinton 数据冲突检测和解决对于同一个真实世界的实体，来自不同源的属性值可能的原因：不同的表述，不同的尺度，例如，公制与英制单位,数据集成中的冗余信息的处理,整合多个数据库经常发生数据冗余 Object identification：相同的属性或对象可能有不同的名字在不同的数据库中 Derivable data：一个属性可能是“派生”的另一个表中的属性，例如，年收入通过相关性分析和协方差分析可以检测到冗余的属性仔细集成来自多个数据源，可能有助于减少/避免冗余和不一致的

8、地方，并提高读取速度和质量,相关分析,2 (chi-square) test 2值越大，越有可能变量是相关的 The cells that contribute the most to the 2 value are those whose actual count is very different from the expected count 相关性并不意味着因果关系 # of hospitals and # of car-theft in a city 是相关的两者都因果联系的第三个变量为人口,2 (chi-square) test举例,2（卡方）计算（括号中的数字是预计计数基于两个

9、类别中的数据分布计算）这表明，组中的like_science_fiction和play_chess相关,相关分析数据（数字数据）,相关系数（也称为皮尔逊积矩系数）其中n是元组的数目，而p和q是各自的具体值， p和q是各自的标准偏差，如果R（p，q） 0，p和q是正相关的（p的值增加为q的），较高的相关性。 R（p，q）=0：独立； R（p，q） 0负相关,视觉评估相关,散点图显示的相似性，从-1到1。,相关（视为线性关系）,相关测量对象之间的线性关系为了计算相关性，将数据对象标准化，p和q，然后计算他们的点积,协方差（数字数据）,类似相关协方差其中n是元组的数目，p和q是各自的平均值

10、或期望值， p和q是各自的标准偏差。正的协方差：如果COV（p，q）0，则p和q都倾向于是大于它们的预期值。负的协方差：如果在COV（p，q） 0，则如果p是大于它的预期值，q是可能要小于它的预期值。独立性： COVP（p，q） = 0 可具有某些对随机变量的协方差为0，但不是独立的。一些额外的假设（例如，数据是否服从多元正态分布）做了协方差为0意味着独立,协方差：举例,它可以简化计算假设两只股票A和B具有在1个星期的以下值：（2，5），（3，8），（5，10），（4，11），（6，14）。问题：如果股票都受到同行业的趋势，他们的价格一起上升或下降？ E（A）=（2+3+5+4+6）

11、/5= 20/5 = 4 E（B）=（5+8+10+11+14）/5=48/5= 9.6 COV（A，B）=（25+38 +510+411+614）/ 5 - 49.6= 4 结论：A和B在一起上升，因为Cov(A, B) 0。,数据缩减策略,数据还原：还原面积更小、体积减少的数据集，但尚未产生相同（或几乎相同）的分析结果为什么数据缩减？ - 由于数据仓库可以存储TB的数据，因此在一个完整的数据集上运行时，复杂的数据分析可能需要一个很长的时间数据缩减战略降维，例如，删除不重要的属性小波变换主成分分析（PCA）特征选择，特征创建 Numerosity reduction 回归和对数线

12、性模型直方图，聚类，取样数据立方体聚集数据压缩,降维,原因随着维数的增加，数据变得越来越稀疏对孤立点分析使得密度和距离变得意义不大子空间的可能的组合将成倍增长降维作用避免维数灾难帮助消除无关紧要的属性，并降低噪音减少数据挖掘所需的时间和空间更容易的可视化降维技术小波变换主成分分析监督和非线性技术（例如，特征选择）,将数据映射到一个新的空间,傅里叶变换小波变换,Two Sine Waves,Two Sine Waves + Noise,Frequency,小波变换是什么？,分解成不同的频率子带的信号适用于n维信号转化的数据是在不同级别的分辨率中保存用于图像压

13、缩,小波变换,离散小波变换（DWT）的线性信号处理压缩近似：只有一小部分的小波系数最强离散傅里叶变换（DFT）类似，但在空间中有更好的压缩效果方法：长度L，必须是2的整数次幂（0填充，必要时）每个变换具有2个功能：平滑，差异适用于双数据，在两个集得到的长度为L/2的数据施加两个递归函数，直到达到所需要的长度,小波变换,小波：空间高效分解的数学工具 2，2，0，2，3，5，4，4可转化为S = S =23/4，-11/ 4，1/2，0，0，-1，0 压缩：许多小细节系数可以替换为0的，只有显示的系数被保留,为什么小波变换？,使用hat-shape滤波器强调区域点聚集的地方在边界

14、禁止较弱的信息有效去除离群值对噪声不敏感多分辨率在不同尺度检测任意形状的集群高效复杂度为O（N）只适用于低维数据,主成分分析（PCA）,原始数据投影到一个更小的空间，从而查找投影来捕获最大的变化量数据的，从而维数降低。发现协方差矩阵的特征向量，用这些特征向量定义新的空间,主成分分析（步骤）,从n维向量中的N个数据中，求kN个正交向量（主成分）能用来表示数据归一输入数据：每个属性落在相同的范围内（单元）计算K：正交向量，即，主成分每个输入的数据（矢量）是k个主分量矢量的线性组合通过排序减少“意义”或强度的组成部分由于这些组件的排序方式，消除了弱的元件，即具有低方差（即，

15、使用最强的主成分，也能够重建原始数据的一个很好的近似，可以减少数据的大小）,属性子集选择,通过属性子集选择以减少数据的维多余的属性复制所有的信息中包含一个或多个其他属性例如，购买一个产品的价格和支付额两个属性相同，是多余的属性不相关的属性不包含任何信息的属性例如，学生的ID往往在预测学生的GPA是不相关的,启发式搜索属性选择,d的属性有可能是2d属性组合典型的启发式属性选择方法： Best single attribute属性独立性假设：选择进行检验分步进行的功能选择：分步进行属性消除：反复淘汰不需要的属性最佳组合的属性选择和淘汰优化分支和绑定：使用属性消除和回溯,创

16、建属性（特征生成）,创建新的属性（特征），可以更有效地比原来的数据捕捉重要的信息三个一般方法属性提取 domain-specific 将数据映射到新的空间（见：数据缩减）例如，傅立叶变换，小波变换，歧管的方法（未覆盖） Attribute construction 数据离散化,Numerosity Reduction,通过选择更小的数据来替代从而减少数据量参数方法（例如，回归）假设数据适合一些模型，估计模型参数，只存储参数，并丢弃数据（可能的异常值除外）例如：对数线性模型在一个点在MD的空间作为产品上获得价值，适当的边际子空间非参数方法不要假设模型主要方法：直方图，聚类，取样，.,参数数据还原：回归和对数线性模型,线性回归：一次函数通常使用最小二乘法来拟合线多元回归：允许多维特征向量的线性函数建模为变量Y 对数线性模型：近似离散的多维概率分布,回归分析,回归分析：组成的一个因变量（也称为响应变量）和一个或多个独立变量（亦称解释变量或预测变量的值的数值数据建模和分析技术的统称）参数估计，以便使数据“最适合”

展开阅读全文