第二章:数据预处理

上传人:ldj****22 文档编号:35748923 上传时间:2018-03-19 格式:PDF 页数:69 大小:3.48MB
返回 下载 相关 举报
第二章:数据预处理_第1页
第1页 / 共69页
第二章:数据预处理_第2页
第2页 / 共69页
第二章:数据预处理_第3页
第3页 / 共69页
第二章:数据预处理_第4页
第4页 / 共69页
第二章:数据预处理_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《第二章:数据预处理》由会员分享,可在线阅读,更多相关《第二章:数据预处理(69页珍藏版)》请在金锄头文库上搜索。

1、 数据数据挖掘挖掘 第二章:数据预处理第二章:数据预处理 本章内容本章内容 2.0 2.0 认识数据认识数据 2.1 为什么要预处理数据 2.2 数据清理 2.3 数据集成和变换 2.4 数据归约 基本要求:了解数据质量问题及其对挖掘的影响,掌握数据清理、集成和变换、归约等方法 2.0 认识认识数据数据 洞察数据有助于洞察数据有助于数据预处理与挖掘数据预处理与挖掘 数据由什么数据由什么类型的属性或字段组成类型的属性或字段组成 属性具有何种类型的属性值属性具有何种类型的属性值 属性是离散的还是连续的属性是离散的还是连续的 数据分布特性数据分布特性 数据数据可视化可视化 2.0 认识数据认识数据

2、数据对象与属性类型数据对象与属性类型 数据对象:数据对象:数据集由数据对象组成,一个数据对象数据集由数据对象组成,一个数据对象 代表一个实体代表一个实体 顾客、商品、患者顾客、商品、患者 又称又称样本样本、实例实例、数据点数据点、元组元组等等 属性:属性:表示数据对象的一个特征表示数据对象的一个特征 维、特征、变量维、特征、变量 一个给定对象的一组属性称作一个给定对象的一组属性称作属性向量(特征向量)属性向量(特征向量) 属性的类型属性的类型由该属性可能具有的值的集合决定由该属性可能具有的值的集合决定 2.0 认识数据认识数据 数据对象与属性类型数据对象与属性类型 枚举类型(枚举类型(nomi

3、nal attribute):分类类型):分类类型 属性值域是一个由符号、事物构成的有限集合属性值域是一个由符号、事物构成的有限集合 头发颜色、婚姻状态、职业头发颜色、婚姻状态、职业 不具备有意义的序、不是定量的不具备有意义的序、不是定量的 可用可用众数众数(mode)度量中心趋势度量中心趋势 二元属性(二元属性(binary attribute):布尔属性):布尔属性 只有两个类别与状态:只有两个类别与状态:0与与1, true与与false 对称的:对称的:两个状态分布或重要性相同。性别两个状态分布或重要性相同。性别 非对称的非对称的:两个状态分布或两个状态分布或重要性不是相同的。重要性不

4、是相同的。HIV 检验。检验。 2.0 认识数据认识数据 数据对象与属性类型数据对象与属性类型 序数类型(序数类型(ordinal attribute) 属性值之间存在有意义的序,相继值之间差是定性的属性值之间存在有意义的序,相继值之间差是定性的 大中小、职位、军衔大中小、职位、军衔 可可通过把数值量的值域划分为有限个有序列性得到序通过把数值量的值域划分为有限个有序列性得到序 数类型数类型 可用可用众数众数与与中位数中位数表示中心趋势表示中心趋势 2.0 认识数据认识数据 数据对象与属性类型数据对象与属性类型 数值属性数值属性(numeric attribute) 可用整数或实数度量可用整数或

5、实数度量 区间标度(区间标度(interval-scaled)属性)属性:用相同的单位尺度:用相同的单位尺度 度量。度量。 可用可用众数、中位数、均值众数、中位数、均值表示表示 比例标度(比例标度(ratio-scaled)属性)属性:可用:可用倍数表示。倍数表示。 可用可用众数众数、中位数、中位数、均值均值表示表示 2.0 认识数据认识数据 数据对象与属性类型数据对象与属性类型 离散属性:离散属性:具有有限个或无限可数个值具有有限个或无限可数个值 连续连续属性属性:如果属性不是离散的,则它是连续的,如果属性不是离散的,则它是连续的, 用实数表示用实数表示 2.0 认识数据认识数据 数据基本统

6、计描述数据基本统计描述 动机动机:为了更好的理解数据:为了更好的理解数据 获得数据的总体印像获得数据的总体印像 识别数据的典型特征识别数据的典型特征 凸显噪声或离群点凸显噪声或离群点 度量数据的中心趋势度量数据的中心趋势 均值、中位数、众数(模均值、中位数、众数(模) 度量数据的离散程度度量数据的离散程度 四分位数、四分位数极差、方差等四分位数、四分位数极差、方差等 2.0 认识数据认识数据 数据基本统计描述数据基本统计描述 算术平均值算术平均值 加权算术平均加权算术平均 截断均值(截断均值(trimmed mean):):去掉高、低极端值去掉高、低极端值 得到的均值得到的均值 e.g. 计算

7、平均工资时,可以截掉上下各计算平均工资时,可以截掉上下各2的值后计算的值后计算 均值,以抵消少数极端值的影响均值,以抵消少数极端值的影响 中位数:中位数:有序集的中间值或者中间两个值平均有序集的中间值或者中间两个值平均 整体度量;但是可以通过插值法计算整体度量;但是可以通过插值法计算近似值近似值 当观测数据数量很大,中位数计算开销很大当观测数据数量很大,中位数计算开销很大 niixnx 11 niiniiiwxw x112.0 认识数据认识数据 数据基本统计描述数据基本统计描述 众数(众数(Mode,模,模):):集合中出现频率最高的值集合中出现频率最高的值 单峰的(单峰的(unimodal,

8、也叫单模态)、双峰的,也叫单模态)、双峰的 (bimodal)、三峰的()、三峰的(trimodal);多峰的);多峰的 (multimodal) 对于对于适度倾斜(非对称的)的单峰频率曲线适度倾斜(非对称的)的单峰频率曲线,可以使,可以使用以下经验公式计算众数用以下经验公式计算众数 )(3medianmeanmodemean2.0 认识数据认识数据 数据基本统计描述数据基本统计描述 对称与正倾斜、负倾斜数对称与正倾斜、负倾斜数 据的中位数、均值和众数据的中位数、均值和众数 2.0 认识数据认识数据 数据基本统计描述数据基本统计描述 评估数值数据散布或发散的度量:评估数值数据散布或发散的度量:

9、极差、五数极差、五数 概括(基于四分位数)、中间四分位数极差和概括(基于四分位数)、中间四分位数极差和 标准差标准差 极差(极差(range):):数据集的最大值和最小值之差数据集的最大值和最小值之差 百分位数百分位数(percentile):第第k个百分位数是具有如下个百分位数是具有如下 性质的值性质的值x:k%的数据项位于或低于的数据项位于或低于x 中位数就是第中位数就是第50个百分位数个百分位数 四分位数:四分位数:Q1 (25th percentile), Q3 (75th percentile) 中间四分位数极差中间四分位数极差(IQR): IQR = Q3 Q1 孤立点:孤立点:通

10、常我们认为:挑出落在至少高于第三个通常我们认为:挑出落在至少高于第三个 四分位数或低于第一个四分位数四分位数或低于第一个四分位数 1.5IQR处的值处的值 2.0 认识数据认识数据 数据基本统计描述数据基本统计描述 2.0 认识数据认识数据 数据基本统计描述数据基本统计描述 2.0 认识数据认识数据 数据基本统计描述数据基本统计描述 例子例子 60th Percentile I = (60/100)*51 =30.6 30.6 不是整数,选择整数不是整数,选择整数31,故数值为,故数值为 66.1 33th Percentile I =(33/100)*51=16.83 16.83 不是不是整

11、数,选择整数,选择整数整数17,故数值为故数值为 63.6 Q1:13th62.9 ; Q3: 38th67.2 Q3-Q1=4.3 (62.9-1.5*4.3, 67.2+1.5*4.3)=(56.45,73.65) The OUTLIER is 52.7 Lower Fence = Q1 - 1.5(IQR) Upper Fence = Q3 + 1.5(IQR) 2.0 认识数据认识数据 数据基本统计描述数据基本统计描述 五五数概括数概括: min, Q1, Median, Q3, max 盒图:盒图:数据分布的一种直观表示数据分布的一种直观表示 方差方差和标准差和标准差 方差方差s2:

12、n个观测之个观测之x1,x2.xn的方差是的方差是 标准差标准差s是方差是方差s2的平方根的平方根 标准差s是关于平均值的离散的度量,因此仅当选平均值做 中心度量时使用 所有观测值相同则 s0,否则 s0 方差和标准差都是代数度量 niniiiniixnxnxxns1122122)(111)(112.0 认识数据认识数据 数据基本统计描述数据基本统计描述 例子:例子:5个数据个数据 30.8, 31.7, 30.1, 31.6, 32.1 平均值平均值:31.26 8019.0643.0643.04572.2426.311.3226.316.3126.311.3026.317.3126.318

13、.30152222225122 ssxx sii2.0 认识数据认识数据 数据基本统计描述数据基本统计描述 68.26% 的数据分布在的数据分布在 s = 31.60.8 = 30.8, 32.4 95.44%的数据分布的数据分布在在 2s = 31.61.6 = 30.0, 33.2 99.73%的数据分布的数据分布在在 3s = 31.62.4 = 29.2, 34.0 至少至少 (1 - 1/k2 )的数据分布在的数据分布在 -ks, +ks 2.0 认识数据认识数据 数据基本统计描述数据基本统计描述 盒图:盒图:数据分布的一种直观数据分布的一种直观 表示:表示: 端点在四分位数上,使得

14、盒端点在四分位数上,使得盒 图的长度是图的长度是IQR 中位数中位数M用盒内的线标记用盒内的线标记 胡须延伸到最大最小观测值胡须延伸到最大最小观测值 该盒图为在给定时间段在该盒图为在给定时间段在 AllElectronics的的4个分店销售个分店销售 的商品单价的盒图的商品单价的盒图 分店分店1:中位数中位数$80,Q1: $60,Q3: $100 2.0 认识数据认识数据 数据基本统计描述数据基本统计描述 2.0 认识数据认识数据 数据基本统计描述数据基本统计描述 常用的显示数据汇总和分布的常用的显示数据汇总和分布的方法方法 直方图、分位数图、直方图、分位数图、q-q图、散布图和局部回归曲线

15、图、散布图和局部回归曲线 直方图:一种单变量图形表示方法直方图:一种单变量图形表示方法 将数据分布划分成不相交的子集或桶,通常每个桶宽度一致将数据分布划分成不相交的子集或桶,通常每个桶宽度一致 并用一个矩形表示,其高度表示桶中数据在给定数据中出现并用一个矩形表示,其高度表示桶中数据在给定数据中出现 的计数或频率的计数或频率 05101520253035401000020000300004000050000600007000080000900001000002.0 认识数据认识数据 数据基本统计描述数据基本统计描述 直方图能够比盒图展现更多的信息直方图能够比盒图展现更多的信息 这这两个直方图两个直方图具有相同的具有相同的min, Q1, median, Q3, max 但是它们具有不同数据分布但是它们具有不同数据分布 2.0 认识数据认识数据 数据基本

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号