数据挖掘概念与技术CHAPTER2-了解数据教学材料

上传人:yuzo****123 文档编号:141308478 上传时间:2020-08-06 格式:PPT 页数:67 大小:1.59MB
返回 下载 相关 举报
数据挖掘概念与技术CHAPTER2-了解数据教学材料_第1页
第1页 / 共67页
数据挖掘概念与技术CHAPTER2-了解数据教学材料_第2页
第2页 / 共67页
数据挖掘概念与技术CHAPTER2-了解数据教学材料_第3页
第3页 / 共67页
数据挖掘概念与技术CHAPTER2-了解数据教学材料_第4页
第4页 / 共67页
数据挖掘概念与技术CHAPTER2-了解数据教学材料_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《数据挖掘概念与技术CHAPTER2-了解数据教学材料》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术CHAPTER2-了解数据教学材料(67页珍藏版)》请在金锄头文库上搜索。

1、Data Mining: Concepts and Techniques,杨昆 修译 Chapter 2 Jiawei Han, Micheline Kamber, and Jian Pei University of Illinois at Urbana-Champaign Simon Fraser University,Chapter 2: 了解数据,数据对象和属性类型Data Objects and Attribute Types 数据的(基本)统计描述Basic Statistical Descriptions of Data 数据可视化Data Visualization 测量数据相

2、似性和相异性Measuring Data Similarity and Dissimilarity 总结Summary,数据集合的类型,记录Record 关系记录 数据矩阵, e.g., 数值矩阵, 交叉表 文档数据: 文本文档:词频向量term-frequency vector 交易数据 图 and 网络 万维网 社会或信息网络 分子结构Molecular Structures 有序的 Ordered 视频数据: sequence of images 时间数据: 时间序列 time-series 序列数据:交易序列transaction sequences 遗传序列数据 空间, 图像imag

3、e and 多媒体multimedia: Spatial data: maps Image data: Video data:,数据对象,数据集由数据对象构成 一个数据对象代表一个实体 例子: 销售数据库sales database:客户/顾客,商店物品, sales 医学数据库: patients, treatments 大学数据库: students, professors, courses 又称为 样本, 事例,实例, 数据点, 对象,元组tuples. 数据对象由属性来描述 Database rows - data objects; columns -attributes.,属性,属性

4、Attribute (or维度, 特征, 变量):一个数据字段, 表示一个数据对象的某个特征. E.g., customer _ID, name, address 类型: 名词性Nominal 二元的 数字的Numeric: 数量的 Interval-scaled Ratio-scaled,属性类型,名词性Nominal:类别,状态, or “名目” Hair_color = auburn, black, blond, brown, grey, red, white 婚姻状态, 职业occupation, ID numbers, zip codes 二元 只有2个状态的名词性属性 (0 and

5、 1) 对称二元Symmetric binary: 同样重要的两相 e.g., gender 非对称Asymmetric binary: 非同等重要 e.g., 医疗检查 (positive vs. negative) 惯例Convention: assign 1 to most important outcome (e.g., HIV positive) 顺序的 Ordinal 值有一个有意义的顺序(排序) 但连续值之间的大小未知. Size = small, medium, large,等级,军队排名,数值属性的类型,数量Quantity (integer or real-valued)

6、区间Interval 在某个同等大小的一个尺度单位上Measured on a scale of equal-sized units 值有序 E.g., temperature in Cor F, calendar dates 没有真正的零点 Ratio 有真正的零点 可以讲值是被测量单位一个数量级 (10 K is twice as high as 5 K). e.g.,温度在开尔文,长度,计数,货币的数量,离散 vs. 连续属性,Discrete Attribute 一个有限的或可数无限集值 E.g., zip codes,the set of words in a collection

7、of documents 有时,表示为整数变量 注: 二元属性是离散属性的一个特殊情况 Continuous Attribute 属性值为实数 E.g., temperature, height, or weight 实际上,实值只能使用有限位数进行测量和代表 连续属性通常表示为浮点变量,Chapter 2:数据的统计描述,Data Objects and Attribute Types 数据的(基本)统计描述 数据可视化 测量数据相似性和相异性Measuring Data Similarity and Dissimilarity Summary,数据的(基本)统计描述,Motivation

8、为了更好的理解数据:集中趋势,变异和传播 数据离散特征 中位数, 最大, 最小, 粉位数, 离群点, 方差, 等. 针对排序区间的数值维 数据离散度: 多个粒度上的精确分析 排序区间的盒图/分位数图分析 某计算侧度下的离散度分析 折叠为某数值维度下 转化立方体上的盒图/分位数图,分布度量/代数度量/整体度量,从数据挖掘角度,需要考察如何在大型数据可中有效计算度量。 分布式度量 distributive measure 可通过如下方法计算的度量(函数):将数据划分成较小子集,计算每个子集的度量,合并计算结果得到整个数据集的度量值。 Sum, count 代数度量 algebraic measur

9、e 可用一个函数于一个或多个分布度量计算的度量 整体度量 holistic measure 必须对整个数据集计算的度量,度量数据的中心趋势,均值 (代数度量) (样本 vs. 总体): Note: n 样本大小,N 总体大小. 加权算术均值: 截断均值: 去掉高低极端值 中位数: 奇数则为有序集的中间值, 否则为中间两个数的平均 (基于分组数据)可以插值估计 众数Mode 出现频率最高的值(不惟一/每个值出现一次则没有) 1/2/3个众数-单峰的, 双峰的, 三峰的 Empirical formula:,2020年8月6日星期四,Data Mining: Concepts and Techni

10、ques,14,对称/偏斜数据,中位数, 均值, 众数:对称, 正倾斜和负倾斜数据,positively skewed,negatively skewed,symmetric,度量数据的离散度,四分位数Quartiles, 离群点 outliers ,盒图 boxplots 四分位数: Q1 (25th 百分位数percentile), Q3 (75th percentile) 中间四分位数极差 Inter-quartile range: IQR = Q3 Q1 五数概括: min, Q1, median, Q3, max 盒图: 盒两端为四分位数; 中位数标记; 添加胡须, 离群点独立标出

11、离群点: 通常是值高/低于四分位数1.5 x IQR 方差/标准差 (样本: s, 总体: ) Variance: (代数度量, 可伸缩计算) Standard deviation s (or ) 方差的平方根s2 (or 2),盒图分析,五数概括 最小值, Q1, 中位数Median, Q3, 最大值 Boxplot 使用盒子表示数据 盒子两端是第1/3四分位数, 即盒子高度为四分位数极差IQR 盒内的线表示中位数 胡须: 不超过四分位数1.5 x IQR 的最大/小数据点 离群点Outliers: 单独绘出满足某个离群点阈条件的离群点,可视化数据的离散度: 3-D Boxplots,正态分

12、布曲线的性质,正态分布曲线 , +:含有约68的测量(: 均值, : 标准差) 2, +2: contains about 95% of it 3, +3: contains about 99.7% of it,基本统计说明de图形显示,Boxplot: 五数概括的图形 Histogram直方图:值x-axis, y-axis表示频率 Quantile plot分位数图: 值xi 与fi (表明近似100 fi % 的数据 xi )成对 Quantile-quantile (q-q) plot: 对着另一个分位数,绘制一个单变量分布的分位数 Scatter plot散布图: 每个值对 为一个坐

13、标点绘于平面上,直方图分析,Histogram:图形显示每个列值的频率,条形图所示 显示有多大比例的点下落入每个类别 类别并不是均匀的宽度时有别于条形图一个关键:条形图的面积表示值而不是条形图的高度 a bar chart柱状图/柱形图 类别通常指定为变量的一些非重叠区间。类别(带)必须相邻,Histograms Often Tell More than Boxplots,两个直方图显示在左边有同样的boxplot表示 相同的值: min, Q1, median, Q3, max 他们拥有的是不同的数据分布 But they have rather different data distrib

14、utions,Data Mining: Concepts and Techniques,分位数图Quantile Plot,显示所有数据 (允许用户评估全部行为和不寻常的事件) Plots quantile information 对于升序中的值点xi ,fi 表明近似100 fi % 的数据 xi ;成对绘制(xi ,fi ),分位数-分位数图 (Q-Q图),对着另一个分位数,绘制一个单变量分布的分位数 观察:正从一种分布到另一个种是否有偏移? 例子表示分店1出售的物品单价 vs. 分店 2 的每个分位数.分店1出售的物品单价 倾向于低于分店2.,散布图Scatter plot,提供双变量的

15、数据的第一印象:点的聚集,离群点, 等 每个值对作为一个坐标点绘于平面上,正/负 相关数据,The left half fragment is positively correlated The right half is negative correlated,不相关的数据,散布图的例子,Chapter 2: 了解数据,数据对象和属性类型Data Objects and Attribute Types 数据的(基本)统计描述Basic Statistical Descriptions of Data 数据可视化Data Visualization 测量数据相似性和相异性Measuring D

16、ata Similarity and Dissimilarity 总结Summary,数据可视化,Why data visualization? 把数据映射到图形信息空间中获取视角 提供定性的概述(大数据集的) 在数据中搜寻 模式, 趋势, 结构,不规则, 关联 为进一步的量化分析发现有意义的区域及合时的参数 为衍生的计算机表示提供一个视觉证据 可视化方法的分类: 基于像素的可视化技术 Pixel-oriented visualization 几何投影可视化技术 Geometric projection 基于图标的可视化技术 Icon-based visualization 分层可视化技术 Hierarchical visualization 可视化复杂数据和关系,基于像素的可视化技术,对一个维度m的数据,在屏幕上产生m个窗口,每个维度一个 一个记录的m维度值被匹配到窗口中对应位置的m个像素上 像素的颜色值反映了相应的值,Income,(b) 信用限额,(c)交易额,(d) age,安排象素于圆弧片断,为节省空间并显示多个维度间的联系,往往是以一个弧形片段填充空间,Repres

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号