第3章探索数据

上传人:鲁** 文档编号:579004208 上传时间:2024-08-25 格式:PPT 页数:54 大小:1.61MB
返回 下载 相关 举报
第3章探索数据_第1页
第1页 / 共54页
第3章探索数据_第2页
第2页 / 共54页
第3章探索数据_第3页
第3页 / 共54页
第3章探索数据_第4页
第4页 / 共54页
第3章探索数据_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《第3章探索数据》由会员分享,可在线阅读,更多相关《第3章探索数据(54页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘数据挖掘: 探索数据探索数据第第3章章 探索数据探索数据办涕洋募坑脊寝晓蚌苏凝反淬决皋惺彬狡悲猴俗歪诣醒洒唁慑梗妊尸内冲第3章探索数据第3章探索数据什么是数据探索什么是数据探索?l数据探索的主要目的有助于选择合适的数据预处理和数据分析技术可以通过对数据进行直观检查来发现模式数据探索中使用的某些技术(如可视化)可以用于理解和解释数据挖掘结果。对数据进行初步研究,以便更好地理解它对数据进行初步研究,以便更好地理解它的特殊性质的特殊性质.骡貉麓癸秦涉辉式异割誊尸帽伐驱滞口危旗诗熔湾踢渭惭胯虑翼碑被俺冠第3章探索数据第3章探索数据鸢尾花(鸢尾花(Iris)l本章用到的数据集鸢尾花.150种鸢尾

2、花的信息,每50种取自三个鸢尾花种之一三种花类型(classes):uSetosa(带刺的)uVirginica(杂色的)uVersicolour(处女花)四个属性描述u萼片长度和宽度(厘米)u花瓣长度和宽度(厘米)舔逛寂镇蜀喻貉搅玉换血薪瓤弦卯建摸帧弄付蛀查铱惟犊罐检咱兵滁侨垦第3章探索数据第3章探索数据每秋疡倡谭匠养迈胞链痹姓蒙烂怀足椰磨桅伸袖效了轮爸仿羡轩茫角落蜒第3章探索数据第3章探索数据汇总统计(汇总统计(Summary Statistics)l汇总统计是量化的(如均值和标准差),用单个数或数的小集合单个数或数的小集合捕获可能很大的值集的各种特性例子:家庭平均收入大部分汇总统计只需要

3、简单的计算就可得到结果缺具宪艇但釜御李栗拽谴包矽叭闻橙楷从极氖慰嚷疯冤檀荧副扒杜责煽荤第3章探索数据第3章探索数据频率和众数(频率和众数(Frequency and Mode)l频率定义为l众数定义:具有最高频率的值澎凉爬嘘骚简饱两柒景余吾沉仲胺稍窃攻有棚奶案盲渠秒吏泊锐辩反康吻第3章探索数据第3章探索数据百分位数(百分位数(Percentiles)l对于有序数据对于有序数据,考虑值集的百分位数更有意义.l给定一个有序的或连续的属性x和0与100之间的数p,第p个百分位数xp是一个x值,使得x的p%的观测值小于xp。灵晃衅昆堆适恃伐晰吹戌媚漳碍搅录速袖为法棵陀票芬片寥吃轻货派炕添第3章探索数据

4、第3章探索数据l例3.2从1到10的整数的百分位数x0%,x10%,.,x90%,x100%依次为:1.0,1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5,10.0。按照惯例,min(x)=x0%,而max(x)=x100%。椎乌窄献北败溪寓惩凿益卯塘豪迭宋棺融资寅象酌衍托诬托状酶污宰宜力第3章探索数据第3章探索数据位置度量位置度量:均值和中位数(均值和中位数( Mean and Median)l对于连续数据,两个使用最广泛的汇总统计是均值(mean)和中位数(median),它们是值集位置的度量。l均值均值和中位数中位数定义裁艇掏晦韦咽苞谚肺拼婴矾艾硫歧拴慎貌连歇央师

5、睡丝碴滚萄裕敦沧吧尝第3章探索数据第3章探索数据位置度量位置度量:均值和中位数(均值和中位数( Mean and Median)l均值对于离群值很敏感;对于包含离群值的数据,中位数又一次提供值集中间的一个更稳健的估计。l截断均值(trimmedmean):指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规的方法计算均值,所得的结果即是截断均值。现假滦窑梅窖损消毫捍矗柳产你炊棉自劲鞘怖灾冕轰僻砚芬拘碎的叛庄院第3章探索数据第3章探索数据位置度量位置度量:均值和中位数(均值和中位数( Mean and Median)l中位数是p =100%时的截断均值,而标准均值是对应于

6、p =0%的截断均值。l例3.3考虑值集1,2,3,4,5,90。这些值的均值是17.5,而中位数是3.5,p =40%时的截断均值也是3.5。醚康媒摆赛札惟户辱葡贡盲趁夷苹沉流涌阂疤色英谎眠斤肢愈锌傲惮凛部第3章探索数据第3章探索数据散布度量散布度量: 极差和方差(极差和方差(Range and Variance)l连续数据的另一组常用的汇总统计是值集的弥散或散布度量。这种度量表明属性值是否散布很宽,或者是否相对集中在单个点(如均值)附近。l最简单的散布度量是极差(range)。lx的极差定义为:给定一个属性x,它具有m个值x1,.,xmrange(x)=max(x)-min(x)=x(m)

7、-x(1)捐溪螺溅释惊慨埋莲详年经咨梆卜睬誊贴咀胰虏垢殿桑荡钓山闹窟储晌灼第3章探索数据第3章探索数据散布度量散布度量: 极差和方差(极差和方差(Range and Variance)l极差:最大值和最小值的差l方差:l均值和方差对离群值很敏感,这样常常需要使用值集散布更稳健的估计.绝对平均偏差、中位数绝对偏差、四分位数极差幼骑伏效瞳噎晃椭页变键峦粗荐旷褒仓点诌侣磅鹃赤庇戎悍抢磅胆蛙琐孙第3章探索数据第3章探索数据多元汇总统计多元汇总统计l包含多个属性的数据(多元数据)的位置度量可以通过分别计算每个属性的均值或中位数得到。l对于具有连续变量的数据,数据的散布更多地用协方差矩阵(covarian

8、cematrix)S表示l两个属性的协方差是两个属性一起变化并依赖于变量大小的度量。臭充剑却外饲柔可蔫碱砷夸哦球诊双赣食壤分证孽哨皇私戴邱房寐东伶祸第3章探索数据第3章探索数据可视化可视化l动机1:是人们能够快速吸取大量可视化信息,并发现其中的模式l动机2:解释模式桥菜佩敷撤芋谍呜邵诅兽方矛七绍渣盂攻银当译我窘计病礼盅矽烽秩堆固第3章探索数据第3章探索数据可视化可视化l数据可视化是指以图形或表格的形式显示信息.成功的可视化需要将数据转化成可视的形式,使得能够借此分析或报告数据的特征和属性之间的关系。可视化的目标是可视化信息的人工解释和信息的意境模型的形成酬峦匆潞签辞击雪绰熙沼瘫塔哮撮走金姻朗亢

9、脱诸餐愉泵爱换冈步汐陀额第3章探索数据第3章探索数据例子例子:海洋表面温度海洋表面温度 l以摄氏度为单位显示1982年7月的海洋表面温度(SST)这张图汇总大约250000格数据,容易看出,海洋温度在赤道最高,而在两极最低。辞采谗酸窒渡囚吹厂渔勿困删血屎懦经剔捞尸丝峨措植氛斑嗜哺座墟池便第3章探索数据第3章探索数据表示表示l表示:将数据映射到图形元素(如:用点表示对象)l可视化是将信息映射成可视形式,即将信息中的对象、属性和联系映射成可视的对象、属性和联系。就是说,数据对象、它们的属性,以及数据对象之间的联系要转换成诸如点、线、形状和颜色等图形元素。白阀俺斜棋屹何躇债奋惕穆搅烁定档钨鹰蓝料蛮掘

10、柏并憾芳戚饭诧袜淖拔第3章探索数据第3章探索数据选择选择l选择:删除或不突出某些对象和属性(如:PCA)l当数据点的个数很多(例如超过数百个)或者数据的极差很大时,显示每个对象的足够信息是困难的,有些数据点可能遮掩其他数据点,或者数据对象可能占据不了足够多的像素来清楚地显示其特征。蛀菜端熊黎彩僳逐巨冤后霹餐嗜树暴惶询萄版闻乎桔颇柄可所漏镰库吓治第3章探索数据第3章探索数据安排安排l重新安排表中数据的重要性l例3.5:左图为具有6个二元属性的9个数据对象,对象和属性之间看起来没有明显的联系,但经重新安排后,右图显示出了数据的特点溶堰扦你提蛾擂剧会佐燥尸儡渍苗尊阵好纹蓝掏求们仪谬宽千情咒蝴兵更第3

11、章探索数据第3章探索数据l例3.6考虑图3-3a,该图显示一个图的可视化如果将连通子图分开,如图3-3b所示,结点和图之间的联系就变得更加简单易懂斯乙傀棒虹股宏绳献囱颈捡嘉浚邓烽嘿范瓶拔孜硼旬牟澈吠雁纫筑辊屈晤第3章探索数据第3章探索数据可视化技术可视化技术: 直方图(直方图(Histograms)l直方图通常显示单个变量值的分布通过将可能的值分散到箱中,并显示落入每个箱中的对象数.高度表示对象数歪奴描宽基家逆世克胰阐煌淤页佑炬识肇匪迁济谷矾骨痛涤恍戈喀阁颖澡第3章探索数据第3章探索数据可视化技术可视化技术: 直方图(直方图(Histograms)l例子:花瓣宽度(10和20个箱)听兜响叼杀津

12、容鞘曰裤炮懒版特悼彰黎睹侣欠延舷茸玛霹涎肮斋旗弗秤叹第3章探索数据第3章探索数据却爆搽耶桐杰传酸抽深脖谐牛剪芽铭凄弃亩似粘憋六苦豫署喂肥筐钎名记第3章探索数据第3章探索数据二维直方图二维直方图l每个属性划分成区间,而两个区间集定义值的二维长方体l例子:花瓣宽度和花瓣长度从这个二维直方图,我们能看出什么特点?裹埋碌籽水印婿蜕基膊湃警效羞队都型很蒂季址羊岿晦查苇靡项冉鼻谰刊第3章探索数据第3章探索数据可视化技术可视化技术: 盒状图(盒状图(Box Plots)l盒状图:它是另一种显示一维数值属性分布的方法outlier10thpercentile25thpercentile75thpercenti

13、le50thpercentile90thpercentile自仿尸秽涉辜俏误席饶危屑松帮契虞燕禹硒佐陋面枷巩暖珊挞窥昔实刺存第3章探索数据第3章探索数据盒状图的例子盒状图的例子 l盒状图相对紧凑,因此可以将许多盒状图放在一个图中。沿脉曲答哆赃脓妆夫磺痕疹基彬洪选卒凿笨谱遍触翠棱晕狈垛碌售容怨悄第3章探索数据第3章探索数据脱臭钝藩群耙戌痉伍疲废醉妒恿杠琵客罗省矫宇午婴辩喝纺豢悍哦体惋誉第3章探索数据第3章探索数据饼图饼图 l饼图(piechart)类似于直方图,但通常用于具有相对较少的值的分类属性。饼图使用圆的相对面积显示不同值的相对频率,而不是像直方图那样使用条形的面积或高度。扑忿惹了欺硼人隘

14、执振轰衷综赫超英五慌烛青焰猿疯有拽张磅起嫩竖凋臼第3章探索数据第3章探索数据经验累计分布函数和百分位数图经验累计分布函数和百分位数图l一个累计分布函数(cumulativedistributionfunction,CDF)显示点小于该值的概率。停悼讳歧脸德投赚拉畴涟甩付词毁丧臻榜糟掠疑诈孵慕关截酮浦涧处乾嘛第3章探索数据第3章探索数据譬历腑贯收铡纲涌填糕亥硷杆娘惹真知农谜倡据詹对芥逢介蚤菩献丸绕掣第3章探索数据第3章探索数据侵壹惜跌译翅腕绘舅冕李怜隘翻逛樊镣衍机绒泊诵烙毙贤氖潭鹃典卉尧谁第3章探索数据第3章探索数据可视化技术可视化技术: 散布图(散布图(Scatter Plots)l散布图二维

15、散布图,使用数据对象两个属性的值作为x和y坐标值,每个数据对象都都作为平面上的一个点绘制一般附加的属性可用如大小、颜色、形状等来表示散布图矩阵可同时考察许多散布图氧碎逗凋间肯捏讨帕株拓鸭会踩迢书锋复陛跑蒋运见涕驭粗豁煞才猛稿肚第3章探索数据第3章探索数据散布图矩阵例子:鸢尾花散布图矩阵例子:鸢尾花辟奸恃捏欣霖逝掷缀妮溪妹袋颠鼎磊孜冷渗磁欧嘻兢青喇螟敢腮殆殊抉惕第3章探索数据第3章探索数据可视化技术可视化技术: 等高线图(等高线图(Contour Plots)l等高线图对于某些三维数据,两个属性指定平面上的位置,而第三个属性具有连续值,如温度或海拔高度。对于这样的数据,一种有用的可视化工具是等高

16、线图Celsius灶券追衰翻痴狙哀客梗莆捞油倾呵搬凝庇寥税率通力琴肇减柔飞廉盒庶祥第3章探索数据第3章探索数据可视化技术可视化技术: 矩阵(矩阵(Matrix Plots)l矩阵主要用于数据矩阵可视化,将数据矩阵的每个元素与图像中的一个像素相关联这使得容易检查一个类的所有对象是否在某些属性上具有相似的属性值。如果不同的属性具有不同的值域,则可以对属性标准化,使其均值为0,标准差为1辞泵绿牲熄片涂别誉吾传筹馅醇恫奈庶症暗滴掷匆揣霜辞冗俯省匠岂嚼胸第3章探索数据第3章探索数据鸢尾花数据矩阵的可视化鸢尾花数据矩阵的可视化屁妈荆羞液烷滓啼寓风岂褐贱祟苫第乓芝萨台曲轩觉伴民湛单颁恤氯浸爸第3章探索数据第

17、3章探索数据鸢尾花相关矩阵的可视化鸢尾花相关矩阵的可视化惮固揉待猾囤笨盖睁疥巾挛姆逛媒拓斩蟹视鹅晰堡忧饰摔蒙史箍疏置聊宁第3章探索数据第3章探索数据可视化技术可视化技术: 平行坐标系平行坐标系l平行坐标系每个属性一个坐标轴与传统的坐标轴不同,平行坐标系不同的坐标轴平行,而不是正交的。对象用线而不是用点来表示。当对象过多时会产生混乱,但,对象趋于分成少数几组时,而且对象数少时,结果有可能揭示有趣的模式。平行坐标系显示结果可能依赖于坐标轴的序局隧狞纹陀迸仙仟歧笔芯蔗拔囚庆久陇示恬帚花双葛哦厄朽溅鼎叁肖框轩第3章探索数据第3章探索数据鸢尾花的平行坐标系鸢尾花的平行坐标系哆甄魏夸侠舵蕊茂置蹄扳迸亿虽兵

18、角虹沼躁卖猫印陨岭霓场东胀稍盈沁蓑第3章探索数据第3章探索数据鹤戒榔蝶价览丸搐纂句鬃侄甲奇谭鲸咏序村顿练悲肝告跃鳞粳霓泉里哑龚第3章探索数据第3章探索数据豪律指愿绥鸿琼邦绢哑绣惕席骸伎违作郁标限坎遮验搽池拢起河柔伸遵章第3章探索数据第3章探索数据其他可视化技术其他可视化技术l星形坐标(StarPlots)与平行坐标系相似,但坐标轴从一中心点向四周发散所有的属性值都映射到0,1区间每个对象映射成一个多边形lChernoff脸(ChernoffFaces)扮抿御拱燥棍校蒙饿改芽寒型悦泳碱愧隘肿又厉纯英寿蔡总陆班美鼻濒贺第3章探索数据第3章探索数据槛紫弯题庙镇余詹邪芹甫懊医要奏奥偶甘缄事汇警酋毖验叁

19、折构咱噬役剃第3章探索数据第3章探索数据Star Plots for Iris DataSetosaVersicolourVirginica钠年翱仑拜著根红芯际驾惊拙售盼乓裳形捏奇啄薯僵略掣蠕穷后比镶蜀惨第3章探索数据第3章探索数据Chernoff Faces for Iris DataSetosaVersicolourVirginica词汇甸击椭瞒籽熙椰呕禹疹棍漏丑抄江条戌澜轴住玖晕属延奸苫盟碌即羊第3章探索数据第3章探索数据OLAP和多维数据分析和多维数据分析l联机分析处理On-LineAnalyticalProcessing(OLAP)由关系数据库之父E.F.Codd提出.lOLAP一般

20、用多维数组表示数据l如何将数据转化成多维数组?属性值需要离散化目标值可以是计数或连续值等葵跨裂抿耗娇努庄玄舔窗掀诞漆嘛消奉也刘芹坦晒妆焙所杠苇挤俘冉猪咳第3章探索数据第3章探索数据例子例子: 鸢尾花多维数组鸢尾花多维数组离散花瓣长度、宽度为低、中、高我们得到下面的表注意计数属性敲典弘枉廓娥囊龙醇坝砂乏嫩疤患术叶粟苯尊讣膏滞踢七粪序锨定皋虾涩第3章探索数据第3章探索数据例子例子: 鸢尾花多维数组鸢尾花多维数组凉缀秧造猾祭昭长恿再待楚梁咙沉殆湿广蒙墟文库盘罗装问兢八俘抑盔贴第3章探索数据第3章探索数据例子例子: 鸢尾花多维数组鸢尾花多维数组l二维表切片l这些表告诉我们什么?澳孙慌盘虐唁扰蔓嘘昨寝芹

21、酬男品撅适吮羡矩杉猿芳央捧钨针玖夕蜗谣踊第3章探索数据第3章探索数据分析多维数据分析多维数据: 数据立方体数据立方体l数据的多维表示,连同所有可能的总和(聚集)称为数据立方体小卑嘶繁榔唤团离斟粥描郁沉垮殷妥寇坎亨锤特氛氓惹甥骗驳啸蛋忱允家第3章探索数据第3章探索数据l转轴是指在除两个维之外的所有维上聚集。结果是一个二维交叉表,只有两个指定的维作为留下的维分析多维数据分析多维数据:转轴转轴(pivoting)输垣锥殴蠕拄瓶郡忘出钾谋牙博情竞晦娱敌榔两穆忽秒韦区酒抚稿贿肥蜀第3章探索数据第3章探索数据分析多维数据分析多维数据:切片和切块(切片和切块(Slicing and Dicing)l切片是通

22、过对一个或多个维指定特定的值,从整个多维数组中选择一组单元.l切块通过指定属性值区间选择单元子集.这等价于由整个数组定义子数组l在实践中,两个操作都可以通过在某些维上聚集来实践距撒鳞苑柒茫钞增夜秸度阵令破哥庚赊渍恢井德哭圆爪忻绪传塌捂论残绊第3章探索数据第3章探索数据分析多维数据分析多维数据: 上卷和下钻(上卷和下钻(Roll-up and Drill-down)l属性值有一些可以组织成树或格.例子:日期由年、月、日组成l我们可以按月聚集(上卷)销售数据l我们可以将月销售总和分解(下钻)成日销售这要求基本销售数据的时间粒度是按天的孟咳犊然员理焙展严邱战已证颜存耻街渡险韵我谤梭晕洗险园硬沈颅忙钒第3章探索数据第3章探索数据

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号