第20章数据的图形化展示

上传人:s9****2 文档编号:567918406 上传时间:2024-07-22 格式:PPT 页数:96 大小:1.94MB
返回 下载 相关 举报
第20章数据的图形化展示_第1页
第1页 / 共96页
第20章数据的图形化展示_第2页
第2页 / 共96页
第20章数据的图形化展示_第3页
第3页 / 共96页
第20章数据的图形化展示_第4页
第4页 / 共96页
第20章数据的图形化展示_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《第20章数据的图形化展示》由会员分享,可在线阅读,更多相关《第20章数据的图形化展示(96页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典 元昌安元昌安 主编主编 邓松李文敬刘海涛编著邓松李文敬刘海涛编著 电子工业出版社电子工业出版社谍僻况花卢捻逻惜球驻耶君橡胖蝉赏桂胯碳约秽垛销绊跋沃藤妄茸挥夸敝第20章数据的图形化展示第20章数据的图形化展示讽也锚跪却伏疹谓润沏祷钨渺铁驶坯趣瑰俭夕速猴绕畦奔特褪眺补锑考房第20章数据的图形化展示第20章数据的图形化展示第第20章章 数据的据的图形化展示形化展示使紧牵揍承坝摈专国阅汽凡骄衰冬势励妨策丁箕亩帘迎痕朗绢吴嘲苹均泣第20章数据的图形化展示第20章数据的图形化展示2 2本章的主要内容本章的主要内容本章的主要内容本章

2、的主要内容图表类型图表的创建使用图表散点图的显示条形图的绘制绘制直方图收集图显示多重散点图网络图显示评估节点图时间散点图的显示图图20-1 图形节点选项板图形节点选项板帮姻泵杯蛤刷旅饵禹何蒜学承环跌棺语秘婪戊掣默株静槽华妥丫阻幸踌缀第20章数据的图形化展示第20章数据的图形化展示20.120.1图表类型图表类型图表类型图表类型层叠图三维图动画效果图 掩旦娃弊削匙满委猎嫌硕弊肺呼歹陕烈宽彪口秋仕捅宫狼异盯黑窃怨慨皿第20章数据的图形化展示第20章数据的图形化展示20.1.1 20.1.1 层叠图层叠图层叠图层叠图缮扬秆肋仁首辛敢揖备诛屹工壬权李条拣面窗迄肯梁蛾冬夸综响品前轧苍第20章数据的图形化

3、展示第20章数据的图形化展示图图20-2以颜色为层次的图以颜色为层次的图图图20-3 以大小为层次的图以大小为层次的图轰调迄窜侗竹谱选巩免别非宏剐蝇故娟罚笨仆坏升踩猖迢狈赎焉逆赎腾亭第20章数据的图形化展示第20章数据的图形化展示图图20-4以颜色、大小、形状和透明度为层次的图以颜色、大小、形状和透明度为层次的图图图20-5以面板图为层次的图以面板图为层次的图招瞄理昨洽李复金头宵除献昼募赎吾觅闭曰酋斋兽劲妇款蔡虚整亡修坚红第20章数据的图形化展示第20章数据的图形化展示20.1.220.1.2三维图像三维图像三维图像三维图像有两种创建 3-D图像的方法: (1)将信息绘制在三维坐标轴上(真正的

4、 3-D图像)。 (2)将图像用 3-D效果显示。这两种方法对于散点图和收集图(如图20-6所示)来说都是可用的。 图图20-6 三维收集图三维收集图 逛劫蛾运甚饼棘根挪宇徒毅狮选蛮欠疡擂授帝再绪旺少挑船鲜铲演吱睁走第20章数据的图形化展示第20章数据的图形化展示将信息绘制在一个三维坐标轴上步骤如下: 在图表节点对话框中,选择 “散点图”页签。 单击 “3-D”图标按钮启动 Z轴的选项 。 使用“字段选取器”图标按钮来为 Z轴选择一个字段。 在一些情况下,只可以使用符号字段。字段选取器将显示合适的字段。 如果要对图像加3-D效果显示。可以在已经创建图表的输出窗口中选择“图形”对象,单击“3-D

5、”图标按钮来将视图转换为三维图像。 泉第幼栖蔡克枫尘丢兑僧丫庄琴练毯憾尿舒晃厕焙菲醇滔君伤赏喉蠕做割第20章数据的图形化展示第20章数据的图形化展示20.1.320.1.3动画效果动画效果动画效果动画效果散点图、多重散点图和直方图可以被设计为动画形式。使用带有三个类别的变量的动画点图如图20-7所示。一旦用户已经作出了一个带有动画效果的图像,就可以用各种方式使用动画工具:(1)在任何时点暂停动画按钮。(2)使用拖动滑块在想要观看的点处观看。检堤淘忽焙原铭走练贾刑燎咸校师漱乾洒斜盈却骋涅卖矢摄壬羽炬矢头过第20章数据的图形化展示第20章数据的图形化展示图图20-7动画散点图动画散点图萨怕溅雍警遮

6、亏羽傍厩利堪硅僻能滥蜘宰阔刨久咎没率杨闺语栖琶簇捻武第20章数据的图形化展示第20章数据的图形化展示20.220.2 图表的创建图表的创建图表的创建图表的创建对于所有图形类型,用户都可以为生成的文件名和显示方式指定以下选项。输出到屏幕:选择在一个 Clementine 窗口内产生并显示图像。输出到文件: 选择将生成的图像保存为一个文件, 此文件的类型是文件类型下拉列表中给定的。 文件类型:可用的文件类型有:(1)Bitmap(.bmp)(2)JPEG(.jpg)(3)PNG(.png)(4)HTML document(.hml)(5)Vizml(.xml)(6)Output object(.c

7、ou).文件名:指定生成的图所用的文件名。使用自定义()按钮来指定一个文件及其位置。椭杉准刘胯宝洒他猾灌寇矛偶堡柞痴禽亡杀劣柯揩闲佰睡慌签姜惭毋浩允第20章数据的图形化展示第20章数据的图形化展示图图20-8 散点图对话框输出设置散点图对话框输出设置 饰曼疯将梳护古饯呵斤抒中架勋梨骸龙辆饱流驯王屑裔蜂榴抱消柠试源索第20章数据的图形化展示第20章数据的图形化展示对于除了条形图以外的所有图来说,用户可以在图创建之前或者探索已生成图时指定外观选项。如图20-9所示为散点图对话框外观页签。图图20-9散散点点图图对对话话框框外外观观设设置置 阑呛闸壮秩拔吱刷委遭磺帜段楔眶摆渺糜特捅头盂步浊恨祥弧散即

8、程各些第20章数据的图形化展示第20章数据的图形化展示相关参数的说明如下:设置用于:使用下拉列表来选择 “标题” 、“说明” 或“标签”。 X(Y)标签:只可用于“标签”中,用户可选择“定制”来为X(Y)轴指定一个常用标注。Z标签:可以选择“定制”来为Z轴指定一个常用标注。显示网格线:这个选项是默认选定的,它在点或图后面显示出网格线使得用户可以更容易的确定区域和带的分割点。网格线常常显示为白色,除非图像背景也是白色的,这时它们显示为灰色。琅鞍券急犁枝睦俭媚墟炊轿短感煤猪漓粪活蝎劫居弊谬佣纂川撞惨篆侦水第20章数据的图形化展示第20章数据的图形化展示用户创建图形后,可用一些方法制定和操作我们创建

9、的图形,允许的操作方式包括:使用鼠标来选择一个图表区域以便进行更深入的操作。 使用菜单栏中可用的选项。不同的图表可能有不同类型的可用菜单和选项。 在选定区域上右击鼠标右键,给这个区域提供可用的内容菜单,如图20-10所示。同符范嗜厢慢匙蒂苯峪义身扦蕊粗莫炼钮腐澄漾氟宗距耍肃不帧妹刊蕊级第20章数据的图形化展示第20章数据的图形化展示图图20-10 在已选定区域中带有内容菜单的散点图在已选定区域中带有内容菜单的散点图访朋暴旷盖出赔轩束定语北阂起嚣隐甥污聪韶申罗筏码攀冕说搅矫妊脑椿第20章数据的图形化展示第20章数据的图形化展示还可以依据已创建图表的不同类型来执行下述操作: 使用鼠标高亮度表示划定

10、的矩形数据区域。 通过点击图像区域,高亮度表示直方图和收集图上的数据带。 识别并标注用户的数据子集。 基于图表上选定的区域来生成操作节点。篇贺源驯徽连久椎查焕掳忌缮虹蝇勃什敞误依染楷洗贮久羚宏信橡窒炸槐第20章数据的图形化展示第20章数据的图形化展示图图20-11 图形窗口文件菜单和工具栏图形窗口文件菜单和工具栏 席射弟沁柒肯与霖侄群滑汤小乳嗅对源腕臻压山磺讼脊城朵非堰陆原绊羊第20章数据的图形化展示第20章数据的图形化展示20.3 20.3 散点图的显示散点图的显示散点图的显示散点图的显示图图20-12散点图节点的设置散点图节点的设置 篷凄敝食柯升呀煽寺巳乃拘鲸儡毅诡氯语攒感望斤像询守吝瞪晶

11、魔见担洁第20章数据的图形化展示第20章数据的图形化展示相关参数的说明如下:X(Y)字段:从列表中选择一个字段并显示在X(Y)轴上,也被称为水平(垂直)轴或者横(纵)坐标。Z字段:当用户点击“3-D”图标按钮()时,第三个字段变得可用,用户可以从列表中选择一个字段并显示在Z轴上。交叠字段:包括颜色、大小、形状、面板、动画、透明度等。交叠函数:选择指定一个已知函数,将其比作实际的数值。挫湃理捆挡试囱绦汉趾鹤摔察今几句蛇听角惋放批戊铸巾腆钵酪聪沮迷腕第20章数据的图形化展示第20章数据的图形化展示20.4.320.4.3使用散点图使用散点图使用散点图使用散点图使用层叠,将会用图示说明在申报(值或数

12、字)和谷物的类型之间是否存在一定的关系。如图20-13所示。图图20-13 反映变量值和需求关系的散点图反映变量值和需求关系的散点图喧运湘娥怒丑茬汗蚜男盼收撼语搏捷奢错有焚沈仅仔侣俯萎倍搅幻焚依仙第20章数据的图形化展示第20章数据的图形化展示20.3.1 20.3.1 定义一个区域定义一个区域定义一个区域定义一个区域使用鼠标来定义一个区域的步骤:在图中某个地方点击鼠标的左键来定义区域的一角。 为了定义区域的另一个对角,将鼠标拖动到需要的位置。结果得到的矩形不能超过轴的边界。 放开鼠标按键来为这个区域创建一个永久矩形。新创建的区域被默认称为区域N,如图20-14所示。 图图20-14 定义一个

13、区域定义一个区域鲜骨忍苛饿疫惰其萄赛酱热缄叛钾徒初翟鸡丸躺赚距费型恿添匙秧答振闭第20章数据的图形化展示第20章数据的图形化展示按照以下方式使用鼠标,这样可以在图像窗口中产生反馈信息。在数据点上方停留鼠标可以提供此点所特有的信息,如图20-15所示。 在一个区域中右击并按住鼠标按钮,以提供关于此区域边界的信息,如图20-16所示。 直接在一个区域内右击鼠标来弹出一个带有更多选项的内容菜单,比如产生过程节点。吨歉桑肋像瑚竿曹洽填膛腔性滔拄疡可蛛躇雨驳乞瓢久瓮瑚荡殃谆俩鉴挑第20章数据的图形化展示第20章数据的图形化展示图图20-15 提示区域内某点特有的信息提示区域内某点特有的信息图图20-16

14、提示区域边界信息提示区域边界信息捌烹墓呸殆涡袖梯妨臀肾滩前须撵颅泥询芍研召洗晾趾请渣返韩死嘎凌犊第20章数据的图形化展示第20章数据的图形化展示20.3.2 20.3.2 删除已创建的区域删除已创建的区域删除已创建的区域删除已创建的区域 在已定义区域的任何地方点击鼠标右键。从内容菜单中,选择“删除区域”选项。如果用户已经定义了一个区域,那么用户可以选择一组记录,选择的标准是它们是否被包括在一个特定区域里或者在几个区域中。通过生成一个导出节点来标记记录标记的标准是它们是否被包括在一个区域中,用户还可以为一条记录合并区域信息。密篆抑摆亩皮葱透赣搞游占铃陆疚脖峦挽筋馈辖蔓实妆曲吊攀俐算汰粹耿第20章

15、数据的图形化展示第20章数据的图形化展示20.3.3 20.3.3 编辑图像区域编辑图像区域编辑图像区域编辑图像区域 选择“编辑”/“图形区域”菜单,即可打开如图20-17所示的编辑图形区域对话框来编辑。图图20-17 编辑图形区域对话框编辑图形区域对话框放禽嚣耘党再包却秃躺蒋取叉摧垂萤菜匣陕擂辫温蓬奏承匡阻耍沃扦泄惑第20章数据的图形化展示第20章数据的图形化展示用户可以用以下方式编辑图像区域。在区域名称栏输入对已定义区域名的调整。手动的通过调整X,Y的最小值,最大值来指定区域边界。通过指定名称和边界来加入新的区域。然后按下回车键来开始新的一行。通过在表格中选定一个区域,并单击删除按钮来删除

16、一个区域。昧虏瑚鲁扎坍纬缮陆疽丝洋俱圾悦酪倍缮侮怂愿鸭侧蓉芬避嚏茂米颜纫挥第20章数据的图形化展示第20章数据的图形化展示20.4 20.4 条形图的绘制条形图的绘制条形图的绘制条形图的绘制一个条形图像表现的是,在一个数据集中,符号型(非数值型)变量值的发生情况。条形图节点的一个典型用途是展示出数据中的不平衡。这种不平衡是可以通过在建构一个模型之前使用平衡节点来调整的。用户可以利用一个条形图形窗口中的内容菜单来自动生成一个平衡节点。 碱耪妨婆姚孔亢枚纹瀑姚彻伍魔蚊验敏测簧沛铡柱阔上趁簧锑胺秃先研刃第20章数据的图形化展示第20章数据的图形化展示图图20-18条形图节点设置条形图节点设置 岗承戈

17、绽翌蜀朝堰担啄称察禹郑色匀刻添碍航龙企隘底莲混诺李偶汕婿绥第20章数据的图形化展示第20章数据的图形化展示相关的参数设置如下:散点图:选择 “选定字段”单选按钮可以指出选定字段的分布。选择 “所有标志字段”单选按钮可以为数据集中的标记字段指出其真实值的分布。字段:用来显示变量值的分布。交叠字段:在上面已经选定字段的每个变量值中说明它的变量值分布。颜色:选择按比例决定条形,以使得所有条形能占满整个图形的宽度。排序:选择在条形图中用来显示变量值的方法。比例尺:选择按比例决定的变量值分布。怨萝粒省梧汁殉襄逝且蝎影掺汇尿靡红昼搜登禄瘪夯卓孽蜕集枕揪窃往聂第20章数据的图形化展示第20章数据的图形化展示

18、图图20-19 反应儿童反应数量的条形图反应儿童反应数量的条形图图图20-20 条形图生成菜单选项条形图生成菜单选项肥窑攻悲罕灿玻蚤赠纲丹斧赢棵肇恃习熟历乘易翻撑瘟漓身王委圭丢枢高第20章数据的图形化展示第20章数据的图形化展示其下一级子菜单选项说明如下:选择节点:从图像中选择任何一个单元来为这个类别产生一个选择节点。导出节点:从图形中选择任何一个单元来为这个类别产生一个导出标志节点。平衡节点(增加):这个节点将增大较小数据子集的规模。平衡节点(减少):使用这个选项来生成一个平衡节点,这个节点将减小较大数据子集的规模。重新分类节点(组):这个节点将按组分类以减少数据子集的规模。重新分类节点(值

19、):这个节点将按值分类以减少数据子集的规模。恼昔惊钧谚驮咬蔽郡汁振象佬妻晓媳疽妊神谆拎铸洞话锑誊泰踢象抿陪恶第20章数据的图形化展示第20章数据的图形化展示从一个条形图中选择并且复制变量值,具体步骤如下: 单击并按住鼠标左键不放,同时拖动鼠标来选择一组变量值。用户可以使用“编辑”菜单来选择所有变量值。 在“编辑”菜单中,选择“复制”命令。 贴到剪贴板上或者到想要放置的应用程序中即可。懦丛拼枢洒壬迷朽炽推介泻屯毡窄涯志万僻饼颐彪郸塌委脉象搁撅楔合吞第20章数据的图形化展示第20章数据的图形化展示20.5 20.5 绘制直方图绘制直方图绘制直方图绘制直方图图图20-21直方图的参数设置直方图的参数

20、设置 种防乱矣策撕与坛盖斋划禄宣顽精捂莫白丙坛斜钎渴牺痘诗桅祁歹盼溪儿第20章数据的图形化展示第20章数据的图形化展示相关的设置参数如下:字段:选择一个数值型字段,展示这个字段变量值的分布。交叠字段 :选择一个符号型字段来为以上选定的字段显示变量值的类别。 直方图有种层叠方式,分别是:颜色、面板、动画。御侮檄斗嚏华魄用锋签罗兹挪颅恋冷拜端数涪慈愧翁恒鞍沪魔枚挚嘿胜衔第20章数据的图形化展示第20章数据的图形化展示20.5.1 20.5.1 定义变量值的区域定义变量值的区域定义变量值的区域定义变量值的区域点击直方图中的任何一个位置,设置一条线来定义一个变量值的区域。或者,单击工具栏中的“区域”图

21、标按钮,将图像分成相等的区域。这种方法为工具栏添加了更多选项,用户可以使用这些选项来指定大量的相等区域。 如图20-22所示。截出荷说胖证果帅蚤椿樟根恩昧唾鲸萨时苛霖篓霹词住刹缩匝啤慨屠樟螟第20章数据的图形化展示第20章数据的图形化展示通过以下方式用鼠标在图像窗口中生成一个反馈信息: 将鼠标放在条柱上不动,可以提供关于条柱的特定信息。 通过在一个区域中右击鼠标并阅读窗口底部的反馈显示屏,可以检查一个区域的变量值范围。简单地在一个区域中右击鼠标,可以弹出一个带有更多选项的内容菜单,比如生成过程节点。通过在一个区域中右击鼠标并选择“重命名带状区域” 可以为区域重新命名。区域的名字被预设为区域N,

22、这里的 N等于从 x 轴左端到 x 右端的区域个数。 通过用用户的鼠标选定一条区域线并将它移动到 x 轴上所希望放置的位置,可以移动一个区域的边界线。 通过在一条线上右击鼠标并选定“删除带状区域”选项,可以删除区域。隔谰恍酥家叙泄彦瘴擞运丢窟戏痊涩琴痰班汰墨瞧蹄番饥克竖伴炭哲趟殖第20章数据的图形化展示第20章数据的图形化展示20.5.2 20.5.2 在一个特定段中选择或标在一个特定段中选择或标在一个特定段中选择或标在一个特定段中选择或标记记录记记录记记录记记录在区域中单击鼠标右键。注意区域的详细信息是显示在图形下部的反馈信息显示屏中的。从内容菜单中选择 “生成带状区域的选择节点”选项或者“

23、生成带状区域的导出节点”选项。“选择节点”选项选定的是在区域中的所有记录。而“导出节点”选项则是为变量值落入区域的记录生成一个标记。标记的字段名称与区域名称是相对应的, 对于在区域内部的记录设置标记为 T,而对于在外部的记录则设置标记为 F。撤卤喧矗绥披停掂旋离束签袋缅葫搪烧迢切淀笔袱椒绷坍换躇携赡差屡捂第20章数据的图形化展示第20章数据的图形化展示20.5.3 20.5.3 为所有区域中的记录生成为所有区域中的记录生成集合集合从图像窗口的“生成”菜单中选择“导出节点”选项一个新的导出设置节点出现在带有选项的流程区域中,这些选项是为了给每个记录创建一个新的被称为“区域” 的字段而设置的。这个

24、字段的变量值等于每个记录落入的区域名称。 辈讲级步奄偷淘万债矮噬烩沃旱辆具宋隘责蓖昌镣缸联纱咏巨弛攒伶逐乙第20章数据的图形化展示第20章数据的图形化展示20.5.4 20.5.4 编辑图型区域编辑图型区域编辑图型区域编辑图型区域选择“编辑”菜单的“图形带状区域”,打开编辑区域对话框,如图20-23所示。在“带状区域名称”栏用户可以给已经定义的区域名键入调整值。 用户可以通过调整 X和 Y的最大值和最小值来手动地指定区域的边界通过指定名称和边界来加入新的区域。然后按下回车键来开始新的一行。 通过在表格中选择一个段并且点击“删除”按钮来删除段。图图20-23 编辑图形带状区域对话框编辑图形带状区

25、域对话框意旱欺坦险表予苦绵肇坛螺曲免艇昆的拧蔓凄画施猿欲怨丹拿绵冠少耽陪第20章数据的图形化展示第20章数据的图形化展示20.6 20.6 收集图显示收集图显示收集图显示收集图显示图图20-24 收集图节点的参数设置收集图节点的参数设置谍氏古挂垂回哪唐灿挝漳抨责巷禁呕塞争牌陀壁展丑娥佣刨攻翔留桥扰府第20章数据的图形化展示第20章数据的图形化展示相关设置的参数如下:收集 :选择一个字段,其变量值将在“超出”中被聚集,并显示在下面给定字段的变量值范围中。只有尚未被定义为符号型的字段才能被列出。 超出:选择一个字段,其变量值将被用来显示上面指定的收集图字段。 由:在创建一个3D图像时被激活,这个选

26、项允许用户选择一个用来按类别显示收集图字段的设定或标记字段。 操作:选择收集图中的每个条柱都分别代表什么。选项包括“合计”、“平均值”、“最大值”、“最小值”、“标准差”。交叠字段:选择一个符号型字段来指示上述已选定字段的变量值的类别。选择一个转换收集图的交叠字段,可为每个类别都建立不同颜色的多重条柱。交叠方式有:颜色、面板、动画。挞滓陵疫蟹辆粱蹋锁诈历闭凡幂狭蛰离脓淤廓爵稀翘及分肃莲烷质扛坏姨第20章数据的图形化展示第20章数据的图形化展示图图20-25 3-D收集图收集图检暂蛙旦酿鸵钉咒铱露晒附查乘副携翱穗凄猎邻敦砍萨棉葵诬啸荣躯裴依第20章数据的图形化展示第20章数据的图形化展示图图20

27、-26 二维收集图二维收集图敝念桨恫遇悉弛泽栋种像颗妮氟程扮皖祈岁墙贸拆殃筑算心探票东坚状成第20章数据的图形化展示第20章数据的图形化展示一旦用户已经创建了一个收集图节点,图像窗口中的一些选项就可用了。例如,用户可以: 将X 轴上的数值范围划分为区段 。以是否包含在一个特殊段的数值范围内为依据,生成一个选择或导出标记节点。 选择一个导出集合节点,它可以指示出哪个区段包含一个记录的变量值。 生成一个平衡节点来纠正资料中的不均衡状况。 预还鲍纺七藏险佩顺号受笔号勺迈交窜枕免罩纳啸裹口谱瓣浙魏嘴综觅赃第20章数据的图形化展示第20章数据的图形化展示20.720.7多重散点图节点多重散点图节点多重散

28、点图节点多重散点图节点多重散点图是一种特殊类型的散点图,它显示的是一个单独的 X字段对应多个 Y字段的情况。 Y字段被绘制成带有颜色的线,而且每条线都与一个Y模式被设置为线、X模式被设置为“排序”的散点图节点等价。当用户有时间序列数据,并希望能发掘出某些变量在一定时间内的波动状况时,多重散点图时十分有用的。 诫茂儒哈广叶选附注棒杂狡疫衍袒橱女淌枚嘴健欧延笼赦侍娶戊篓机于畸第20章数据的图形化展示第20章数据的图形化展示图图20-27 多重散点图节点对话框多重散点图节点对话框腮提婚需隘鹏癌评桂住溶佳决啄榨斟套甚宴蓑吁潦麦厦批苔然烬沙寂锨悬第20章数据的图形化展示第20章数据的图形化展示相关设置参

29、数如图所示:X字段:选择一个沿着X轴显示的字段。Y字段:从列表中选择一个或多个字段来显示Y字段变量值的整个范围。交叠字段:有两种方式:面板和动画。标准化:此选项是为了能在图上显示而将所有Y变量值按比例缩小到0和1之间。标准化可以帮助用户发掘图中没有清楚显示出来的线条之间的关系。图20-28、20-29所示分别为标准化前和标准化后的多重散点图。疙度罗耐董翠夫毕篡誉剪瓷馆很两餐乘罐棠域粮酝囤翔淀槐棚士随奉矿别第20章数据的图形化展示第20章数据的图形化展示图图20-28 未未标标准准化化时时的的多多重重散散点点图图图图20-29 标标准准化化后后的的多多重重散散点点图图草涉膳湘汀脓综痕已蜜棒崭婿蛀

30、阀弥甫姥芝磋坝卵回饯抡最科巡唐珍里胚第20章数据的图形化展示第20章数据的图形化展示交叠字段函数:选择指定一个已知函数,将其比作实际的数值。当记录数大于:指定一个绘制大规模数据集的方法。用户可以指定一个最大的数据集规模或者使用默认的2000个点。间隔:当数据集包含多于指定数目的记录时,选择进行间隔储存。间隔就是在真正绘制和计算每个格子单元中出现点的数目之前,将图像划分出适当的格子。在最终的图像中,一个点将会被绘制每个的间隔质心上的单元中。样本:按照文本框中的记录数随机对数据进行抽样。劈痒鸿伸垮任寥执气蜜弛奉沟凶雌奖诅准腿香员眠狭突铃段谨趋希摔乍塔第20章数据的图形化展示第20章数据的图形化展示

31、20.8 20.8 网络图显示网络图显示网络图显示网络图显示网络图节点显示的是两个或两个以上符号型字段之间关系的强弱程度。这种图像通过使用各种不同类型的线条指示联系的强度来显示关系。例如,农业研究者可以使用一个网络图节点来研究各种农作物与地区和土质之间的关系。可幂赁庐蛾迢狄濒靡蹬柜学辅匿顽物梦郝药殃骸街膏虾阻迫占陀惹谅垫狼第20章数据的图形化展示第20章数据的图形化展示图图20-30 网络图节点对话框网络图节点对话框绑垒惯澳寺捣墓以桓枉妨猿玩问氏恃区爬函翱媳妥缎袄鹏搀靶膏执孕宰滩第20章数据的图形化展示第20章数据的图形化展示相关设置的参数如下所示:网络:选择创建一个网络图图像,可以阐明所有指

32、定字段之间的关系强度。 导向网络:选择创建一个有向网络图,可以阐明多个字段和一个字段变量值之间的关系强度,例如性别和信仰。当这个选项被选定时,“结束字段”输入框将被激活而且下面的字段控制部分将被重新命名为 “源字段”以使之更加清晰。结束字段:选择一个标志或设置字段,用于一个有向网络。只有尚未被明确设置为数值型的字段才能被列出。源字段:选择字段来创建一个网络图图像。只有尚未被明确设置为数值型的字段才能被列出。速寿逃画蛊耽瓤狈腿娱狸抹腆睛剐来略又亚娶萨哨敬草愤舷塌西持语兜渝第20章数据的图形化展示第20章数据的图形化展示仅显示真值标志:选择对一个标记字段只显示真值的标志。这个选项简化了网络图显示,

33、并且经常被用在正值的发生率具有特殊重要性的数据里。 线值为:从下拉列表中选择一个域值类型,分别为:绝对值、总体百分比、“目标“字段/值的百分比、“源”字段/值的百分比。粗连接较重:这是被默认选定的查看字段间连接的标准方法。 弱连接较重:此选项颠倒了粗体线条显示的连接的意义。这个选项被频繁地用在欺诈行为侦察或外来人员检查中。龚诺刨知丛贬阻帽疮嵌力唬颗够澜玫戴宫钡疲归讽绕色蹈软狠巢涎携距隧第20章数据的图形化展示第20章数据的图形化展示网络图节点被用来显示两个或两个以上符号型字段变量值之间关系的强度。关系被显示在一个图中,这个图用各种不同类型的线条来指示强度渐增的关联。用户可以使用网络图节点,例如

34、,探究胆固醇水平、血压以及在治疗病人疾病方面十分有效的药品三者之间的关系。如图20-31所示:图图20-31胆固醇水平、血压和药品之间的网络图节点胆固醇水平、血压和药品之间的网络图节点左僻绿烤萧段吊绦袖幼枉叛消潞抨雅宾缮漱枫惶穗匣洗夷八浇爪坤幌矮息第20章数据的图形化展示第20章数据的图形化展示说明:强链接用加黑线条表示:这显示出两个变量值具有很强的关联,进而应深入的研究。中等链接用一条普通线条表示。弱链接用一条虚线表示。如果两个变量值之间没有任何线条链接,那么这就意味着两个变量值从未在同一记录中出现过,或者也可能这种联合是在网络图节点对话框里给定的域值范围之外的一些记录中出现的。如果用户已经

35、创建了一个网络图节点,那么这里有一些选项可以调整图像的显示,并且为深层分析而生成节点。遍炼夯翌疟己瑰滔饭喇闻叉灾壁题贪梳廷言罩懦园板燕茧兼溯罐题尖悍叼第20章数据的图形化展示第20章数据的图形化展示对于网络节点和有向网络节点两者来说,用户可以:改变网络图显示的布局。隐藏某些点以简化显示。改变控制线条类型的域值。突出显示变量值之间的线条来指示出一个“经过选择的”关系。对于一个或多个“经过选择的”记录生成一个选择节点,或者生成一个与网络图中一个或多个关系向关联的导出标志节点。颅窃走瘦拣戎卖筒吐祸葵陇俩集狗蓟波蓑祷粟掂鲤班奉脂瞩盏滦收歹老括第20章数据的图形化展示第20章数据的图形化展示 在一个点上

36、单击鼠标并将它拖动到新的位置。 在网络图的一个点上右击鼠标并且从内容菜单中选择“隐藏”或“隐藏并重新计划”选项。 所有被隐藏的点,从图像窗口中的“网络”菜单里选择“全部显示并重新计划”选项,这样就可以显示所有的点。20.8.1 20.8.1 调整点调整点 爬钠敷菜酸武跑拌酝帆喝金炔钢蛾篙豪坚逢扫惭腹骆证坡佐技鞋综稀氏霍第20章数据的图形化展示第20章数据的图形化展示20.8.2 20.8.2 20.8.2 20.8.2 为单一关系选择或标记记录为单一关系选择或标记记录为单一关系选择或标记记录为单一关系选择或标记记录 在代表所感兴趣的关联的那条线上右击鼠标。 从内容菜单中,选择“生成链接的选择节

37、点”或者“生成链接的导出节点”选项。 选择节点将选定所有具有特定链接的记录。 导出节点生成一个标记,这个标记将指示出对于在整个数据集中的记录来说,选定的链接是否为真值。标志字段是通过合并链接中的两个变量值来命名的。岔痞颇吊侵综椅馈苇蛋酸滞绚揭科俗撑坞兄盆翠羔嗜郊搭康乓得血挂臂贸第20章数据的图形化展示第20章数据的图形化展示20.8.3 20.8.3 为关联选择或标志记录为关联选择或标志记录为关联选择或标志记录为关联选择或标志记录 在代表所感兴趣的链接的网络图里选择线条。 从图像窗口中的“生成”菜单,选择“选择节点(与)”,“选择节点(或)”,“导出节点(与)”,“导出节点(或)”选项。 毛鲁

38、伎谦勋茶法矿赴邦虾近挪艘败乐箍狭昏潭误巢攻征乎闲盟创挝水搔闯第20章数据的图形化展示第20章数据的图形化展示20.8.4 20.8.4 调整网络图阈值调整网络图阈值调整网络图阈值调整网络图阈值在用户已经创建了一个网络图以后,用户可以使用工具栏滑块来调整控制线条类型的阈值,以改变最小的可视线条。用户也可以通过点击工具栏上的黄色双箭头图标按钮来查看更多的阈值选项,以扩展网络图形窗口,如图20-32所示。涛尿互翘陵宾动屯洪邯阴酬缸琼匙倾熙描纽鹊伎册来壁统玉小届挎射麻倔第20章数据的图形化展示第20章数据的图形化展示图图20-32 带有显示和阈值选项的扩展窗口带有显示和阈值选项的扩展窗口防祷它粘钉嫌哑

39、劲披掺绥澡培娟丽陀詹魔茬臻横惕疙筑拒缎涛肥撩汀劝戏第20章数据的图形化展示第20章数据的图形化展示相关设置的参数如下所示:阈值为:在网络图节点对话框中显示创建过程中被选定阈值的类型。绝对值:以包含每一对数值的记录个数为基础的绝对值阈值。网络显示:为在输出图像中控制链接规模而指定选项。大小连续变化:选择显示一系列以真实数据值为基础的、反映链接强度变化的链接规模。大小显示强/正常/弱类别:选择显示三种强度的关系强、正常和弱。以上粗链接:为强关联(加重线)和规则关联(正常线)指定一个阈值。以下弱链接:为弱关联(点线)和规则关联(正常线)指定一个数字。桓沁咏针奔散碑棋堂狸头烟唉赦傍订犹蔓辜厂伺萌野炕小

40、环汀磨莲曙矢为第20章数据的图形化展示第20章数据的图形化展示20.9.5 20.9.5 创建一个网络图汇总创建一个网络图汇总创建一个网络图汇总创建一个网络图汇总用户可以创建一个列出强、中等和弱链接的网络图汇总文件,这个文件是通过点击工具栏上的黄色双箭头按钮来扩展网络图图像。然后选择“汇总”页签来查看每种类型的链接表。对每个表使用触发按钮可以进行表的扩展或隐藏,如图20-33所示。从簇素蒙豪沉纹蕊拭英树襟丈努晒郎饶季表榷鸟智园唬捻都剧脸贩筛材稀第20章数据的图形化展示第20章数据的图形化展示图图20-33 引出各字段之间关联的网络图汇总引出各字段之间关联的网络图汇总赃团唇像无碾著蛛笛软超豺摘挫

41、堵翻阐酶留猿熬配罐构吼从吸造球漫服似第20章数据的图形化展示第20章数据的图形化展示20.9 20.9 评估节点图评估节点图评估节点图评估节点图图图20-34 评估节点的设置项评估节点的设置项门威龄竟侨想锹珊因趴狠京册收励埃森桂愿性蔑绽番阜钩稻侣碉拜甄搽堰第20章数据的图形化展示第20章数据的图形化展示相关参数说明如下:图表类型:提供5种类型包括收益图、响应图、提升图、利润图、投资回报图。积累散点图:选择建立一个积累的图表。积累图中的变量值将被绘制为每个分位点与所有更高点相加的和。 包含基线:选择在图中包括一个基线。 散点图:从下拉列表中选择将要绘制在图表中的分位点的大小。 样式 :选择“线”

42、或者“点”单选按钮。点类型:通过下拉选项选择其中一个来指定点的类型,其包括:矩形、三角形、五角形、六角形、点、加号、星形等。悠峭腾凡悄阐禄星踏雷疤舱浩珍健拖福瞎羊窍傻犬掳灾活玄各飞剑缚仕沿第20章数据的图形化展示第20章数据的图形化展示评估图展示了模型在预测某些特殊结果时是如何执行的,具体实现的步骤如下: 以预测值和对预测的置信度为基础来为记录分类。 将记录划分为同样大小的组。 由高到低的为每一个分位点绘制商业标准的变量值。 多个模型在图中被表示为多条相互独立的线。 收褪迷起瞒针仰畅媚姥锋唤涯灶矢巡兢闽撂崇狐呕啄鞘宅鸭笨亏簧全涉返第20章数据的图形化展示第20章数据的图形化展示20.9.1 2

43、0.9.1 收益图表收益图表收益图表收益图表收益被定义为在每个分位点上的成功总数的一定百分比。它是用公式“(百分点位上的成功数/总的成功数)*100%”来计算的。收益图表如图20-35所示。图图20-35 收益图表收益图表块端搓聚昌讶摔曾虑蕉香坪啄鸦鸡免坠掌骤凳研何腻迭獭惠纶裔隔落乍件第20章数据的图形化展示第20章数据的图形化展示20.9.2 20.9.2 响应图表响应图表响应图表响应图表响应就是简单的分位点中的成功数占记录数的百分比。它是用公式“(分位点中的成功数、分位点中的记录数)*100”来计算的。用线表示的响应图表如图20-36所示。图图20-36 响应图表响应图表卯廊逞帚霍考篓胃厚

44、萍橡鼓拦阀磺瞄饭茁间哟敝局棺弓档篓蘑篙豫帮减荔第20章数据的图形化展示第20章数据的图形化展示20.9.3 20.9.3 提升图表提升图表提升图表提升图表 提升是将在每个分位点中成功数占记录数的百分比与在训练数据中成功数所占百分比做比较。它是用公式(分位点中成功数/分位点中记录数)/(总成功数/总记录数)来计算的。提升图表如图20-37所示。图图20-37 提升图表提升图表扣吵衬沼至捍棉殿宝炸秩罕绷鹿苔迎段汾茫辫瑚窗微豆硬泄掷渣诀舵脏痒第20章数据的图形化展示第20章数据的图形化展示20.9.4 20.9.4 利润图表利润图表利润图表利润图表利润等于每个记录的收入减去此记录的成本。一个分位点的

45、利润就是分位点中所有记录利润的简单加总。利润通常被假设为只能应用于成功,但成本却可以应用于所有记录。利润和成本可以被固定或者按照数据中的字段被定义。利润是用公式“(分位点中所有记录收入总和分位点中所有记录成本总和”来计算的。 用线表示的利润图如图19-38所示。图图20-38 利利润润图图表表卢炳掠浸安啸缉溃烦疽观额拼赫咏沿吵誊职下秧宏捏屎默其冀曙值凉魂淬第20章数据的图形化展示第20章数据的图形化展示20.9.5 20.9.5 投资回报率图表投资回报率图表投资回报率图表投资回报率图表投资回报率与利润是相似的,它们都包括了收入和成本的定义。投资回报率是将分位点中的利润与成本作比较。它是用公式“

46、(分位点中的利润/分位点中成本)*100”来计算的。投资回报率图表如图20-39所示。图图20-39 投资回报率图表投资回报率图表降肢筷病馈耸酒尖琵茬瞳魂尿绥陀钵擞辆哉渝舱季榷抡枣探堂椎毡且晨后第20章数据的图形化展示第20章数据的图形化展示20.9.6 20.9.6 读取模型评估的结果读取模型评估的结果读取模型评估的结果读取模型评估的结果20.9.6.1 收益图表收益图表 累积收益图表从左端到右端以0%为起点,以100%为终点。对于一个好的模型来说,收益图表将陡峭地升高到100然后渐渐变得平缓。而一个没有提供任何信息的模型将从较低的左端以斜对角线形状上升到较高的右端。 崇漓辣剩秽捍浮忌贤乙烙

47、顶芍伞尹囱暇贩祖遍蚂桌膊毯窗及疫显敲娥呸毒第20章数据的图形化展示第20章数据的图形化展示20.9.6.2 20.9.6.2 响应图表响应图表响应图表响应图表累积响应图表基本上与提升图表相似。只是缩放比例尺有所不同。响应图表通常是从100%附近开始,逐渐下降直到它们到达了图表右端的整体响应率为止。对于一个好的模型来说, 这条线在左端将从 100附近或恰好在 100上开始, 当用户向右移动时能够保持一个较高的稳定状况,然后在图表右端突然急剧地下降到整体响应率。对没有提供任何信息的模型来说,整个图像中曲线将一直在整体响应率附近围绕。 歧刘楔漫联糙烹兹衣逾戍涩霓哨炔鬼舍辖戊陇炭涕炔办夸直瓮售唇刊溜抗

48、第20章数据的图形化展示第20章数据的图形化展示20.9.6.3 20.9.6.3 提升图表提升图表提升图表提升图表累积提升图表趋向于从左到右,以高于1.0为起始逐渐下降直到到达1.0为止。图表的右端边缘代表的是整个数据集,因此,累积图的分位点中成功数与数据中成功数的比率为1.0。对于一个好的模型来说,应该是恰好从左端高于 1.0 处开始,当用户移动到右边时能够保持在一个高度稳定的水平上,然后到图像右端时突然急剧地减小到 1.0。而对于一个没有提供任何信息的模型来说,整个图像中曲线将一直在 1.0 附近围绕。 曳醉搬甩玉拙阁目绅辊甫舶北诽揽求仗月府镶宾祸美蓝惜馁任膘讽扬玫芍第20章数据的图形化

49、展示第20章数据的图形化展示20.9.6.4 20.9.6.4 利润图表利润图表利润图表利润图表累积利润图表显示的是当用户从左端移动到右端,来增加选定样本的规模是利润的总和。利润图表通常是从0附近开始,随着用户移动到右端稳定的增加,直到它们在中部达到一个最高点或平稳段,然后向表右端边缘逐渐下降。对于一个好的模型来说,利润图表将会在图表中部的某个地方展现一个定义得很好的最高点。对于一个没有提供任何信息的模型来说,这条线将会相对地比较直。并且依据所应用的成本/收入结构的不同可能是渐增的、渐减的或水平的。 邯跨织聪庇医委殊嘻柿玄禾廓杜键割轰善辙狠铡僻社堡淡惭萍喂痒津揍法第20章数据的图形化展示第20

50、章数据的图形化展示20.9.6.5 20.9.6.5 投资回报率图表投资回报率图表投资回报率图表投资回报率图表积累投资回报率图表趋向于与响应图表和提升图表相似,除了缩放比例有所不同。投资回报图表通常从高于0%开始,逐渐下降直到它们到达整个数据集的整体投资回报率为止。对于一个好的模型来说,这条线应该恰好在 0以上开始,随着用户向右端移动能够保持一个较高的平稳状态,然后急剧地变小到图表右端的整体投资回报率。对于一个没有提供任何信息的模型来说,这条线应该在整体投资回报率附近围绕。迹饱暮同蹋漓脸燕箔贡遭狐帜疲寂实淹钨烃膨岿幸愈雄侈叙谩钝桅超啼暇第20章数据的图形化展示第20章数据的图形化展示20.10

51、 20.10 时间散点图的显示时间散点图的显示时间散点图的显示时间散点图的显示图图20-40 时间散点图节点参数设置时间散点图节点参数设置遮皖筑宵纯吮宵都凯瑶虚娇瞥挎致涉皇劲幂趋宙菲熟聋敖蝶煤舶喝鸿趣拌第20章数据的图形化展示第20章数据的图形化展示相关参数说明如下:系列:选择系列。在单独面板上显示系列:选择此项,表示如果有两个或多个以上序列时,那么这些序列图将显示在不同的图上,而不是共同坐标轴。标准化:此项是为了能在图表上显示而将所有X,Y变量值按比例缩小到0和1之间。显示:提供3种显示方式(线、点和平滑线)。限制记录可绘制的最大记录数:用户可以自定义画点图是需要的记录数的最大值。他勇钳需碰

52、抱迄疏吻袜高埂看挺匡槛褪蹄鸳抉妹磷过强涡壮祭泞挑酌犁裤第20章数据的图形化展示第20章数据的图形化展示图图20-53 一张时间散点图一张时间散点图痊江国意斌否灌闻热惑血绕遭注除羚揍肢侍踌杉度多悉簇锡列已螟敢诛圈第20章数据的图形化展示第20章数据的图形化展示20.1120.11状态检测范例状态检测范例例20-1:利用Clementine系统提供的数据集cond1n,对一台机器提供的状态信息进行监测,识别和预测故障状态的问题。静作恋支悄消渔尝迄者琼皖辑肄郧多迪躲嘴夫随邯复廷爪畦檄驼怜示揪恫第20章数据的图形化展示第20章数据的图形化展示其分析和步骤如下:其分析和步骤如下:其分析和步骤如下:其分析

53、和步骤如下:1.在在数数据据流流中中加加入入一一个个变变项项文文件件节节点点并并读读取取数数据据集集cond1n,如如图图20-42所所示示为为读读取取的的数数据据。 图图20-42读取读取Cond1n数据集数据集脯信悄变围诛戚泉里署仪英钨侯否媚千萤苛邻别奏遏办耪杂山届胳升吹孽第20章数据的图形化展示第20章数据的图形化展示 分析可知,数据集分析可知,数据集Cond1n提供的数据是由机器正常执行时间和后续故障期间提供的数据是由机器正常执行时间和后续故障期间的记录组成的,如表的记录组成的,如表20-2 所示。所示。曝何窝苔捆孝啦因忍惠整突通邑趟庙吉嫡裳保疡醋每坤甄哭阵仲尹梧涩禁第20章数据的图形

54、化展示第20章数据的图形化展示3.分分别放放入入三三个选择节点点,将数据据outcome=101,202,303的的故故障障类型型分分开。如如图20-43所所示示为条件件=202的的选择节点点的的设置置。图图20-43 条件条件=202的选择节点的设置的选择节点的设置脾司奔供栏熄寻先祟甥诧邮涤踢蚊夸陌巴嫂拜募贯丑吴防组媚渔蹈缎侵渐第20章数据的图形化展示第20章数据的图形化展示4.将每每种故故障障类型型按按照照time(X字字段段) V. Power(Y字字段段) 和和 time V.temperature的的模模式式设置置散散点点图。如如图20-44所所示示。图图20-44 time V.

55、Power的散点图设置的散点图设置舀凄犊县选灵浅竟微蒙局巩汉侥孕产殖小缉硼徘姿宅爹遇妥初思焉吏着士第20章数据的图形化展示第20章数据的图形化展示5.将各各节点点以以图20-45所所示示的的方方式式连接接组成成数据据流流。图图20-45 已连接好的数据流已连接好的数据流障信苛轴螺愈情腐雌谩挝咬难扼宿噎瓦攀肩圃芝词颁抬父钨辙铺孺荫法组第20章数据的图形化展示第20章数据的图形化展示6.点点击各各散散点点图对话框框的的“执行行”按按钮,得得到到如如下下图20-4651所所示示的的散散点点图。图图20-46 101 time V.temperature散点图散点图乡各硅衙养蹭旧膘歇噬痈俯揣姓鱼倔被珊

56、年烟榔牺蕊吵帅暴乐沼努斜栈矛第20章数据的图形化展示第20章数据的图形化展示图图20-47 101 time V. Power散点图散点图票施祥唬撼毕么煤舟翼屎挛精团洲默暂廊丁厉希械攀怖烧缚类陆坛袜宾糙第20章数据的图形化展示第20章数据的图形化展示图图20-48 202 time V.temperature散点图散点图缩秋夕贷根陛露睁逼颓鲁潭番厅烘殷执跑叶抛练赐深严诡赊掇断仿蛇井宋第20章数据的图形化展示第20章数据的图形化展示图图20-49 202 time V. Power散点图散点图帛朔私鳖寻值扯敲淮趟吹叹播裂求附袍老蒂嚣响玄锁利魏慨栏攫撩份矣裹第20章数据的图形化展示第20章数据的图

57、形化展示图图20-50 303 time V.temperature散点图散点图辙颂雪灌篱式冷涩赏徒猫蛹拐查喇撤骑玻壶滇便洼僻铃挺芭嚣民闻负彼汉第20章数据的图形化展示第20章数据的图形化展示图图20-51 303 time V. Power散点图散点图 松巫寿毅溅宏痉滩纯甭滇邻敬候恬韶撂之捡抄芳辨蒜挠胜朵丽础篆顾尽姿第20章数据的图形化展示第20章数据的图形化展示 7.分析:从图20-4620-51可以看出,故障202的温度和功率时序模式有别于故障303和101.在故障202的模式中温度随时间递增,而功率不断震荡;其他故障模式则不然。但是,故障303和101的温度和功率时序模式则区别不大。两者的温度依时间不变,功率逐渐下降,但是看起来故障303的功率随时间下降得更快。 肋紧蛔液滚恶摄辙虽羔跳酚靳当熔媳恢舰沮龚遏卵秃净缸诬芯挝渺屏菱邵第20章数据的图形化展示第20章数据的图形化展示20.1220.12小结小结本章介绍了用于数据分析的图形节点及其使用,主要讲解如何对我们的数据进行图形化分析,讲解的内容包括:散点图、条形图、直方图、收集图、多重散点图、网络图、评估节点和时间散点图等等,掌握这些图形的作用和参数设置方法,对于数据挖掘工作来说也是非常重要的。辽已剔童较褂粘苟扎孕柑嘉宜蠕怪鸯霜揍泄教眼墅嚎墙塔取诈饮的矢保澡第20章数据的图形化展示第20章数据的图形化展示

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号