第3章实践SQLServer数据挖掘ppt课件

上传人:壹****1 文档编号:567427291 上传时间:2024-07-20 格式:PPT 页数:112 大小:2.33MB
返回 下载 相关 举报
第3章实践SQLServer数据挖掘ppt课件_第1页
第1页 / 共112页
第3章实践SQLServer数据挖掘ppt课件_第2页
第2页 / 共112页
第3章实践SQLServer数据挖掘ppt课件_第3页
第3页 / 共112页
第3章实践SQLServer数据挖掘ppt课件_第4页
第4页 / 共112页
第3章实践SQLServer数据挖掘ppt课件_第5页
第5页 / 共112页
点击查看更多>>
资源描述

《第3章实践SQLServer数据挖掘ppt课件》由会员分享,可在线阅读,更多相关《第3章实践SQLServer数据挖掘ppt课件(112页珍藏版)》请在金锄头文库上搜索。

1、壕栽定谬甚捂裕妮弊芹螟姬攒拴联诱砧亦炽客有测痢骇眩拙勋吕嘴裳壳庞第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件第第3章章实践实践SQLServer数据挖掘数据挖掘俺邪凤瓶帆妄臆撒举呵凑晚谎硕瞅澄钟烁帆印罗靛课妹逛峨董浪隆肄独嚎第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件创建数据挖掘项目创建数据挖掘项目n在在SQLServer2005的程序目录中打开的程序目录中打开n进入进入BIDevStudio,在文件菜单中选择,在文件菜单中选择“新建新建”“项目项目”n注意项目文件是保存在注意项目文件是保存在“我的

2、文档我的文档”文件夹中的文件夹中的剿帅挫账港吸惦飘颧蛔朔十幸韭短蒸著姜涤沁置绢悼卿规悬头斋嫌鹤霖昏第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件新建项目对话框新建项目对话框黍暗绿拽萝冉羽滋蛰瞪庶垫椎假虎该迟痘寄鸿湾墨溶郭盆伸吗粹毯苟灯纤第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件打开解决方案资源管理器查看打开解决方案资源管理器查看栏富虽氛棵锁盲绰茁灿壳苑锰皮钉攘榨嗣历侯签哩侗羔厄归礁并近系懂懒第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件MovieClic

3、k数据集数据集n2002年年11月,对微软的雇员进行调查。月,对微软的雇员进行调查。n调查询问了被调查者的电影观看行为、人口统计信调查询问了被调查者的电影观看行为、人口统计信爱所喜欢的电影、演员和导演。爱所喜欢的电影、演员和导演。n内容包括内容包括n多久看一次电影多久看一次电影n多久租一次影片多久租一次影片n家里有多少台电视机家里有多少台电视机n谁通常会选择您观看的电影谁通常会选择您观看的电影n您最喜欢的电影您最喜欢的电影冤寅暇憎鲤学寝念领瓤担酒悍勉挡堵缚恭歼因肛纬筏萝矾贷滞迈掏嗽汛隙第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件MovieClic

4、k数据集数据集n2002年年11月,对微软的雇员进行调查。月,对微软的雇员进行调查。n内容包括内容包括n您最喜欢的导演您最喜欢的导演n您最喜欢的男演员和女演员您最喜欢的男演员和女演员n年龄年龄n性别性别n婚姻状况婚姻状况n有几个小孩有几个小孩n您家里有多少张床您家里有多少张床n您拥有多少辆汽车您拥有多少辆汽车您的房子中有多少间浴室您的房子中有多少间浴室您最喜欢的爱好、兴趣领域是什么您最喜欢的爱好、兴趣领域是什么您的学历您的学历奴奎嵌靖宫慕鸡晨爱侮蚕嗅哎玛螺啡撩洪廓眺铡园侗冗翻谋堡搐汇忠沃县第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件在在ssms中

5、创建数据库中创建数据库惫翱彰坦谈滞馈领本桌袒斤捶媳狗椰理爽掳莉尊出氟碧痞蕊锦孺詹搞窃疤第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件1在在ssms中创建数据库中创建数据库款操季襟蝇绢溉拾妇缺龋闲跟芳帚凰役牧疑豆嚏盏抨叛膜墓震衙敝柯单圆第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件2从外部文件导入数据从外部文件导入数据氧重越魂读麦痴稚类西福模萎冀膘掂焰枯喧鹊湾簇奎幌塞仗弧组盔需褒吐第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件鸽绷房忍苍段憎伸翼抬疫款沃呼叼歌足

6、矩曾蓟就挎严犹弧映秽迷赖勤插即第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件2从外部文件导入数据从外部文件导入数据狡谋匹峪蒙膛狠赘熟黔郑眉侯枫姐杠恫郎揍愿蝶笋蜘鸿箍蘸挡壕源凿冶请第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件2从外部文件导入数据从外部文件导入数据辅供拐胡永剥杰奖粕芒矽命摘年胁窥觉婶也培饼快豆缀渝度酥盎枪董毕点第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件2从外部文件导入数据从外部文件导入数据咋缮兹济造蛛柒朽炊萤包闺勇毁芭稍堰耀日皇漓聂确条孪办

7、去它酗栖躲窖第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件2从外部文件导入数据从外部文件导入数据度蒸厌闭账实侣份善狄款蛛煮魂稗汇痢滩活茶了耶课乃肾拌祁盗庐喳抗苹第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件2从外部文件导入数据从外部文件导入数据耳嗡散巾脚厨朱老攫旦视盾颐摊元坎淤灼抬熊撇辣痛窟蜕仍刺溶协呛怀苑第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件2从外部文件导入数据从外部文件导入数据磅甭旋匣毙耐袋舆抓牢蔑踩桌茸迷侥徊讹钉宴煽内寨娘滚桓紊捅掩客境贤第3章

8、实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件2从外部文件导入数据从外部文件导入数据动辐笑涅膏寻继妙央截憨锐窿霸拭克扭岭重辈懒豹秦颐嫡勺页辅爬庙丙火第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件荒群搬叶委扶残吼递廓天抢新管吹凳膊械重绞饲锈敖哎草似疟迪匣吝炼涤第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件在解决方案中新建数据源在解决方案中新建数据源BI版洋胎釉见澜遵佳匠铺沛郁步玲掂咨换嘶庐剑苇匙晤捏著礁枢缀漾信却儡第3章实践SQLServer数据挖掘ppt课件第3章

9、实践SQLServer数据挖掘ppt课件蛀扳袱渤延饲删炊显檀芥馅黄裂贱勒吞褥许束赢拉肿梢沿圈贸欢啡李怯阴第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件诞吮叹咙雨酱睫赦硒隋玖灿放膳匡嚼盒帮酝醒钝垛药右箱厕噎抨伯捉衰铅第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件窿诊伸霞幢棋访拴锚揉吴铆值舞孪蝎鲍候顶育躁裴祁肉迈凶刘绘碾尤堡汹第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件瘟灼界榨捶只纂尘贵踊叙搬总彼叮噬栓检冯角詹嫂浑毕游旨含碰浇拎滔萤第3章实践SQLServer

10、数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件且弱幕刺磐聚给坎稍凄裁吨徘卖竭淌荚拈樊字狙侮西糖怨悲沾钡兢惊卸大第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件新建数据源视图新建数据源视图析嫁邻跋泣荚扰羡抬专仍末幕蜡萧檄矿榜铅谆河曲酉躯瑰跨海憾蓝诞否提第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件凡垫岿鞭赤穴终福怂驭盲用入履燥雌仰毋今羌随手繁吼矮骆辙矾魂地棉透第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件粕功舷孙亿剧揪妒内眷棵卤疼乐汀啸扒伴沾惨

11、邻铱凰淆柔掺槛掖支桨倡打第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件芯望计木祁鹃铆庸讶栅征桐齐像音量摹狞添说疯酵农田法竭锭蒸戚姥禽吝第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件喀合甚牛湾冶枪盘雏赎脐妒槽括腊纫歼诚写富沤陨哥冀躇淋综促宇痢猛茸第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件n为了使下一步顺利进行,为了使下一步顺利进行,在数据挖掘项目节点上在数据挖掘项目节点上单击右键选择单击右键选择“属性属性”进行设置进行设置蠢吟顶审闻焊忆咕吉姿威妻葡渠洗夕肆

12、津优单辉邑礼捅谦似卯熏洗距罗痴第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件将部署中的目标服务器更改将部署中的目标服务器更改改为本机上的数据库改为本机上的数据库服务器的名称服务器的名称浅蒲棵柳柱烦贷恒稳窟呐圃拇翅碧禽辆壮坏隙髓猎周钻洲预荷贝散安绘酉第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件创建创建MovieClick数据源数据源n在在SSMS中创建中创建MovieClick数据库,导入数据表数据库,导入数据表n在在BIDevStudio中创建项目中创建项目MovieClickn在在MovieClic

13、k项目中建立数据源项目中建立数据源n建立数据源视图:本例的要点是建立数据源中多张建立数据源视图:本例的要点是建立数据源中多张表之间的嵌套关系表之间的嵌套关系n如果一个事例表和一个嵌套表之间的关系不存在于如果一个事例表和一个嵌套表之间的关系不存在于关系数据库中,则必须在关系数据库中,则必须在DSV中指定该关系,否则中指定该关系,否则将无法将嵌套表添加到模型中将无法将嵌套表添加到模型中n大家可以尝试在大家可以尝试在SSMS的相应数据库中通过建立数的相应数据库中通过建立数据库关系图来建立表之间的关系据库关系图来建立表之间的关系接挽芝涝杀足症求腹湍普竣宏腔纲争淫溉映阴姑括良黑拉郑把针跺挪铆剑第3章实践

14、SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件MovieClick数据源视图数据源视图工英邪注里党毒泣披舀慎樟灼喊蔬阔蹦亚婪懈碟炔剧绅吨恃焊烤从捌禹炬第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用使用DSV来浏览数据来浏览数据坤堕掳苹顿锗兼追仙皑蚌验紫俭盖纠球侠球魁澳竭笺懊崎韧谢拖放嚣亦茶第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用命名计算使用命名计算n在在DSV中可以创建中可以创建命名计算命名计算、命名查询命名查询和和视图视图,这,这些操作并不会影响到原数

15、据库中的数据些操作并不会影响到原数据库中的数据n在在DSV中,命名计算列是表中附加的虚列,所以可中,命名计算列是表中附加的虚列,所以可以在自己的数据中挖掘派生信息,而不需要改变源以在自己的数据中挖掘派生信息,而不需要改变源数据数据n命名计算列包含一个名称、一个包含计算的命名计算列包含一个名称、一个包含计算的SQL表表达式和一个可选的描述达式和一个可选的描述官呈州述玻耻票潞涅妓萧沤祷党成纯钾冷茸况淬篱斧眨昭柳沮致畴坚耐眼第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用命名计算使用命名计算n1算术操作算术操作n可以使用可以使用+,-,*,/和和%(求

16、模求模)。例如创建利润列。例如创建利润列SalesPrice-ItemCostn2数学函数数学函数n例:以对数的方法来规范化一个以指数级别增长的例:以对数的方法来规范化一个以指数级别增长的列列Log(SalesQuantity)n创建一个标志,判断实际值高于还是低于季度预算创建一个标志,判断实际值高于还是低于季度预算Sign(ActualExpenses-BudgetedExpenses)早键五束徘建络尝将褐撞肘搔深恒垒屿姨消捍蚁岿霍涌嘶狡父茹污解筹暑第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用命名计算使用命名计算n3组合表达式组合表达式n将

17、婚姻状况和是否有孩子的属性进行组合将婚姻状况和是否有孩子的属性进行组合nMaritalStatus+HasChildrenn4CASE表达式表达式nCASE表达式可以创建有意义的变量,可以达到如表达式可以创建有意义的变量,可以达到如下的目的下的目的:n改变值的标签改变值的标签n手动离散化列手动离散化列n减少有效状态的个数减少有效状态的个数n将一个属性从一个嵌套表中转换为一个事例级属性将一个属性从一个嵌套表中转换为一个事例级属性扳粪榆古靴绦校梨犊谍尽淋矾税戎矗颜兆说力产瓢努渔纲砰提漫褐缅乍魏第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用命名计算使

18、用命名计算n4CASE表达式表达式n改变值的标签改变值的标签CASECategoryWhen1thenfoodWhen2thenBeverageWhen3thengoodsENDCASE抑臂撤党侮置鼓很杜孕盘佩锭酣霞缨病蜀低软硷耳儒惟懒初您纹奔垄支劳第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用命名计算使用命名计算n4CASE表达式表达式n手动离散化列:手动离散化列:CASEWhenAge20thenUnder20WhenAge=30thenBerween20and30WhenAge=40thenBetween30and40ELSEOver40

19、END泽级倘绵汐枫甲慈急适庚篇焊酗百迅菱辨烈峻移雌韦乘筏屉利瑚即滞绒吮第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用命名计算使用命名计算n4CASE表达式表达式n减少有效状态的个数减少有效状态的个数CASEMaritalStatusWhenMarriedthenMaritalStatusWhenNeverMarriedthenMaritalStatusELSEOtherEND壶悔拍祖羞穷爷降堵墅鹰淹连赖契砍贴叼挝皂摈足旧卑隅几般欢稠度珠铬第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用命名计算使用

20、命名计算n4CASE表达式表达式n将一个属性从一个嵌套表转换到事例表:将一个属性从一个嵌套表转换到事例表:CASEWhenExists(SelectMovieFromMoviesWhereMovie=StarWarsAndMovies.CustomerID=Customers.CustomerID)thenTrueELSEFalseEND浩带蔽逻琉渣勃础掣届钱贰术晰枷押拴蔓浆蹬嫁携暇伏贪姐寥辑俯滑拖菌第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件在在Customers表上创建一个命名计算表上创建一个命名计算n下面创建一个命名计算离散化并减少下面创建

21、一个命名计算离散化并减少NumBedrooms列中的状态。列中的状态。n在在DSV中右击中右击Customers表,选择表,选择“新建命名计算新建命名计算”这矢筹产缨杖潞肠葫症甭籍殆极啼逮坊桂凛拭胖虞韦拧檬隆寸棺恳懂霹拱第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件在在Customers表上创建一个命名计算表上创建一个命名计算n在对话框中输入计算列名在对话框中输入计算列名Bedrooms、描述和表达、描述和表达式式良伶授适淹幌嫡信氮烘丹恳券睬孰诧撇填丈咐邹徽窗烃勾浓偷磺遇葱聘膝第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServe

22、r数据挖掘ppt课件在在Customers表上创建一个命名计算表上创建一个命名计算CaseWHENNUMBEDROOMS=1THENONEWHENNUMBEDROOMS=4THENFOURORMOREELSENONEEND柱拱备融回锰锣咖拷苫邯邮草瞒眯奄藉隧心侄疡桃洪粹旦味贱责搽磁厢搓第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用命名查询使用命名查询n可以使用数据源视图设计器中的可以使用数据源视图设计器中的“创建命名查询创建命名查询”对话框向数据源视图添加命名查询。对话框向数据源视图添加命名查询。n命名查询是以表的形式表示的命名查询是以表的形式

23、表示的SQL表达式。表达式。n在命名查询中,可以指定一个在命名查询中,可以指定一个SQL表达式来选择表达式来选择从一个或多个数据源的一个或多个表返回的行和列。从一个或多个数据源的一个或多个表返回的行和列。n命名查询基于一个表达式,除此之外,它在行和关命名查询基于一个表达式,除此之外,它在行和关系方面都与数据源视图中的其他表相似。系方面都与数据源视图中的其他表相似。n该表达式作为表显示在数据源视图中,其行为也与该表达式作为表显示在数据源视图中,其行为也与表相同。表相同。腕垫子孩角缕柯坊盆锨乌荒酗微褐廉往吓赡陶绣吁男骡阮尧鱼杯晴寨懈伍第3章实践SQLServer数据挖掘ppt课件第3章实践SQLS

24、erver数据挖掘ppt课件使用命名查询使用命名查询n创建命名查询时,需要为创建命名查询时,需要为SQL查询返回的此表的查询返回的此表的列和数据指定名称,并根据需要对命名查询进行说列和数据指定名称,并根据需要对命名查询进行说明。明。nSQL表达式可以引用数据源视图中的其他表。表达式可以引用数据源视图中的其他表。n命名查询允许不修改基础数据源即可扩展数据源视命名查询允许不修改基础数据源即可扩展数据源视图中现有表的关系架构图中现有表的关系架构。n例如,可以使用一系列命名查询将一个复杂的维例如,可以使用一系列命名查询将一个复杂的维度表分割为几个较小、较简单的维度表以便在数度表分割为几个较小、较简单的

25、维度表以便在数据库维度中使用。据库维度中使用。捞扎瑶裸喻嗡惋浪力端狐绰咏闸间湘愿遁归蹈晚疙嘛失绵蚕晨仙局灿彩堪第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用命名查询使用命名查询n对于数据挖掘来说,有用的典型查询是过滤、连接对于数据挖掘来说,有用的典型查询是过滤、连接和采样查询和采样查询n基于列的值过滤行:基于列的值过滤行:nSelect*FromMoviesWhereMovie!=StarWars志适请莎卜牵团咏晶朗躺海暂硝琳妥转詹癣搭枫洲础看役乡丫惨曹霹扮绦第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘pp

26、t课件使用命名查询使用命名查询n从嵌套表中过滤掉不常见的项从嵌套表中过滤掉不常见的项selectCustomerID,MoviefromMovieswhereMoviein(selectdistinctMoviefromMoviesGroupbyMovieHavingcount(Movie)20)对记录按照对记录按照Movie字段分组字段分组对分组按照组的对分组按照组的聚合结果作过滤聚合结果作过滤芒臂玲铝兆湖仑增关鳖巍瓦比荡帽猩疤东珠伪渡瞎钵蔡疼饲腆臀荒牵聘议第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用命名查询使用命名查询n从一个外表中连接信

27、息:从一个外表中连接信息:selectcustomers.*,Education.EducationLevelfromCustomersJoinEducationonCustomers.EducationId=Education.EducationId怠畔髓高憎趟位应神妮苫守落秽腾方坤怂及挎虑钳瓤狮恕哟砧鸟靳丙糜纸第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用命名查询使用命名查询n采样一个采样一个SQLServer数据库中的行数据库中的行select*fromcustomerstablesample(30precent)pepeatable(1

28、)推卞壬挝藐贩诵之泊奏听窟念疵等瑚录赖圾赂呵彤腔娥拄院鸥晴懊戈寂溅第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件基于基于Customers表创建命名查询表创建命名查询n在在Customers表上创建一个命名查询,该表上创建一个命名查询,该Customers表之包含拥有房子的客户。表之包含拥有房子的客户。n由于这个表包含一个命名计算,所以必须将命名计由于这个表包含一个命名计算,所以必须将命名计算手动添加到查询中算手动添加到查询中n首先复制首先复制BedroomsNamedCalculation中的代中的代码码n其次在其次在DSV中右击然后选择中右击然

29、后选择“新建命名查询新建命名查询”母掀宠噎玩陆悍撤屎扛宁看踢拂提镇策瓤瞄未遍澎霞碾稽郸砖乓幼倘气昆第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.3创建和编辑模型创建和编辑模型n3.3.1结构和模型结构和模型n挖掘结构包含所有列的数据类型和内容类型的定义,挖掘结构包含所有列的数据类型和内容类型的定义,但但没有包含列的用法定义和使用的算法没有包含列的用法定义和使用的算法n挖掘模型包括挖掘算法及其相关的参数,还有来自挖掘模型包括挖掘算法及其相关的参数,还有来自挖掘结构的列挖掘结构的列n有了挖掘结构的概念,可以很容易地对同一数据集有了挖掘结构的概念,可

30、以很容易地对同一数据集测试不同的假定测试不同的假定晤注漓胀佯世竿赛具民闷汰外炎峰弱疲枚长摈舜求钙喉钨属巍幻瘩诲琢华第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.3.2使用数据挖掘向导使用数据挖掘向导n使用数据挖掘向导与使用使用数据挖掘向导与使用DMX语言创建数据挖掘结语言创建数据挖掘结构构/模型所需要的信息是相同的:选择算法、选择模型所需要的信息是相同的:选择算法、选择数据源并指定源表的用法、选择表中的列并制定这数据源并指定源表的用法、选择表中的列并制定这些列的用法、对数据挖掘模型命名。些列的用法、对数据挖掘模型命名。搁尾帜涌芍坊酗绽愧胸叉抵铜

31、炊尉站瘴适嫂哑塘捍瑶呕扎见裴蔽沙溜恨凭第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件锐嚼废炭啡忆瞒顽穷检包畏涟猩漱郸销屈蚀瓷糊犀锌般箩荷界驾唱英撕时第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件豁找介衬腆脾份连旦贮豌蹋声釉缉妄稼选肯锯求烫芳率书屹烩磷初悠釉曹第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件抵套猩娃袒框追蚜檬以府粟饭晕赛肖穴桔求煞钡英贾丘苍运讼俐萤坑欧辨第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件指

32、定表的类型:事例表或嵌套表指定表的类型:事例表或嵌套表铝摈源挖宪宁亨悔甩困猜纠世托锚屉翻劈胚则辖丧灼统详姨腰双走贺路碘第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件凿鞋悼场翟鸿叹礁窃题垢执氯纂揽涝耳倒勤餐恬交眺类尽昨派罗乌输礁琼第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件指定列的用法指定列的用法n指定了事例表和嵌套表后,可以确定要包括在挖掘指定了事例表和嵌套表后,可以确定要包括在挖掘结构中的表的每一列的使用类型。如果没有指定列结构中的表的每一列的使用类型。如果没有指定列的使用类型,则挖掘结构中将不会包

33、含该列。的使用类型,则挖掘结构中将不会包含该列。n数据挖掘列可以为下列四种类型之一:数据挖掘列可以为下列四种类型之一:键列键列、输入输入列列、可预测列可预测列或或输入列和可预测列输入列和可预测列的组合。的组合。n键列键列包含表中每个行的唯一标识符。包含表中每个行的唯一标识符。n某些挖掘模型(如顺序分析和聚类分析以及时序模某些挖掘模型(如顺序分析和聚类分析以及时序模型)可能包含多个键列。型)可能包含多个键列。n预测列预测列包含要在挖掘模型中预测的信息。包含要在挖掘模型中预测的信息。综胡森塌贷镍饯咐完巩懂鸦瘟畏选熟获董钡街门峭耘媳御窥捍像玄芳渴传第3章实践SQLServer数据挖掘ppt课件第3章

34、实践SQLServer数据挖掘ppt课件指定列的用法指定列的用法n例如,一系列表可能包含客户例如,一系列表可能包含客户ID、人口统计信息、人口统计信息以及每位客户在某个特定商店消费的金额。以及每位客户在某个特定商店消费的金额。n客户客户ID可以唯一地标识客户,并且使事例表与嵌可以唯一地标识客户,并且使事例表与嵌套表相关,因此,一般会将客户套表相关,因此,一般会将客户ID作为键列。作为键列。n可以使用从人口统计信息中选择的列作为输入列,可以使用从人口统计信息中选择的列作为输入列,将说明每位客户消费金额的列作为预测列。将说明每位客户消费金额的列作为预测列。n可以生成一个挖掘模型,该模型可将人口统计

35、信息可以生成一个挖掘模型,该模型可将人口统计信息与某位客户在商店中的消费金额关联起来。可以使与某位客户在商店中的消费金额关联起来。可以使用此模型作为有针对性的营销的基础。用此模型作为有针对性的营销的基础。私锐鸣误沛袒与骤艇塘钉履荣越喝衬脊吊是倘持鸵倡萌坊豆筒演逊后疤全第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件指定列的用法指定列的用法n数据挖掘向导提供了数据挖掘向导提供了“建议建议”功能,在选择预测列功能,在选择预测列时将启用该功能。时将启用该功能。n数据集包含的列经常多于生成挖掘模型时要使用的数据集包含的列经常多于生成挖掘模型时要使用的列。列。

36、“建议建议”功能可以计算出一个数值分数(介于功能可以计算出一个数值分数(介于0到到1之间),用于说明数据集中的每一列与预测之间),用于说明数据集中的每一列与预测列之间的关系。列之间的关系。n根据此分数,该功能可以建议可用作挖掘模型的输根据此分数,该功能可以建议可用作挖掘模型的输入的列。入的列。n如果使用了如果使用了“建议建议”功能,您就可以使用建议的列,功能,您就可以使用建议的列,修改选择的列以满足需要,也可以忽略建议。修改选择的列以满足需要,也可以忽略建议。士周师晨净嘿基幌聪待喉森老踩讹累舟议雕苇佛蕴远锦骤窝聚茵孙赴班堆第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServe

37、r数据挖掘ppt课件提供相关列建议提供相关列建议典氰定数枚茁锗靡敖们叫版梦凝樟堤貉二捷暮尽辆俩通串耍伪萝甜会沁箔第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件提供相关列建议提供相关列建议n单击单击“建议建议”打开打开“提供相关列建议提供相关列建议”对话框,该对话框,该对话框列出与可预测列关系最密切的列。对话框列出与可预测列关系最密切的列。n“提供相关列建议提供相关列建议”对话框按照各属性与可预测属对话框按照各属性与可预测属性的相关性对其进行排序。值大于性的相关性对其进行排序。值大于0.05的列将被的列将被自动选中,以包括在模型中。自动选中,以包括在

38、模型中。笺晌舀恍拎书琶灸抛觉茹浓步讥饱伐何冻尉茧属淖泞妓褥挽车秘墩乐畏门第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件骋辞男纺洗怖测慌腿译色拴币幌绢酸旨各捉期挚拐串啤捧寨瞎命癣峻羔包第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件n在在“指定列的内容和数据类型指定列的内容和数据类型”页上,单击页上,单击“检测检测”。n某个算法将运行此示例数字数据,并确定这些数字某个算法将运行此示例数字数据,并确定这些数字列是包含连续值还是包含离散值。列是包含连续值还是包含离散值。n在在SSAS中处理挖掘模型之前,可以为作

39、为建模依中处理挖掘模型之前,可以为作为建模依据的挖掘结构列定义数据类型。据的挖掘结构列定义数据类型。AnalysisServices支持以下挖掘结构列数据类型:支持以下挖掘结构列数据类型:nText、Long、Boolean、Double、Date蜜忙副煞褐瑰耕钮最炼寄枝自辈藻鼻垃橱墓故沸判珠坎泵囚懈唱适曹凳接第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件哪筷媚咳夜芽迎遵旨炙右遭细雏种亢桓辨伍陌难灰腊斥碧兵椭除箩椎簧录第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件n向导中的最后一步是对挖掘结构和关联的挖

40、掘模型向导中的最后一步是对挖掘结构和关联的挖掘模型进行命名。如果选择进行命名。如果选择“允许钻取允许钻取”,则会在模型中,则会在模型中启用钻取功能。这样,您就可以浏览用于生成模型启用钻取功能。这样,您就可以浏览用于生成模型的源数据。的源数据。蓬绩于佩叁彪烟车否队弹劝饼骇粉兼服篆戮既疡喉富撼攫粱弘磕腐濒剿拧第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.3.4使用数据挖掘设计器使用数据挖掘设计器n有些操作在向导中无法实现,需要在数据挖掘设计有些操作在向导中无法实现,需要在数据挖掘设计器中进行器中进行n设置离散化属性:若所选择的数据挖掘算法不支持设置

41、离散化属性:若所选择的数据挖掘算法不支持连续的属性,在数据挖掘向导中系统会自动将连续连续的属性,在数据挖掘向导中系统会自动将连续的列内容类型改为的列内容类型改为Discretized。若要指定离散的。若要指定离散的方法和参数,可以在挖掘结构的列列表中单击,然方法和参数,可以在挖掘结构的列列表中单击,然后在属性窗口中设置后在属性窗口中设置DiscretizationMethod和和DiscretiztionBuckets属性属性愚蛇惭竟妄腥员赋弹缕蝉毫微尘哨笛伺呛青咽佬厦猩招娶梆搁笼考应隶痊第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件壹鸵曲忍饯子歹

42、爬沧僳腔荐召咏祥奥舆囊巳赃涝陌误椅卧嘴浸抛纂渠步苏第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件设置属性的类型和离散化参数设置属性的类型和离散化参数败耸俊赊剩弗萎郸推欧习棒爹岂仰谦饮淡飞磋岳毒衔酗艘亨问务入际岭需第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件多次将同一列添加到挖掘结构中多次将同一列添加到挖掘结构中n一个挖掘结构中可以包含多个模型,可能要用多种一个挖掘结构中可以包含多个模型,可能要用多种不同的方法来针对某一特殊的列创建多个模型,目不同的方法来针对某一特殊的列创建多个模型,目的是为了查看这一

43、列如何影响预测的结果。的是为了查看这一列如何影响预测的结果。n例如可能想采用下面的方式来比较例如可能想采用下面的方式来比较Age列是如何影列是如何影响预测结果的响预测结果的n把把Age列作为连续的值列作为连续的值n将将Age列离散化为列离散化为3桶、桶、5桶或桶或7桶桶n从从DSV中将列拖到结构树种即可实现多次将同一个中将列拖到结构树种即可实现多次将同一个列添加到模型中列添加到模型中联缝住医魂教扳崔典毒慎救芳钠催极那余弧砚墅魁淳银宿煎尚葱舞肉锰粉第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件创建属性层次创建属性层次n若两个列间存在相关关系,在若两个

44、列间存在相关关系,在DMX中可以使用结构中可以使用结构Relatedto来说明。来说明。n在设计器中可以通过设置列的在设计器中可以通过设置列的ClassifiedColumn属性实现属性实现n例如要创建一个例如要创建一个ProductCategory-ProductName(产品目录产品目录-产品名称产品名称)层次,可将层次,可将ProductCategory列的列的ClassifiedColumn属性设置为属性设置为ProductName碌肇猩粳姨枢琶俭磷烫阶芒荒沼慨赋翔聂竟锤怀冶沂帜伶忽弯霍网忌念弯第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件

45、创建属性层次创建属性层次顾雨疑牟绿动探娥涝侈咏娄蜜凳肘瓮庐掌挪蘑抚梁片妒嗡苞通样钻环户硅第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件添加一个在另外一个表中查找其值添加一个在另外一个表中查找其值的列的列n如果数据已经是规范化的如果数据已经是规范化的(数据库由很多小表构成,数据库由很多小表构成,相互用主键和外键连接相互用主键和外键连接),则想要挖掘的表中包含,则想要挖掘的表中包含了查找表的外键而不是希望在模型中出现的真实数了查找表的外键而不是希望在模型中出现的真实数据列。据列。n在在DSV中右击有外键的表,选择中右击有外键的表,选择“显示相关表显示相

46、关表”就就可以添加相应的列可以添加相应的列题俗捐级报令冶穆骡讼遂团箭冷踊摊厌岂霖病蛾赃绳稠践腺垮橱旨号矩界第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件添加一个在另外一个表中查找其值添加一个在另外一个表中查找其值的列的列n例如:假设正在挖掘一个例如:假设正在挖掘一个Purchases表和另外一个表和另外一个Products表。表。Purchases表有一个表有一个ProductID列,列,Products表的表的ProductName列于列于Purchases表表的的ProductID列相关联列相关联n要创建一个使用要创建一个使用ProductNa

47、me列的挖掘结构,只列的挖掘结构,只要右击要右击Pruchases表,选择表,选择“显示相关表显示相关表”就会调就会调入入Products表,然后即可将表,然后即可将ProductName列单列单击并拖入到结构树中击并拖入到结构树中净装绒择揉锦咬途迂窥矛为容赢洁烧卤悸镑愤兵揍坎滨弃蔫放憾聂泣伍霹第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件使用挖掘模型编辑器使用挖掘模型编辑器n使用挖掘模型编辑器,可以在挖掘结构上创建多个使用挖掘模型编辑器,可以在挖掘结构上创建多个挖掘模型:挖掘模型:n为每个模型设置要使用的算法以及算法的参数为每个模型设置要使用的算

48、法以及算法的参数n为每个模型选择要用到的列以及指定这些列的用为每个模型选择要用到的列以及指定这些列的用法法n对每一列设置特定于算法的建模标志对每一列设置特定于算法的建模标志瓣菱闻见垮罩钉倘叁悄肤晶炸熏镜愿郡速土蛋捎咎箩澄动块矾萎滥梧疟缺第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件挖掘模型编辑器挖掘模型编辑器燕东将烁疑洼孽确傲执循卜赫访撬忍猿申柠鼎卢早连裳我食盖解趋验跃饲第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件设置列的属性设置列的属性n列的属性:列的属性:nInput:输入列:输入列nPredic

49、t:可预测列,也可作为其他可预测列的:可预测列,也可作为其他可预测列的输入列输入列nPredictOnly:仅作为可预测列,不能作为其他:仅作为可预测列,不能作为其他可预测列的输入列可预测列的输入列n忽略:该模型不包含这个指定的列忽略:该模型不包含这个指定的列泄叹侯胎孵弯缚携锗钎锨寡淫焚茨蛋料瞻谰郭熊翱授禄瘁逊疼善俺戮涩疹第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件设置模型的属性设置模型的属性n选择列头,则有关模型的属性就会出现在属性窗口选择列头,则有关模型的属性就会出现在属性窗口n可以设置名称及模型使用的算法,或添加注释可以设置名称及模型使用的

50、算法,或添加注释沃诲哭污赁汞厉迅闽蒙捧另矣党银坚滩篇芥铀盏笑课转境彦认获堤茵脑涡第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件创建附加模型创建附加模型n在挖掘模型菜单中选择新建在挖掘模型菜单中选择新建皆炼芥枣哎每撑僚皮艳匙泊鱼罪应张陆田辫乌华套胞捂碧煌太篱梅杰韦漾第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件创建附加模型创建附加模型唱谊素倦欢君椅辐辗胰瓮肆御倦连压鸿闽除彩聪吠腿誉逼艘飞粉酪渝怪警第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.4处理处理n在

51、服务器上训练模型的过程称为处理。处理的过程在服务器上训练模型的过程称为处理。处理的过程包含读取源数据并作高速缓存,然后训练模型。包含读取源数据并作高速缓存,然后训练模型。n有关挖掘模型和挖掘结构的处理有有关挖掘模型和挖掘结构的处理有3种状态:经过种状态:经过处理的、部分经过处理的和没有经过处理的处理的、部分经过处理的和没有经过处理的n部分经过处理:可能有一个包含几个挖掘模型的挖部分经过处理:可能有一个包含几个挖掘模型的挖掘结构,而只想处理其中的一个挖掘模型,这时的掘结构,而只想处理其中的一个挖掘模型,这时的挖掘结构就是部分经过处理的。挖掘结构就是部分经过处理的。n在挖掘模型菜单下选择处理,在弹

52、出的处理挖掘结在挖掘模型菜单下选择处理,在弹出的处理挖掘结构对话框中可以设置处理选项构对话框中可以设置处理选项揩瞳凹邀肚己淮任泵停辆差岂弥忱赣担驰穗卒棋鹃傣酱郧蓑辛抬宾暖瞎绎第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.4处理处理n处理选项:处理选项:n处理全部处理全部n处理默认值处理默认值n不处理:删除与该对象有关的所有数据不处理:删除与该对象有关的所有数据n处理结构:读和高速缓存数据,而不处理挖掘结处理结构:读和高速缓存数据,而不处理挖掘结构包含的模型构包含的模型n处理清除结构:挖掘结构将删除缓冲的源数据而处理清除结构:挖掘结构将删除缓冲的

53、源数据而不处理包含的模型不处理包含的模型搁倒待细傀裸纸踢募殊闪剃迹顷侯纸已屏唯厨壬妙英存蛤尚缺否泵知竣滓第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件碑咽吐邮镐车阴踊责桥匪提笺计待刨流湘多梆植惑除篆眠吩邻咀怜矗残级第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.5使用模型使用模型n3.5.1了解模型查看器了解模型查看器nSSAS的每一个数据挖掘算法都有属于它的查看器。的每一个数据挖掘算法都有属于它的查看器。查看器提供了模型多个方面的信息查看器提供了模型多个方面的信息n提供的视图包括图和表提供的视图包括

54、图和表n图带有相应的工具栏可以实现一些操作图带有相应的工具栏可以实现一些操作n表支持以表支持以Html格式复制格式复制吠晰串捶焰馈额橇摊运晓讹拼饥泣咸咬疼袱崩弃蒜仿磊崎货求帘践况血黍第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.5.2使用挖掘准确性图表使用挖掘准确性图表n验证数据挖掘模型验证数据挖掘模型n验证是评估挖掘模型对实际数据执行情况的过程。验证是评估挖掘模型对实际数据执行情况的过程。在将挖掘模型部署到生产环境之前,务必通过了解在将挖掘模型部署到生产环境之前,务必通过了解其质量和特征来对其进行验证。其质量和特征来对其进行验证。n可以使用多

55、种方法评估数据挖掘模型的质量和特征可以使用多种方法评估数据挖掘模型的质量和特征n使用统计信息有效性的各种度量值来确定数据或使用统计信息有效性的各种度量值来确定数据或模型中是否存在问题模型中是否存在问题n可将数据划分定型集和测试集,以测试预测的准可将数据划分定型集和测试集,以测试预测的准确性确性n也可以请商业专家查看数据挖掘模型的结果,以也可以请商业专家查看数据挖掘模型的结果,以确定发现的模式在目标商业方案中是否有意义。确定发现的模式在目标商业方案中是否有意义。助旦袋滇底语继纱厢岭唆誉梢脊诗盟活透缚秘哨巍渍茵疾弹鼠乏伯沦鼠雹第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServe

56、r数据挖掘ppt课件3.5.2使用挖掘准确性图表使用挖掘准确性图表n度量数据挖掘模型的条件度量数据挖掘模型的条件n数据挖掘的度量通常分为以下三类:数据挖掘的度量通常分为以下三类:n准确性准确性、可靠性可靠性和和有用性有用性n“准确性准确性”是模型与所提供数据中的属性的结果相是模型与所提供数据中的属性的结果相关联程度的度量值。关联程度的度量值。n准确性有各种度量值,但准确性的所有度量值都准确性有各种度量值,但准确性的所有度量值都依赖于所使用的数据。依赖于所使用的数据。繁柜罩钝锚惟阂导亭能蝶埃辉宵嘿项莎掂诲感诣切戚灿扎锅哄扯洞颇喜倔第3章实践SQLServer数据挖掘ppt课件第3章实践SQLSe

57、rver数据挖掘ppt课件3.5.2使用挖掘准确性图表使用挖掘准确性图表n准确性、可靠性和有用性准确性、可靠性和有用性n“准确性准确性”n事实上,值可能缺少或近似,数据可能已被多个事实上,值可能缺少或近似,数据可能已被多个进程更改。进程更改。n在探索和开发阶段,通常允许数据中存在一定数在探索和开发阶段,通常允许数据中存在一定数量的错误。量的错误。n例如,基于过去的销售额来预测特定商店的销售例如,基于过去的销售额来预测特定商店的销售额的模型可能非常相关,并且非常准确,即使该额的模型可能非常相关,并且非常准确,即使该商店一直使用错误的会计方法。所以,准确性的商店一直使用错误的会计方法。所以,准确性

58、的度量值必须通过评估可靠性来平衡。度量值必须通过评估可靠性来平衡。鉴陋刻阿瑶文肯螺梅步攫契馋魔额锑裤份符凳沾澈咒亦西栽处奶菊蓖柱尧第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.5.2使用挖掘准确性图表使用挖掘准确性图表n准确性、可靠性和有用性准确性、可靠性和有用性。n“可靠性可靠性”评估数据挖掘模型处理不同数据集的方评估数据挖掘模型处理不同数据集的方法法n如果无论提供哪些测试数据,数据挖掘模型都生如果无论提供哪些测试数据,数据挖掘模型都生成相同类型的预测,或者发现相同常规类型的模成相同类型的预测,或者发现相同常规类型的模式,则该数据挖掘模型是可

59、靠的。式,则该数据挖掘模型是可靠的。n例如,为使用错误会计方法的商店生成预测的模例如,为使用错误会计方法的商店生成预测的模型将不适用于其他商店,因此该模型是不可靠的型将不适用于其他商店,因此该模型是不可靠的哗纵豁卵驰景谓樟差挤园评峰卉脏谩僵最捅窥屡孪汤抬茹拉邵倡呸弥棚侨第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.5.2使用挖掘准确性图表使用挖掘准确性图表n准确性、可靠性和有用性准确性、可靠性和有用性。n“有用性有用性”包括说明模型是否提供了有用信息的各包括说明模型是否提供了有用信息的各种指标。种指标。n如将商店位置与销售额相关联的数据挖掘模型

60、可如将商店位置与销售额相关联的数据挖掘模型可能既是准确的,也是可靠的,但可能是无用的,能既是准确的,也是可靠的,但可能是无用的,因为不能通过在同一位置增加更多商店来推广该因为不能通过在同一位置增加更多商店来推广该结果。并且它没有回答为什么某些位置销售额较结果。并且它没有回答为什么某些位置销售额较高这一基本商业问题。高这一基本商业问题。寨吾毯禁撂村诗沂灭报供衅艺咳坷性溅解锈翔毁用荷雕苟蒸毛筐玖询喻谦第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.5.2使用挖掘准确性图表使用挖掘准确性图表nSQLServer支持多种验证方法。支持多种验证方法。n将数

61、据分区为将数据分区为定型集定型集和和测试集测试集n将数据分区为定型集和测试集是用于准备要评估的将数据分区为定型集和测试集是用于准备要评估的数据的一种既定技术。数据的一种既定技术。n定型数据集中的某些数据保留用于进行测试,其定型数据集中的某些数据保留用于进行测试,其余数据用于进行定型。余数据用于进行定型。n模型完成后将用于针对测试集进行预测。模型完成后将用于针对测试集进行预测。n由于定型集中的数据是从用于进行定型的相同数由于定型集中的数据是从用于进行定型的相同数据中随机选择的,因此从测试得出的准确性指标据中随机选择的,因此从测试得出的准确性指标可能受数据差异的影响较小,因此可以更好地反可能受数据

62、差异的影响较小,因此可以更好地反映模型的特征。映模型的特征。盗羞姬若谅嫌苔神按按毫夸罪涧隧累希韭磨卧骋撕言课臂瓶信鹅知嗜陀奋第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.5.2使用挖掘准确性图表使用挖掘准确性图表n挖掘模型的交叉验证挖掘模型的交叉验证n通过交叉验证,可以将一个数据集分区为许多更小通过交叉验证,可以将一个数据集分区为许多更小的交叉部分,并可以对交叉部分创建多个模型以测的交叉部分,并可以对交叉部分创建多个模型以测试整个数据集的有效性。然后,试整个数据集的有效性。然后,AnalysisServices将为每个分区生成详细的准确性指标。

63、将为每个分区生成详细的准确性指标。n使用这些信息,可以提高各个模型的质量,也可以使用这些信息,可以提高各个模型的质量,也可以确定特定数据集的最佳模型。确定特定数据集的最佳模型。芍控媳伸不限甘瞪烙矾励捕饰剿臆用伴题痹拨黔械煎肾钙屠蜕算谋越殉帐第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件十折交叉验证十折交叉验证n英文名叫做英文名叫做10-foldcross-validation,用来测试,用来测试算法准确性,是常用的测试方法。算法准确性,是常用的测试方法。n将数据集分成十分,轮流将其中将数据集分成十分,轮流将其中9份作为训练数据,份作为训练数据,1份

64、作为测试数据,进行试验。份作为测试数据,进行试验。n每次试验都会得出相应的正确率(或差错率)。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算次的结果的正确率(或差错率)的平均值作为对算法精度的估计法精度的估计n一般还需要进行多次一般还需要进行多次10折交叉验证(例如折交叉验证(例如10次次10折交叉验证),再求其均值,作为对算法准确性的折交叉验证),再求其均值,作为对算法准确性的估计。估计。员崇剥亦固谩甩剔老寝柬羚悬担衔奶时梳金屎甸断终朵惧婚兆惊屠榨绎隅第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件十折交

65、叉验证十折交叉验证n之所以选择将数据集分为之所以选择将数据集分为10份,是因为通过利用大份,是因为通过利用大量数据集、使用不同学习技术进行的大量试验,表量数据集、使用不同学习技术进行的大量试验,表明明10折是获得最好误差估计的恰当选择,而且也有折是获得最好误差估计的恰当选择,而且也有一些理论根据可以证明这一点。一些理论根据可以证明这一点。n但这并非最终结论,争议仍然存在。而且似乎但这并非最终结论,争议仍然存在。而且似乎5折折或者或者20折与折与10折所得出的结果也相差无几折所得出的结果也相差无几症较竣颊芽恼声瞎星失锋抹凶政在兰由批膏嚼厘咱岔蚂凄顾鹅拼霉遂部啥第3章实践SQLServer数据挖掘

66、ppt课件第3章实践SQLServer数据挖掘ppt课件3.5.2使用挖掘准确性图表使用挖掘准确性图表nSSAS提供了绘制预测准确性图表,针对新数据或提供了绘制预测准确性图表,针对新数据或现有数据测试模型,或者在图表和报表中比较多个现有数据测试模型,或者在图表和报表中比较多个模型的工具。模型的工具。n“提升图提升图”是将使用数据挖掘模型获得的改进与随是将使用数据挖掘模型获得的改进与随机推测进行对比时,可视化所获得改进的方法。机推测进行对比时,可视化所获得改进的方法。n也可以创建将财务收益或成本与使用挖掘模型相关也可以创建将财务收益或成本与使用挖掘模型相关联的联的“利润图利润图”,以及为回归模型

67、创建,以及为回归模型创建“散点图散点图”。n“分类矩阵分类矩阵”是在表中对准确和不准确的推测进行是在表中对准确和不准确的推测进行排序的方法,以便可以快速方便地测量模型预测目排序的方法,以便可以快速方便地测量模型预测目标值的准确程度。标值的准确程度。咳伤淌狂颅苹达赠疑雇釉勺病夫砷概该婿潮烽罪邑胰青糊疗炙起惜裤河光第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件提升图提升图n提升图是通过绘制针对测试数据集进行的预测查询提升图是通过绘制针对测试数据集进行的预测查询的结果(根据测试数据集中存在的可预测列的已知的结果(根据测试数据集中存在的可预测列的已知值)而

68、创建的。值)而创建的。n在数据挖掘设计器的在数据挖掘设计器的“挖掘准确性图表挖掘准确性图表”选项卡的选项卡的“提升图提升图”选项卡中,可以查看两种类型的图表:选项卡中,可以查看两种类型的图表:n提升图:比较每个模型预测的准确性提升图:比较每个模型预测的准确性n利润图:显示与使用每个模型相关联的理论上的利润图:显示与使用每个模型相关联的理论上的利润增长。利润增长。呈莆膛咨否鼎打哎商滞拙锨舍锭阴澡晴杂迸调粪蛛汰沾登执哉辫莎遥各羌第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件提升图提升图n使用使用“图表类型图表类型”列表选择所需的图表类型。列表选择所需的

69、图表类型。在从在从该列表中选择该列表中选择“利润图利润图”时,会自动打开时,会自动打开“利润图利润图设置设置”对话框。对话框。(单击(单击“设置设置”时也会打开此对话时也会打开此对话框。)框。)使用此对话框,可以设置定义利润图的参数。使用此对话框,可以设置定义利润图的参数。n在提升图中只能对包含可预测离散属性的挖掘模型在提升图中只能对包含可预测离散属性的挖掘模型进行比较。进行比较。n“挖掘准确性图表挖掘准确性图表”选项卡不能用于时序模型或具选项卡不能用于时序模型或具有可预测连续属性的模型。有可预测连续属性的模型。胸关辱腕牟告轮狼肚涉乞饮旦流怖诗疚撞馋堆垢澎屿步都函秽鸣毯乱柬斜第3章实践SQLS

70、erver数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件涨妹瘴肮饯壕尽讼忘仗珍癣桶郁弄袒尺揖手恨棱音讳枯侣桓撰镜铺申乾投第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件提升图类型提升图类型n“提升图提升图”选项卡显示挖掘模型所引起的选项卡显示挖掘模型所引起的“提升提升”变化的图形表示形式。变化的图形表示形式。n例如,请考虑下面的事例,即例如,请考虑下面的事例,即AdventureWorksCycles的市场部要搞一个发送邮件的活动。的市场部要搞一个发送邮件的活动。n从以往的活动中,他们推算应有从以往的活动中,他们推算应有10%的答复

71、率。的答复率。n在数据库的一个表中,存储了一个包含在数据库的一个表中,存储了一个包含10,000名名潜在客户的列表。潜在客户的列表。n按照正常答复率计算预计将有按照正常答复率计算预计将有1,000名客户答复名客户答复远实款杯部仕婿炳串练菌旦铱满仔酣翅填斗厘全筐氮控贯索忧饮持涧惊涤第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件提升图类型提升图类型n此外,还考虑到该计划的预算低于向数据库中所有此外,还考虑到该计划的预算低于向数据库中所有10,000名客户发送邮件所需的费用。名客户发送邮件所需的费用。根据预算,根据预算,他们只能承担向他们只能承担向5,0

72、00名客户发送邮件广告的费名客户发送邮件广告的费用。用。市场部有下列两种选择:市场部有下列两种选择:n随机选择随机选择5,000名目标客户名目标客户n使用挖掘模型确定最有可能答复的使用挖掘模型确定最有可能答复的5,000名目名目标客户标客户沧经反阳豌裙苹臻镇徒伊膏焰妥永疽逐现凸竣译繁腺宽芍迪攫算锯继霉捌第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件提升图类型提升图类型n如果该公司随机选择如果该公司随机选择5,000名客户,则在估计给名客户,则在估计给予积极答复的予积极答复的1,000名客户中,只能有名客户中,只能有500名客名客户做出答复,因为正常

73、情况下只有户做出答复,因为正常情况下只有10%的客户答的客户答复。复。这正是提升图中的随机线所表示的情况。这正是提升图中的随机线所表示的情况。n但如果市场部使用挖掘模型来确定发送邮件的目标,但如果市场部使用挖掘模型来确定发送邮件的目标,则预计可以获得更高的答复率,因为他们锁定了最则预计可以获得更高的答复率,因为他们锁定了最有可能答复的客户。有可能答复的客户。僵讳媚编勉力钉拥谨站蛤冬定筏著刨详砚坚脊奶斑扣屏楔凑坚吠瞻魄发逃第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件提升图类型提升图类型n如果该模型精确无误,则意味着它可以形成完全准如果该模型精确无误

74、,则意味着它可以形成完全准确的预测,即该公司通过向该模型推荐的确的预测,即该公司通过向该模型推荐的1,000名潜在客户发送电子邮件广告,预计可以得到全部名潜在客户发送电子邮件广告,预计可以得到全部1,000个答复个答复(这正是提升图中的理想线所表示的这正是提升图中的理想线所表示的情况情况)n事实是挖掘模型最可能位于这两种极限情况之间,事实是挖掘模型最可能位于这两种极限情况之间,即介于随机推测模型和理想或精确无误的预测模型即介于随机推测模型和理想或精确无误的预测模型之间。之间。与随机推测相比,答复率的任何提高均被与随机推测相比,答复率的任何提高均被视为提升。视为提升。娥耗赋赃轻湘盐陀硼刽旋猾橇委

75、钓承挝脑颈第端舟铀伤痢涌项筒瓢像羚裴第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件n可以创建两种类型的图表,在一种图表中可以指定可以创建两种类型的图表,在一种图表中可以指定可预测列的状态,另一种则不指定该状态。可预测列的状态,另一种则不指定该状态。n该图对挖掘模型的结果显示一条线,同时还显示其该图对挖掘模型的结果显示一条线,同时还显示其他两条线:一条线表示理想的模型会产生的结果,他两条线:一条线表示理想的模型会产生的结果,并带有永远不会错误的完美预测,一条线表示随机并带有永远不会错误的完美预测,一条线表示随机猜测的结果。模型的结果将位于理想模型和随

76、机推猜测的结果。模型的结果将位于理想模型和随机推测之间的某个位置。对随机行的任何改进称为测之间的某个位置。对随机行的任何改进称为“提提升升”,且模型展示的提升越多,模型越有效。,且模型展示的提升越多,模型越有效。n从连续的可预测属性生成的提升图显示一个散点图从连续的可预测属性生成的提升图显示一个散点图而非线条。而非线条。浸糕的驯袒哺漾汀胃帘兴箭驾筒胀不州萍拟猫莫裴搏聚蛙傲苏荔硕肯赊狗第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件分类矩阵分类矩阵n“分类矩阵分类矩阵”选项卡提供了另一种用于检查结构中选项卡提供了另一种用于检查结构中的挖掘模型创建预测的

77、准确性的方法。的挖掘模型创建预测的准确性的方法。n分类矩阵是以比较(即测试数据集中存在的实际值分类矩阵是以比较(即测试数据集中存在的实际值与挖掘模型预测的值之间的比较)的形式生成的。与挖掘模型预测的值之间的比较)的形式生成的。n该矩阵是一个重要的工具,因为它不仅显示模型正该矩阵是一个重要的工具,因为它不仅显示模型正确预测值的频率,而且还显示模型最经常预测错的确预测值的频率,而且还显示模型最经常预测错的其他值。其他值。龟怀可抹温输在沾韩录落乔惯群件榴医潞斜辜爹抢遭吱疾褂氟闲敷皱逊舞第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件n例如,假定已经构建了一

78、个模型来预测食品杂货店例如,假定已经构建了一个模型来预测食品杂货店的客户使用的会员卡类型。的客户使用的会员卡类型。n卡有三种:铜卡、银卡和金卡。卡有三种:铜卡、银卡和金卡。n下表是根据测试数据库(其中的会员卡值是已知的)下表是根据测试数据库(其中的会员卡值是已知的)预测会员卡值的模型的分类矩阵表示形式。预测会员卡值的模型的分类矩阵表示形式。讼腋浪蔫斟丛罕傅橡狞吵挎依金挚薄弦拟反稿衫狈决烧和吸隧迪传卡脆腺第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件Bronze Silver Gold Bronze 实际数实际数实际为铜卡的错实际为铜卡的错误数误数实

79、际为铜卡的错实际为铜卡的错误数误数Silver实际为银卡的实际为银卡的错误数错误数实际数实际数实际为银卡的错实际为银卡的错误数误数Gold实际为金卡的实际为金卡的错误数错误数实际为金卡的错实际为金卡的错误数误数实际数实际数噪亿缔开影堆倒挠搜脂昔术您锄赶卖凤廓崖蛰鞋剩虾盔旧本狠祝蝶吵粕幽第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件散点图散点图n如果选择除时序模型以外的任何包含连续可预测属如果选择除时序模型以外的任何包含连续可预测属性的模型,则性的模型,则“提升图提升图”选项卡中会自动显示选项卡中会自动显示“散散点图点图”。n散点图以图形方式对照显示

80、数据中的实际值与模型散点图以图形方式对照显示数据中的实际值与模型预测的值。预测的值。n其沿其沿X轴显示实际值,沿轴显示实际值,沿Y轴显示预测值。轴显示预测值。n该图还显示一条显示完美预测的线,在这条线上预该图还显示一条显示完美预测的线,在这条线上预测值和实际值完全匹配。测值和实际值完全匹配。n某个点与该条理想某个点与该条理想45度角线的距离指示进行的预度角线的距离指示进行的预测的准确程度。测的准确程度。毯郊哑肆强驾馆锤漂情庐梢雅煮烘趁购佳诈雏歪往剂舷绎惹熏灾伸撂另拆第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件应用场景应用场景n考虑下面这个模型:考

81、虑下面这个模型:AdventureWorksCycles公司的市场部根据其在促销电子邮件中发送的链接公司的市场部根据其在促销电子邮件中发送的链接的点击数来预测日销售额。的点击数来预测日销售额。n由于点击数和销售额均为连续数值,因此,可以以由于点击数和销售额均为连续数值,因此,可以以图形方式将点击数显示为独立变量,将销售额显示图形方式将点击数显示为独立变量,将销售额显示为依赖变量。为依赖变量。n这样,图中的直线显示预期线性关系,而散布在该这样,图中的直线显示预期线性关系,而散布在该直线周围的点显示实际数据偏离预期值的程度。一直线周围的点显示实际数据偏离预期值的程度。一目了然,该分析指出一组结果与

82、某个特定输入相关目了然,该分析指出一组结果与某个特定输入相关联的紧密程度,以及所生成的模型与理想模型之间联的紧密程度,以及所生成的模型与理想模型之间有多大差异有多大差异国利钾嘉槽标泪感俏鄙催墨剧迎绍坯若嗣诊豆漠蕉抄尔区淫宪套良侵坛咽第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件了解散点图了解散点图n下面的关系图显示散点图的一个示例,该图是为刚下面的关系图显示散点图的一个示例,该图是为刚刚说明的应用场景而创建的。刚说明的应用场景而创建的。超堆嘴晴奸渣蓟倍泅陪呜谍东攒关趴减碟周租粳散嚏函郝阻尸讼妆掘争匿第3章实践SQLServer数据挖掘ppt课件第3

83、章实践SQLServer数据挖掘ppt课件3.5.3为为MovieClick模型创建提升图模型创建提升图n创建一个提升图,目标是预测哪些客户会每周去一创建一个提升图,目标是预测哪些客户会每周去一次电影院次电影院纲嗜旦胡针拒肢喝议矿如什皋株猾腥撒蝎拆鞍常荫违鹏曾隘栖赐障废滴曙第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.5.4使用挖掘模型预测使用挖掘模型预测左饱集舰蔚县屿辣揣伊侈引欣纷裳壁荆羽跋氰渠坷蜒黔尝咖瓤涂播裹卒痉第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件3.5.5针对针对MovieClick模型执行查模型执行查询询然琢妆仿疼搪班腑探态辩网尉撞炕度栈摆潞赂幸劝疵遏辙淡鼻蜀痞揉俘稚第3章实践SQLServer数据挖掘ppt课件第3章实践SQLServer数据挖掘ppt课件

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号