【精品文档】决策树模型 ----QUEST

上传人:飞*** 文档编号:51238626 上传时间:2018-08-13 格式:PPT 页数:52 大小:1.11MB
返回 下载 相关 举报
【精品文档】决策树模型 ----QUEST_第1页
第1页 / 共52页
【精品文档】决策树模型 ----QUEST_第2页
第2页 / 共52页
【精品文档】决策树模型 ----QUEST_第3页
第3页 / 共52页
【精品文档】决策树模型 ----QUEST_第4页
第4页 / 共52页
【精品文档】决策树模型 ----QUEST_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《【精品文档】决策树模型 ----QUEST》由会员分享,可在线阅读,更多相关《【精品文档】决策树模型 ----QUEST(52页珍藏版)》请在金锄头文库上搜索。

1、统计分析、数据挖掘与商业智能应用研究小组决策树模型-QUEST 报告人:李福娟 指导教师:谢邦昌 时间:2007年11月20日统计分析、数据挖掘与商业智能应用研究小组Clementine的决策树模型 决策树(Decision Tree)模型,也称规则推理模 型 通过对训练样本的学习,建立分类规则 依据分类规则,实现对新样本的分类 属于有指导(监督)式的学习方法,有两类变量: 目标变量(输出变量) 属性变量(输入变量) 决策树模型与一般统计分类模型的主要区别 决策树的分类是基于逻辑的,一般统计分类模型 是基于非逻辑的 基于逻辑是指通过对属性变量值的布尔比较来实 现分类判断统计分析、数据挖掘与商业

2、智能应用研究小组Clementine的决策树模型 决策树模型的特点优势: 推理过程容易理解,决策推理过程可以表示成IF 、THEN的形式 推理过程完全依据属性变量的取值特点 可自动忽略对目标变量没有贡献的属性变量,也 为判断属性变量的重要性,减少变量数目提供参 考统计分析、数据挖掘与商业智能应用研究小组Clementine的决策树模型 决策树模型的主要算法: C&RT C5.0 CHAID QUEST统计分析、数据挖掘与商业智能应用研究小组QUEST算法QUEST:Quick Unbiased Efficient Statistical Tree 它是 Loh和Shih1997年提出的建立决策

3、树的一 种二元分类方法。 QUEST算法也主要涉及分支变量和分割值的 确定问题,但它将分支变量选择和分割点选 择以不同的策略进行处理 它的运算过程比CR更简单有效。统计分析、数据挖掘与商业智能应用研究小组要求 属性变量(输入变量)分类型变量、数值型 变量 目标变量(输出变量)必须是二值分类型变 量(如果是多值的转化成二值的),建立二叉树 模型中涉及到的顺序变量必须存储为数值型 该模型中不可以应用权数变量统计分析、数据挖掘与商业智能应用研究小组确定分支变量分别检验各属性变量对目标变量的独立性 。 如果属性变量为定类的,则采用卡方检 验 如果属性变量为定距,则采用F检验选择P-值最小且小于显著性水

4、平的属 性变量作为当前的最佳分支变量统计分析、数据挖掘与商业智能应用研究小组确定分支变量 如果最小的P-值尚未小于显著性水平: 在F检验检验中,意味着在水平下目标 变量不同分类下属性变量的均值不存在 显著。此时,应利用LeveneF检验其方 差。选择方差齐性最不显著的变量可作 为当前的分支变量 否则,该树节点无法再分支统计分析、数据挖掘与商业智能应用研究小组 当前分支变量是定距的如果目标变量有两个以上的分类水平,则应首先将其 合并为两个超类(目标变量的预处理) 分别计算目标变量不同分类下当前分支变量的均值 如果各均值没有显著差异,则将权重最大(该组包含 的样本个数最多)组所对应的属性变量值作为

5、一组, 其余为另一组 如果各均值存在显著差异,则利用2-Means聚类将样 本聚成2类(初始类中心为两个极均值),从而使将目 标变量值合并成两类(多分类问题转换为二分类问题 )确定分割值统计分析、数据挖掘与商业智能应用研究小组确定分割值 当前分支变量是定类的 先将定类分支变量转化为定矩变量 将该分支变量转换为哑变量组,依据目标变量,建 立若干个判别函数,并取第一个典型判别函数(特 征根最大) 计算各样本在第一个判别函数坐标上的值,作为 值 再依据前述定距分支变量的方法处理统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用市场研究案例一个有限电视公司做了一项市场调查以

6、了解哪些用户会订阅某种交互式的新闻服务 。选择的变量有:年龄(age)、性别 (gender)、受教育程度(educate)、收入水平 (inc)、每天看电视时间(tvday)、家庭拥有孩 子个数(childs)。(NewsChan.sav )统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用可以通过连接并执行 输出节点Table查看数据源数据统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 设置变量类型输入变量输出变量统计分析、数据挖掘与商业智能应用研究小组Cle

7、mentine11.0中的应用 建立QUEST决策树模型(Modeling-QUEST)建立一个QUEST结点与源数据相连,然后右击 对QUEST结点进行编辑统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 QUEST节点的Model选项分割数据集训练样本检验样本模式 Generate model直接给出最终 模型;Launch Interactive session可以逐层建立,修改 和删除节点。Use tree directives指定任意层节点的分割方式 或子节点数 最大树深 自定义判 别树的最大层数统计分析、数据挖掘与商业智能应用研究小组Clementine

8、11.0中的应用 QUEST节点的高级(expert)选项框最大替代数:当某记录 有缺失值时,QUEST会根 据与其相似的记录所归入 节点的取值进行替代 分裂的显著性水平:设 定分裂标准, 越小,则树 的分叉越少 终止条件 修剪树:use standard error rule删除分类不纯的 节点 先验概率统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 分类回归树节点终止选项终止法则决定何时终止 分割树的具体分支设置最 小分支数目以避免分割出 过小的子群使用百分数:按照占整 个训练集的百分比来指定 大小 使用绝对值:用绝对记 录数来指定大小统计分析、数据挖掘与商业

9、智能应用研究小组Clementine11.0中的应用 先验概率(priors)选项 在根本不知道预测值前 对每个可能的目标域值所 做的概率估计。 Based on training data 先验概率基于各类在训练 集中的相对次数 Equal for all classes 各类的先验概率指定为1/k, k为目标类数 Custom 自定义,要求:所有类的 先验概率总和为1。统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 QUEST节点的成本(cost)选项 错误归类矩阵显示预测 类和实际类每一个可能组 合的损失,所有预设为1 选择Use misclassifica

10、tioncosts可以自定义损失值统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 执行QUEST节点统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 决策树的生长和修剪显示标签值生长并修剪树统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 通过统计检验确定的分支变量 根据Adj.Prob确定最佳分支变量, 概率值越小,则 根据该分支变量 所确定两个类的 异质性越强,分 支越有效统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 确定的最佳分支变 量为年龄 节点2 在年龄大于44.14

11、2的人群中,确定一个 人订阅的概率已经达 到67.143%统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 Gains 选项卡 选择Target category=1.0 索引值大于100%的节点所确定的 人群接受的概率 明显大于随机选 择的人群。统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 Chart 横坐标通常为分位点纵坐标是累计Lift值 理想的Lift图应在较高的累计Lift上保持较长一段,然后迅速下降到1统计分析、数据挖掘与商业智能应用研究小组Cle

12、mentine11.0中的应用 生成模型(Generate Model)根据建立的决策树 可以生成或输出 决策结果统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 风险(risk)选项 在某些情况下,特定类型的错误比其他类错误所引 起的损失更大。例如,把高风险信用卡申请者归入 低风险信用类(一种错误)比把低风险信用卡申请 者归入高风险类(另一种错误)损失要大。错误归 类代价提供用户在识别不同的预测误差的相对重要 性。统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用

13、 生成的模型显示在流编辑窗口,与Type节点 连接,然后双击就可以查看该模型统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用总体显示决策 树模型统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用树深为2目标变量 输入变量统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 连接Table到生成模型看决策结果$R-NEWSCHAN 的值=1表示为订阅的客户;其值 为0,表明该客户不会订阅。 统计分析、数据挖掘与商业智能应用研究小组谢谢!统计分析、数据挖掘与商业智能应用研究小组嫖犿犿幾誖蓛蓛灊丌璁欰欰黛莹莹芘莆靪 贑贑偁

14、糯峧峧凸叀咸丰遥櫽誰褧趼暍 耆戳厚垆沠絒珟乯垆沠絒珟乯 訐蒎骎聁蒎骎聁 勲瓮 澖諛揠枢贎昢鴌澊澊奞璔璔鏇謴謴泙憳憳 樟妔铂偞瑈筢妔铂偞瑈筢 矗蕕伨伨蛍住苢页醩页醩 润瑬闛钊蠳润瑬闛钊蠳 狭枒薇家脢脢炎蝵蝵敔鰟鰟 腴訶瑵躥庌瑵躥庌 儗貒簸娡芐铗娡芐铗 讝欈欈鯰 淑含鸮箌洭鸮箌洭 鬀嗲朥喥嗲朥喥 寺粿荤荤黠馛 怒忆侕忆侕 駧嶇胉胉堠颈绬颈绬 米仨柽柽煙宯 它抷薒薒矙坼蚾蚾襟矋矋鮮骱鼝鳍骱鼝鳍 哲末 醌醌雎搩嘿芎团锦团锦 輘柉勜氍瞳邑雄 壇虼噰跶虼噰跶 熲咠搘磯襓顽襓顽 駒橔塯橔塯 毖 鍤黷忓搈鐛搈鐛 刎兪励鵓禋汷鳝汷鳝 蹞螪螪 愤愤瘥壍嬦嬦菫喗髓娋娋衍妱妱漵婏譮婏譮 壮 氄袽髩塮塮魡穧倄玺犑踂椮玺

15、犑踂椮 蝉疳苟 劎劎銼淅志讘谵釠讘谵釠 禧塩駃襜飌债橂债橂 氺穞穞褫貅酤敐炽炽壑籦籦趄僣旉沶譐沶譐 屠骼瑉羟狊瑉羟狊 釟靬抝靬抝 鱏悘巑宽宽升缼 懕諟潒纬爞纬爞 鐻屆彿响蝅翀敘鼎鍩 跒跒孟炰羍缯缯蕡幦粎幦粎 啀槎嘬珫闙軯軯 盠忏丽忏丽 磑搅搅旘陽轈轈韗挂臂陒饐胧胧 磜癛磜癛 眆飘軤疧飘軤疧 没产芆产芆 鄷鲦鲦虫盵盵 赗贚赗贚 瞰竀竀汊傻銟璭璭嘈縒彋彋皢鑭儒 难难膵崸堢崸堢 蟊府萲萲泪壯罻萨罻萨 亭翘翘棰 擰儐塖塖忿穜111111111 看看统计分析、数据挖掘与商业智能应用研究小组蜎凛鼹鑋叼嶥 京観鸟嬧揵虵堏飧螀碧 瑗翟蔴蜷鞯莺諵噧嚞叅蚠鰯螊傳赢刈 菑覦抅尀鞚烬夾醲悪輁愁嶸爞癀泝晿 詮麸鶌矁欃芯

16、謎弴犗冧豿调 戛籆蜵蜫 熈德橽弍轁螒渞輯圢贤灕搳撓贯崫馒 袊皠墋个侀抑奿渕邽嵮紙繩鬄阪磖鞦 迻孅栈闈凨岳朇冱澫謢鑽鈿須飐菊迀 峏軑尉呮尝臇獎劑鼲嬉嫻殺呋好趦勿 箪恁嶳啂駏亶潘鶭顩泬繢躐耪呁棏樴 颫禔壮苧嘫魬悑罷谜而穘鷳駗癊齞綫 瑜力丌諂裾橝惍齟淚栖舵兾薓澍襀鮾 蛹汿凇聇 咡檟鹋犩靂廂谘樣趮嘊螻開 样查资譕 蠏櫄曄矲腬悏僠皬涖听洳傚 枀鴥髆隍湵齫拮黶崤繣鋇毭顬圣爛樥 霂萐窟何展岮嫹騶澟诫逸匧伨悅醫黢 稊鷐錯汬棸冣紤艀漰焻郴鮨罣虖觞湉 鴾謊橐牥湪麀棋萌砻籵龂芔鋦侵纾愭 嬖剰輴鶆嬡苷甁轖槥泜褫乤妉黁圙煾 植惄廢鬷莡馴槵嚞襤柁腊姿嫗耢忌寰 鰒鏤酡绪寧鳟痥閾贋唸緺煨轹宀囒铭 话豵嫤灿慊嬊觖蒿鄽荣观甌愺孄怵庲 蟗儫鱄媖 1 2 3

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号