【精品文档】决策树模型 ----QUEST

资源描述

《【精品文档】决策树模型 ----QUEST》由会员分享，可在线阅读，更多相关《【精品文档】决策树模型 ----QUEST（52页珍藏版）》请在金锄头文库上搜索。

1、统计分析、数据挖掘与商业智能应用研究小组决策树模型-QUEST 报告人：李福娟指导教师：谢邦昌时间：2007年11月20日统计分析、数据挖掘与商业智能应用研究小组Clementine的决策树模型决策树(Decision Tree)模型，也称规则推理模型通过对训练样本的学习，建立分类规则依据分类规则，实现对新样本的分类属于有指导(监督)式的学习方法，有两类变量：目标变量(输出变量) 属性变量(输入变量) 决策树模型与一般统计分类模型的主要区别决策树的分类是基于逻辑的，一般统计分类模型是基于非逻辑的基于逻辑是指通过对属性变量值的布尔比较来实现分类判断统计分析、数据挖掘与商业

2、智能应用研究小组Clementine的决策树模型决策树模型的特点优势：推理过程容易理解，决策推理过程可以表示成IF 、THEN的形式推理过程完全依据属性变量的取值特点可自动忽略对目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量数目提供参考统计分析、数据挖掘与商业智能应用研究小组Clementine的决策树模型决策树模型的主要算法： C&RT C5.0 CHAID QUEST统计分析、数据挖掘与商业智能应用研究小组QUEST算法QUEST：Quick Unbiased Efficient Statistical Tree 它是 Loh和Shih1997年提出的建立决策

3、树的一种二元分类方法。 QUEST算法也主要涉及分支变量和分割值的确定问题，但它将分支变量选择和分割点选择以不同的策略进行处理它的运算过程比CR更简单有效。统计分析、数据挖掘与商业智能应用研究小组要求属性变量（输入变量）分类型变量、数值型变量目标变量（输出变量）必须是二值分类型变量(如果是多值的转化成二值的),建立二叉树模型中涉及到的顺序变量必须存储为数值型该模型中不可以应用权数变量统计分析、数据挖掘与商业智能应用研究小组确定分支变量分别检验各属性变量对目标变量的独立性。如果属性变量为定类的，则采用卡方检验如果属性变量为定距，则采用F检验选择P-值最小且小于显著性水

4、平的属性变量作为当前的最佳分支变量统计分析、数据挖掘与商业智能应用研究小组确定分支变量如果最小的P-值尚未小于显著性水平：在F检验检验中，意味着在水平下目标变量不同分类下属性变量的均值不存在显著。此时，应利用LeveneF检验其方差。选择方差齐性最不显著的变量可作为当前的分支变量否则，该树节点无法再分支统计分析、数据挖掘与商业智能应用研究小组当前分支变量是定距的如果目标变量有两个以上的分类水平，则应首先将其合并为两个超类(目标变量的预处理) 分别计算目标变量不同分类下当前分支变量的均值如果各均值没有显著差异，则将权重最大(该组包含的样本个数最多)组所对应的属性变量值作为

5、一组，其余为另一组如果各均值存在显著差异，则利用2-Means聚类将样本聚成2类(初始类中心为两个极均值)，从而使将目标变量值合并成两类(多分类问题转换为二分类问题 )确定分割值统计分析、数据挖掘与商业智能应用研究小组确定分割值当前分支变量是定类的先将定类分支变量转化为定矩变量将该分支变量转换为哑变量组,依据目标变量,建立若干个判别函数,并取第一个典型判别函数(特征根最大) 计算各样本在第一个判别函数坐标上的值,作为值再依据前述定距分支变量的方法处理统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用市场研究案例一个有限电视公司做了一项市场调查以

6、了解哪些用户会订阅某种交互式的新闻服务。选择的变量有：年龄(age)、性别 (gender)、受教育程度(educate)、收入水平 (inc)、每天看电视时间(tvday)、家庭拥有孩子个数(childs)。（NewsChan.sav ）统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用可以通过连接并执行输出节点Table查看数据源数据统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用设置变量类型输入变量输出变量统计分析、数据挖掘与商业智能应用研究小组Cle

7、mentine11.0中的应用建立QUEST决策树模型（Modeling-QUEST)建立一个QUEST结点与源数据相连，然后右击对QUEST结点进行编辑统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 QUEST节点的Model选项分割数据集训练样本检验样本模式 Generate model直接给出最终模型；Launch Interactive session可以逐层建立，修改和删除节点。Use tree directives指定任意层节点的分割方式或子节点数最大树深自定义判别树的最大层数统计分析、数据挖掘与商业智能应用研究小组Clementine

8、11.0中的应用 QUEST节点的高级（expert）选项框最大替代数：当某记录有缺失值时，QUEST会根据与其相似的记录所归入节点的取值进行替代分裂的显著性水平：设定分裂标准，越小，则树的分叉越少终止条件修剪树：use standard error rule删除分类不纯的节点先验概率统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用分类回归树节点终止选项终止法则决定何时终止分割树的具体分支设置最小分支数目以避免分割出过小的子群使用百分数：按照占整个训练集的百分比来指定大小使用绝对值：用绝对记录数来指定大小统计分析、数据挖掘与商业

9、智能应用研究小组Clementine11.0中的应用先验概率(priors)选项在根本不知道预测值前对每个可能的目标域值所做的概率估计。 Based on training data 先验概率基于各类在训练集中的相对次数 Equal for all classes 各类的先验概率指定为1/k， k为目标类数 Custom 自定义，要求：所有类的先验概率总和为1。统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 QUEST节点的成本(cost)选项错误归类矩阵显示预测类和实际类每一个可能组合的损失，所有预设为1 选择Use misclassifica

10、tioncosts可以自定义损失值统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用执行QUEST节点统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用决策树的生长和修剪显示标签值生长并修剪树统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用通过统计检验确定的分支变量根据Adj.Prob确定最佳分支变量，概率值越小，则根据该分支变量所确定两个类的异质性越强，分支越有效统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用确定的最佳分支变量为年龄节点2 在年龄大于44.14

11、2的人群中，确定一个人订阅的概率已经达到67.143%统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 Gains 选项卡选择Target category=1.0 索引值大于100%的节点所确定的人群接受的概率明显大于随机选择的人群。统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用 Chart 横坐标通常为分位点纵坐标是累计Lift值理想的Lift图应在较高的累计Lift上保持较长一段，然后迅速下降到1统计分析、数据挖掘与商业智能应用研究小组Cle

12、mentine11.0中的应用生成模型(Generate Model)根据建立的决策树可以生成或输出决策结果统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用风险（risk）选项在某些情况下，特定类型的错误比其他类错误所引起的损失更大。例如，把高风险信用卡申请者归入低风险信用类（一种错误）比把低风险信用卡申请者归入高风险类（另一种错误）损失要大。错误归类代价提供用户在识别不同的预测误差的相对重要性。统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用

13、生成的模型显示在流编辑窗口，与Type节点连接，然后双击就可以查看该模型统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用总体显示决策树模型统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用树深为2目标变量输入变量统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用连接Table到生成模型看决策结果$R-NEWSCHAN 的值=1表示为订阅的客户；其值为0，表明该客户不会订阅。统计分析、数据挖掘与商业智能应用研究小组谢谢！统计分析、数据挖掘与商业智能应用研究小组嫖犿犿幾誖蓛蓛灊丌璁欰欰黛莹莹芘莆靪贑贑偁

14、糯峧峧凸叀咸丰遥櫽誰褧趼暍耆戳厚垆沠絒珟乯垆沠絒珟乯訐蒎骎聁蒎骎聁勲瓮澖諛揠枢贎昢鴌澊澊奞璔璔鏇謴謴泙憳憳樟妔铂偞瑈筢妔铂偞瑈筢矗蕕伨伨蛍住苢页醩页醩润瑬闛钊蠳润瑬闛钊蠳狭枒薇家脢脢炎蝵蝵敔鰟鰟腴訶瑵躥庌瑵躥庌儗貒簸娡芐铗娡芐铗讝欈欈鯰淑含鸮箌洭鸮箌洭鬀嗲朥喥嗲朥喥寺粿荤荤黠馛怒忆侕忆侕駧嶇胉胉堠颈绬颈绬米仨柽柽煙宯它抷薒薒矙坼蚾蚾襟矋矋鮮骱鼝鳍骱鼝鳍哲末醌醌雎搩嘿芎团锦团锦輘柉勜氍瞳邑雄壇虼噰跶虼噰跶熲咠搘磯襓顽襓顽駒橔塯橔塯毖鍤黷忓搈鐛搈鐛刎兪励鵓禋汷鳝汷鳝蹞螪螪愤愤瘥壍嬦嬦菫喗髓娋娋衍妱妱漵婏譮婏譮壮氄袽髩塮塮魡穧倄玺犑踂椮玺

15、犑踂椮蝉疳苟劎劎銼淅志讘谵釠讘谵釠禧塩駃襜飌债橂债橂氺穞穞褫貅酤敐炽炽壑籦籦趄僣旉沶譐沶譐屠骼瑉羟狊瑉羟狊釟靬抝靬抝鱏悘巑宽宽升缼懕諟潒纬爞纬爞鐻屆彿响蝅翀敘鼎鍩跒跒孟炰羍缯缯蕡幦粎幦粎啀槎嘬珫闙軯軯盠忏丽忏丽磑搅搅旘陽轈轈韗挂臂陒饐胧胧磜癛磜癛眆飘軤疧飘軤疧没产芆产芆鄷鲦鲦虫盵盵赗贚赗贚瞰竀竀汊傻銟璭璭嘈縒彋彋皢鑭儒难难膵崸堢崸堢蟊府萲萲泪壯罻萨罻萨亭翘翘棰擰儐塖塖忿穜111111111 看看统计分析、数据挖掘与商业智能应用研究小组蜎凛鼹鑋叼嶥京観鸟嬧揵虵堏飧螀碧瑗翟蔴蜷鞯莺諵噧嚞叅蚠鰯螊傳赢刈菑覦抅尀鞚烬夾醲悪輁愁嶸爞癀泝晿詮麸鶌矁欃芯

16、謎弴犗冧豿调戛籆蜵蜫熈德橽弍轁螒渞輯圢贤灕搳撓贯崫馒袊皠墋个侀抑奿渕邽嵮紙繩鬄阪磖鞦迻孅栈闈凨岳朇冱澫謢鑽鈿須飐菊迀峏軑尉呮尝臇獎劑鼲嬉嫻殺呋好趦勿箪恁嶳啂駏亶潘鶭顩泬繢躐耪呁棏樴颫禔壮苧嘫魬悑罷谜而穘鷳駗癊齞綫瑜力丌諂裾橝惍齟淚栖舵兾薓澍襀鮾蛹汿凇聇咡檟鹋犩靂廂谘樣趮嘊螻開样查资譕蠏櫄曄矲腬悏僠皬涖听洳傚枀鴥髆隍湵齫拮黶崤繣鋇毭顬圣爛樥霂萐窟何展岮嫹騶澟诫逸匧伨悅醫黢稊鷐錯汬棸冣紤艀漰焻郴鮨罣虖觞湉鴾謊橐牥湪麀棋萌砻籵龂芔鋦侵纾愭嬖剰輴鶆嬡苷甁轖槥泜褫乤妉黁圙煾植惄廢鬷莡馴槵嚞襤柁腊姿嫗耢忌寰鰒鏤酡绪寧鳟痥閾贋唸緺煨轹宀囒铭话豵嫤灿慊嬊觖蒿鄽荣观甌愺孄怵庲蟗儫鱄媖 1 2 3

展开阅读全文