医学信息学SPSS分类树应用

上传人:M****1 文档编号:568944871 上传时间:2024-07-27 格式:PPT 页数:88 大小:1.21MB
返回 下载 相关 举报
医学信息学SPSS分类树应用_第1页
第1页 / 共88页
医学信息学SPSS分类树应用_第2页
第2页 / 共88页
医学信息学SPSS分类树应用_第3页
第3页 / 共88页
医学信息学SPSS分类树应用_第4页
第4页 / 共88页
医学信息学SPSS分类树应用_第5页
第5页 / 共88页
点击查看更多>>
资源描述

《医学信息学SPSS分类树应用》由会员分享,可在线阅读,更多相关《医学信息学SPSS分类树应用(88页珍藏版)》请在金锄头文库上搜索。

1、SPSS Classification Trees 分类树的应用分类树的应用内容内容基本概念基本概念快速入门快速入门知识拓展知识拓展一、基本概念一、基本概念什么是分类树?什么是分类树?对资料的要求对资料的要求用途用途如何确定变量的重要性、相互关系、交如何确定变量的重要性、相互关系、交互作用互作用分类树的优缺点分类树的优缺点分类树的运算法则分类树的运算法则1. 什么是分类树?什么是分类树?分类树产生一个基于树状的分类模型;分类树产生一个基于树状的分类模型;它将研究对象分组,可以根据自变量预它将研究对象分组,可以根据自变量预测因变量;是探索性和证实性分类分析测因变量;是探索性和证实性分类分析的有效

2、工具。的有效工具。2. 对资料的要求:任何类型对资料的要求:任何类型不要求解释变量不要求解释变量Xi 和结果变量和结果变量Y具有某种特具有某种特定的分布。定的分布。允许不同数据类型的解释变量一起进入模允许不同数据类型的解释变量一起进入模型,可以使用不同数据类型的结果变量。型,可以使用不同数据类型的结果变量。传统方法对资料的类型和分布有相对严格传统方法对资料的类型和分布有相对严格的规定(如多元线性回归);不易处理共的规定(如多元线性回归);不易处理共线性问题和多水平变量之间复杂的交互作线性问题和多水平变量之间复杂的交互作用(如用(如logistic 回归)。回归)。 l根根据据解解释释变变量量对

3、对结结果果变变量量进进行行分分类类和和预测。预测。l识别影响因素间的交互作用识别影响因素间的交互作用3. 用途用途1352名少年儿童肥胖症危险因素名少年儿童肥胖症危险因素儿童肥胖症的儿童肥胖症的高危人群和低危人群高危人群和低危人群4. 变量的重要性及变量的重要性及变量间的相互关系如何确定?变量间的相互关系如何确定?解释变量的重要性表现为该解释变量解释变量的重要性表现为该解释变量出出现在树干的起始部位,或离起始部位很现在树干的起始部位,或离起始部位很接近接近;另一方面,重要性还表现为同一;另一方面,重要性还表现为同一解释变量解释变量多次在模型中出现多次在模型中出现。利用解释变量之间上下的关系分析

4、解释利用解释变量之间上下的关系分析解释变量间是否有可能存在交互作用。如果变量间是否有可能存在交互作用。如果某些解释变量在单因素分析时与结果变某些解释变量在单因素分析时与结果变量之间无明显关联,而在模型中的某些量之间无明显关联,而在模型中的某些局部有明显的效应,提示这些解释变量局部有明显的效应,提示这些解释变量之间可能存在交互作用。之间可能存在交互作用。5. 分类树的优缺点分类树的优缺点是一种新的多因素分析方法,其结果直是一种新的多因素分析方法,其结果直观、明了、易于解释,能有效处理缺失观、明了、易于解释,能有效处理缺失数据及变量之间的共线性,对资料分布数据及变量之间的共线性,对资料分布无任何要

5、求。无任何要求。只适合大样本资料。如果结果变量是连只适合大样本资料。如果结果变量是连续性资料,样本含量可以小一些。如果续性资料,样本含量可以小一些。如果结果变量是分类资料,样本含量要大。结果变量是分类资料,样本含量要大。6. 运算法则运算法则 CHAID 结果变量:分类资料(最常用)结果变量:分类资料(最常用) 、计量或等级资料、计量或等级资料Exhaustive CHAID:结果变量:分类资结果变量:分类资料(最常用)料(最常用) 、计量或等级资料、计量或等级资料CRT结果变量:计量资料(最常用)、结果变量:计量资料(最常用)、分类或等级资料分类或等级资料QUEST 结果变量:仅用于分类资料

6、结果变量:仅用于分类资料二、快速入门二、快速入门 Quick Start1352名少年儿童肥胖症危险因素名少年儿童肥胖症危险因素银行对客户的信贷风险评估银行对客户的信贷风险评估学生压力的影响因素分析学生压力的影响因素分析(一)结果变量是分类资料(一)结果变量是分类资料 例例1 1352名少年儿童肥胖症危险因素名少年儿童肥胖症危险因素性别:男、女性别:男、女年龄组:年龄组:7-9岁,岁,10-12岁,岁,13-15岁,岁, 16岁岁胆固醇:胆固醇:5.18(mmol/L),5.18(mmol/L)甘油三脂:甘油三脂: 0.50(mmol/L),0.50(mmol/L)1. 数据文件数据文件2.

7、SPSS过程过程单击单击OK(不必在此定义变量属性)(不必在此定义变量属性)右键单击变量,定义变量类型右键单击变量,定义变量类型定义数据测量类型定义数据测量类型Measure计数资料:计数资料:Nominal等级资料:等级资料:Ordinal计量资料:计量资料:Scale定义变量定义变量“性别性别”Nominal定义变量定义变量“年龄组年龄组”Ordinal定义变量定义变量“胆固醇胆固醇”Nominal定义变量定义变量“甘油三脂甘油三脂”Nominal 定义变量定义变量“肥胖症肥胖症”Nominal肥胖症肥胖症Dependent Variable性别、年龄组、胆固醇、甘油三脂性别、年龄组、胆固

8、醇、甘油三脂 Independent VariableGrowing Method Exhaustive CHAID单击单击OK3. 主要结果主要结果例例2 2 银行对客户的信贷风险评估银行对客户的信贷风险评估A bank wants to categorize credit applicants according to whether or not they represent a reasonable credit risk. Based on various factors, including the known credit ratings of past customers, y

9、ou can build a model to predict if future customers are likely to default on their loans.1.数据文件数据文件2. To Obtain Classification TreesAnalyzeClassify Tree.3. Define Variable Properties定义数据测量类型定义数据测量类型Measure计数资料:计数资料:Nominal等级资料:等级资料:Ordinal计量资料:计量资料:ScaleClassification Tree dialog boxDefine Variable

10、Properties可对变量设置变量值标签可对变量设置变量值标签可更改变量类型和设置变量值标签可更改变量类型和设置变量值标签单击单击OK4. 分类树分类树主主对话框对话框(1)Selecting CategoriesGrowing Method: CHAID(2)Force the first variable Influence variable 一般不选择这一般不选择这2项项(3)Validation 是否需要交叉核实和分是否需要交叉核实和分开开2样本核实?样本核实? 默认:不需要默认:不需要 (4)CriteriaGrowth Limits、CHAID、IntervalsTree Dep

11、th: AutomaticParent Node:400; Child Node:200CriteriaCHAID,默认拆分及合并的检验水准均定位拆分及合并的检验水准均定位0.05CriteriaIntervals,对连续性变量,默认分为10个区间(5) Output treeTree in table format:非默认,可不选非默认,可不选Output StatisticsOutput Plots5. 主要结果主要结果CHAID, Exhaustive CHAIDModel Summary:记录了主要操作:记录了主要操作Tree Editor改变图形方向改变图形方向增大图形增大图形单击单

12、击“”或右键或右键隐蔽子结隐蔽子结Hide ChildrenTree Table(非默认,可不选)(非默认,可不选)Target Category: Bad子结子结1、8对区分对区分Bad的区分作用大的区分作用大Bad的比例的比例41.4(1020/2464)Index=Response/41.4*100%246=2464*10%; 493=2464*20%;如累计如累计Gain Percent快速接近快速接近100,则分类和预测效果好则分类和预测效果好横坐标为调查总例数的百分比,纵坐标为目标分横坐标为调查总例数的百分比,纵坐标为目标分类如类如bad的百分比。的百分比。For a good m

13、odel, the index value should start well above 100%, remain on a high plateau as you move along(说明区分度高的节(说明区分度高的节点多)点多), and then trail off sharply toward 100%. For a model that provides no information, the line will hover around 100% for the entire chart.从应答率或检出率的角度,说明各节点的作从应答率或检出率的角度,说明各节点的作用。如果多数节

14、点的应答率接近用。如果多数节点的应答率接近41.4(1020/2464,没有建立模型的情况),则说,没有建立模型的情况),则说明模型效果不好。明模型效果不好。模型评价:总的正确率模型评价:总的正确率是是79.5,Bad的正确率的正确率是是65.2。小结:小结:Dependent为分类变量的操作为分类变量的操作单击单击OK选择选择CHAID;单击;单击CategoriesBad TargetOutput TreeOutput StatisticsOutput Plots是否需要交叉核实和分开是否需要交叉核实和分开2样本核实?样本核实?默认:不需要默认:不需要Criteria Growth Lim

15、its默认类别分默认类别分3层;母结层;母结100,子结,子结50;本例样本大,调整为本例样本大,调整为400,200如有过多的如有过多的Missing data:用用CRT or QUEST methods取代取代(二)结果变量是连续资料(二)结果变量是连续资料学生压力的影响因素分析(学生压力的影响因素分析(61例)例)性别:男;女性别:男;女专业:会计系;注册会计师系专业:会计系;注册会计师系专业满意:很满意;满意;一般;不满意专业满意:很满意;满意;一般;不满意学业成绩:很好;好;一般;较差学业成绩:很好;好;一般;较差压力总分:压力总分:0181. 数据文件数据文件2. SPSS过程过

16、程单击单击OK定义变量定义变量“性别性别”、“系系”Nominal定义变量定义变量“专业满意专业满意”、“学业成绩学业成绩”Ordinal Growing Method: CRT;单击单击CriteriaParent Node:20; Child Node:10单击单击OK3. 主要结果主要结果Parent NodeChild Node模型构建的主要参数如下模型构建的主要参数如下应变量为分类资料,选用应变量为分类资料,选用Exhaustive CHAID 或或CHAID算法。算法。拆分及合并的检验水准一般设置为拆分及合并的检验水准一般设置为0.05分类树的最大生长深度定为几层(默认分类树的最大

17、生长深度定为几层(默认为为3层,可最多设定层,可最多设定8层)?层)?设定母结点和子结点中的最少例数分别设定母结点和子结点中的最少例数分别为多少(默认:母结点为多少(默认:母结点100;子结点;子结点50)?知识拓展知识拓展对乳腺癌患者死亡的相关因素进行分类树分析对乳腺癌患者死亡的相关因素进行分类树分析主要操作主要操作主要结果主要结果在在Word中重新绘制的图形中重新绘制的图形2病理肿瘤大小(cm)2Node 1死亡率0.9%观察例数326Node 4死亡率19.1%观察例数89Node 5死亡率7.0%观察例数86Node 3死亡率6.0%观察例数439Node 0死亡率6.0%观察总例数1

18、207Node 2死亡率=4.1%观察例数2671.01.11.41.53.03.0未检测Node 6死亡率6.5%观察例数370Node 7死亡率15.9%观察例数69腋下淋巴结转移个数图1 乳腺癌患者死亡相关因素的分类树结果分类树方法及其结果的文字描述分类树方法及其结果的文字描述方法方法结果结果分类树分类树方法方法的文字描述的文字描述 采用分类树分析乳腺癌患者死亡的相关采用分类树分析乳腺癌患者死亡的相关因素。乳腺癌患者因素。乳腺癌患者1207例,因乳腺癌死亡例,因乳腺癌死亡72例。应变量例。应变量Y:乳腺癌死亡(:乳腺癌死亡(0:生存;:生存;1:死:死亡);自变量亡);自变量X:病理肿瘤

19、大小(:病理肿瘤大小(cm)、腋)、腋下淋巴结转移个数、雌激素受体状态(阴性,下淋巴结转移个数、雌激素受体状态(阴性,阳性)、年龄(岁)和生存时间(月)。阳性)、年龄(岁)和生存时间(月)。 用用Exhaustive CHAID法建立模型,用自法建立模型,用自动法选择分类树的深度,母节(动法选择分类树的深度,母节(Parent Node)和子节()和子节(Child Node)的最小例数分)的最小例数分别为别为100和和50。树节拆分及合并的检验水准均。树节拆分及合并的检验水准均为为0.05。 分类树的深度有分类树的深度有2层(图层(图1),第),第1层为病理肿层为病理肿瘤大小,第瘤大小,第2

20、层为腋下淋巴结转移个数。终止节层为腋下淋巴结转移个数。终止节(Terminal Node)用方框表示,非终止节用椭圆)用方框表示,非终止节用椭圆表示。表示。 病理肿瘤大小与死亡率关系最密切:在病理肿瘤大小与死亡率关系最密切:在1cm以以内,乳腺癌患者的死亡率最低(内,乳腺癌患者的死亡率最低(0.9),在),在3cm以以上,死亡率最高(上,死亡率最高(19.1)。)。 腋下淋巴结转移个数也与死亡率有关联,而且腋下淋巴结转移个数也与死亡率有关联,而且与病理肿瘤大小存在交互作用。病理肿瘤大小在与病理肿瘤大小存在交互作用。病理肿瘤大小在1.5cm3.0cm的患者:腋下淋巴结转移个数在的患者:腋下淋巴结转移个数在2个个及以下,死亡率为及以下,死亡率为6.5;腋下淋巴结转移个数在;腋下淋巴结转移个数在2以上,死亡率为以上,死亡率为15.9。分类树分类树结果结果的文字描述的文字描述Thank you!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号