9分类数据分析

上传人:野鹰 文档编号:2872606 上传时间:2017-07-28 格式:PPT 页数:33 大小:976.50KB
返回 下载 相关 举报
9分类数据分析_第1页
第1页 / 共33页
9分类数据分析_第2页
第2页 / 共33页
9分类数据分析_第3页
第3页 / 共33页
9分类数据分析_第4页
第4页 / 共33页
9分类数据分析_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《9分类数据分析》由会员分享,可在线阅读,更多相关《9分类数据分析(33页珍藏版)》请在金锄头文库上搜索。

1、2017年8月26日星期六,1,第9章 分类数据分析,9.1 分类数据与卡方统计量9.2 拟合优度检验9.3 列联分析:独立性检验9.4 列联表中的相关测量9.5 列联分析中应注意的问题,2017年8月26日星期六,2,9.1 分类数据与卡方统计量,分类数据:数据结果用数值表示,但不同数值描述的是调查对象的不同特征。分类数据汇总的结果表现为频数。数值型数据也可以表示为分类数据卡方检验是对分类数据的频数进行分析的统计方法。,2017年8月26日星期六,3,卡方统计量,:测定两个分类变量之间的相关程度,2017年8月26日星期六,4,9.2 拟合优度检验(goodness of fit test)

2、,对一个分类变量的检验定义:依据总体分布状况,计算分类变量中各类别的期望频数,与观察频数进行对比,判断期望频数与观察频数是否有显著差异。目的:对分类变量进行分析例:1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者共718人,其中男性374人,女性344人,以=0.1的显著性水平检验存活状况与性别是否有关?,2017年8月26日星期六,5,如果存活状况与性别无关,男性与女性的幸存比例应该相等。海难后幸存比例为718/2208=0.325男性应该为1738*0.325=565人女性应该为470*0.325=153人

3、。,解:判断观察频数与期望频数是否一致H0:观察频数与期望频数一致H1:观察频数与期望频数不一致,2017年8月26日星期六,6,决策:拒绝H0结论:存活状况与性别有关,拒绝域,2017年8月26日星期六,7,例题2一项统计结果声称,某市老年人口所占比例为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人老年人。调查结果是否支持14.7%的看法?,2017年8月26日星期六,8,解:H0:观察频数与期望频数一致H1:观察频数与期望频数不一致,期望频数:400居民中老年人的期望频数应该为400*14.7%=59 400居民中非老年人的期望频数应该为4

4、00-59=341,2017年8月26日星期六,9,拒绝域,2017年8月26日星期六,10,9.3 列联分析:独立性检验,独立性检验:对两个分类变量的分析,是否有关联列联表:由两个以上的变量进行交叉分类的频数分布表行变量的类别用 R表示, Ri 表示第 i 个类别列变量的类别用 C 表示, Cj 表示第 j 个类别每种组合的观察频数用 fij 表示列出了行变量和列变量的所有可能的组合,所以称为列联表一个 R行 C列的列联表称为 R C列联表,2017年8月26日星期六,11,列联表的结构(2 列联表),列(Cj),行 (Ri),一个2 列联表,2017年8月26日星期六,12,列联表的结构(

5、R C列联表的一般表示),列(Cj),行(Ri),R行 C列的列联表,fij 表示第 i 行第 j 列的观察频数,2017年8月26日星期六,13,例:一个集团公司在四个不同的地区设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方式,从四个分公司共抽取420个样本单位(人),了解职工对此项改革的看法,调查结果如下表,2017年8月26日星期六,14,边缘分布行边缘分布行观察值的合计数的分布例如,赞成改革方案的共有279人,反对改革方案的141人列边缘分布列观察值的合计数的分布例如,四个分公司接受调查的人数分别为100人,120人,90人,110人条件分布

6、与条件频数变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量 X 的分布每个具体的观察值称为条件频数,3个概念:边缘分布,条件分布和条件频数,2017年8月26日星期六,15,行边缘分布,列边缘分布,条件频数,2017年8月26日星期六,16,条件频数反映了数据的分布,但不适合进行对比百分比分布:以相同的基数计算相应的百分比行百分比:行的每一个观察频数除以相应的行合计数(f0 / RT)列百分比:列的每一个观察频数除以相应的列合计数( f0 / CT)总百分比:每一个观察值除以观察值的总合计数( f0 / n ),百分比分布,2017年8月26日星期六,17,总百分比,列百分比,行百分

7、比,2017年8月26日星期六,18,问题:检验改革方案的态度和各公司之间是否存在依赖关系H0:改革方案的态度和各公司之间是独立的(不存在依赖关系)H1:改革方案的态度和各公司之间不独立(存在依赖关系)一个观察频数 f0的期望频数 fe ,是总频数的个数 n 乘以该观察频数 f0 落入第 i 行 和第j列的概率,即,2017年8月26日星期六,19,计算各单元的期望频数,2017年8月26日星期六,20, 统计量,用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立计算公式为,2017年8月26日星期六,21,合计:3.0319,2017年8月26日星期六,22,独立性检验

8、检验列联表中的行变量与列变量之间是否独立检验的步骤为提出假设H0:行变量与列变量独立H1:行变量与列变量不独立计算检验的统计量,进行决策根据显著性水平和自由度(r-1)(c-1)查出临界值2若22,拒绝H0;若229.448,拒绝H0,2017年8月26日星期六,25,9.4 列联表中的相关测量,一: 相关系数测度 22列联表中数据相关程度的一个量对于22 列联表, 系数的值在01之间 相关系数计算公式为n:总频数,2017年8月26日星期六,26,一个简化的 22 列联表,2017年8月26日星期六,27,列联表中每个单元格的期望频数分别为,将各期望频数代入 的计算公式得,2017年8月26

9、日星期六,28,将入 相关系数的计算公式得,ad 等于 bc , = 0,表明变量X 与 Y 之间独立若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频数全部落在对角线上,此时| =1,表明变量X 与 Y 之间完全相关,列联表中变量的位置可以互换,的符号没有实际意义,故取绝对值即可,2017年8月26日星期六,29,二:列联相关系数C测度大于22列联表中数据的相关程度C 的取值范围是 0C1C = 0表明列联表中的两个变量独立C 的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大。22列联表完全相关时,c=0.7071;33列联表完全相关时,c=0.8165;44列联表完全相

10、关时,c=0.87根据不同行和列的列联表计算的列联系数不便于比较,2017年8月26日星期六,30,三: V相关系数计算公式为 其中 V 的取值范围是 0V1 V = 0表明列联表中的两个变量独立V=1表明列联表中的两个变量完全相关不同行和列的列联表计算的列联系数不便于比较当列联表中有一维为2,min(r-1),(c-1)=1,此时V=,2017年8月26日星期六,31,四: 数值分析、C、V 的比较同一个列联表,、C、V 的结果会不同不同的列联表,、C、V 的结果也不同在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数,2017年8月26日星期六,32,9.5 列联分析中应注意的问题,一:条件百分表的方向通常将自变量放在列的位置,将因变量放在行的位置。如果因变量在样本中的分布和在总体中的分布不同时,可以进行调整。,2017年8月26日星期六,33,二:卡方分布的期望值准则准则一:如果只有两个单元,每个单元的期望频数必须5准则二:如果有两个以上单元,20%以上的单元期望频数5时,不能使用卡方检验如果期望值过小, 会不适当的增大,造成对 的高估,导致不适当的拒绝原假设的结论,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号