定性数据统计分析第1-2章.ppt

上传人:灯火****19 文档编号:137617108 上传时间:2020-07-10 格式:PPT 页数:49 大小:554KB
返回 下载 相关 举报
定性数据统计分析第1-2章.ppt_第1页
第1页 / 共49页
定性数据统计分析第1-2章.ppt_第2页
第2页 / 共49页
定性数据统计分析第1-2章.ppt_第3页
第3页 / 共49页
定性数据统计分析第1-2章.ppt_第4页
第4页 / 共49页
定性数据统计分析第1-2章.ppt_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《定性数据统计分析第1-2章.ppt》由会员分享,可在线阅读,更多相关《定性数据统计分析第1-2章.ppt(49页珍藏版)》请在金锄头文库上搜索。

1、定性数据统计分析Categorical Data Analysis,授课班级:107061 2009,教学内容,第一章 定性数据 第二章 分类数据的检验 第三章 四格表 第四章 二维列联表 第五章 高维列联表 第六章 逻辑斯蒂回归模型 第七章 对数线性模型 第八章 列联表的对应分析,第一章 定性数据,什么是定性数据? 数据的类型 根据数据的取值来分: 1.计量数据(Continuous Data) : 身高、体重等; 取值为任意实数 2.计数数据(Counts) : 职工人数、成交股票数等; 取值为非负整数 3.名义数据(Nominal Data) : 性别、婚姻状况等; 取值为属性编码 4.

2、有序数据(Ordinal Data) : 文化程度、满意度等; 取值为可排序的属性编码,第一章 定性数据,定性数据的描述性统计 方法有表格法、图示法、数值法 1、表格法 【例】向50个被访者调查“你最喜欢喝的饮料”,得到表1.1。 以上数据经按类别整理后,可得到频数分布表,见表1.2 制作有序数据的频数分布表时,还可以统计累积频数和累积频率。,第一章 定性数据,如果我们想考察这些饮料受欢迎程度与性别的关系,可以制作饮料与性别的交叉分组表,见表1.3 显然,这种表有利于我们进一步发现受欢迎程度与性别之间的关系。 类似地有三种、或更多种方式分组的交叉表,即列联表(contingency table

3、)。,第一章 定性数据,2、图示法 包括条形图、圆形图(表1.4)、排列图等 其中的排列图,又叫帕累托图,是按照发生频率大小顺序绘制的条形图; 表示有多少结果是由已确认类型或范畴的原因所造成; 将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表; 可以用来分析质量问题,确定产生质量问题的主要因素。,通常用双坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率,分析线表示累积频率; 横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左到右排列; 通常将累积频率080%之间的因素认为是影响质量的主要因素。(见附录1),帕累托图(Pareto Chart),第一章 定性

4、数据,3、数值法 即用代表性的数值描述定性数据的统计分布特征。 代表性的数值有两类: 描述定性数据的中心位置 描述定性数据的离散程度 中心位置:众数、中位数、百分位数 离散程度:异众比率、G-S指数、熵,众数,数据中出现频数最高的数据值,记为Mo 如上例中,“可口可乐”是众数; 适用于定性名义数据中心位置的量度; 众数的性质略。,中位数,将数据按一定顺序排列后位于中间的数值,记为Me; 例:游客对服务态度的评价( % ) 适用于定性有序数据中心位置的量度。,百分位数,百分位数是对数据位置的量度,但不一定是中心位置; 一般地,第p百分位数是指,至少有p%的数据项小于等于这个值,且至少有(100-

5、p) %的数据项大于等于这个值; 第25百分位数称为下四分位数,记为QL,第50百分位数就是中位数,第75百分位数称为上四分位数,记为QU ;,异众比率,用于定性名义数据离散程度的度量,记为V: 离异比率越小,说明数据越集中; 此外,还可以利用随机变量来刻画定性数据的离散程度; 比如,随机变量 ,可以取 等不同的值,相应的概率为 即:,Gini-Simpson指数,基尼-辛卜生指数简称G-S指数 随机变量的G-S指数记为G-S() G-S指数越小,说明随机变量的分布越集中; G-S指数越大,则分布越分散。 当k=2, 时,G-S指数达到最大值 ,即均匀分布时指数达到最大(见附录2)。,熵,随机

6、变量的熵(entropy)记为H(): 在 的条件下,衡量给定分布与均匀分布接近的程度。 越接近于均匀分布,越处于平衡状态,即离散程度越大,熵的取值越大,最大值为 ;反之也反。 (见附录2),定性数据离散程度的测度,【例】最喜欢的饮料的频数分布表 1、用离异比率测度: 若将数据稍作调整为: 则,定性数据离散程度的测度,2、用G-S指数测度: 调整前, 调整后, 3、用熵测度: 调整前, 调整后,,定性数据离散程度的测度,如果前例中每种饮料的频数相同,那么各自的G-S指数和熵分别为多少呢? 当均匀分布时,定性数据的离散程度达到最大 G-S指数的最大值为: 熵的最大值为:,本章小结,定性数据的类型

7、 运用频数分布表整理数据,并计算频率 绘出条形图、饼图、帕累托图 描述定性数据的中心位置和离散程度,第二章 分类数据的检验,在描述分析基础上,进行推断统计分析 参数估计 假设检验 统计推断要求知道统计量的抽样分布 什么是统计量 什么是抽样分布 属性数据的两种重要分布: 二项分布 多项分布,二项分布,属性数据常常来源于每次试验仅有两种试验结果的n次独立重复试验,如成功与失败、合格与不合格、男与女、等等 假设 代表一次试验成功的概率, 代表n次试验中成功的次数,这时 服从指标n以及参数 的二项分布,即,二项分布,二项分布的期望和方差分别为: 当n=1时,二项分布简化为: 即:0-1分布是二项分布的

8、特殊情况,二项分布,【例】假设一次考试有10道选择题,每题有五个选项。一位完全没有准备的学生随机猜测每道题的答案。试问可能回答正确的题数及其概率如何。 【解】结果见表2.1 可以看出,仅当=0.5时,二项分布才是对称的。 对于固定的n,随着趋近0或1,二项分布表现越加偏斜。 对于固定的 ,随着n增加,二项分布更趋近钟形。,二项分布,当n很大时,二项分布趋近于均值 , 的正态分布(近似分布)。 原则上,要使二项分布趋近正态分布,要求期望 和 都不小于5。 当较大时(如0.5),n相对较小(如10)就可以满足要求; 当较小时(如0.1或0.9) ,则要求n取较大的值(如50) ,即大样本要求。,多

9、项分布,多项分布是二项分布的推广,其试验结果的类别多于两种,记为 。 令c代表结果的类别数,用 表示每种结果出现的概率,且 对于n次独立试验,具有 次观测落入第1类, 次观测落入第2类的概率为:,多项分布,显然,当c=2时多项分布简化为二项分布。 通常不需要使用以上多项分布概率公式,只需掌握基于多项分布律的统计量即可。 大部分针对属性数据的方法都假设: 单类别的计数服从二项分布 多类别的计数服从多项分布 任何一个确定类别 计数 具有均值 ,标准差 。,其他分布,超几何分布 设N件产品中有M件次品,从中无放回取n件时所含次品数X是一个随机变量,其概率为: 泊松分布 描述指定时间内,或面积、体积内

10、某一事件出现的个数的分布,其概率为:,二项分布的统计推断,实际中,二项分布和多项分布的参数值未知,需要通过样本数据估计总体参数。 在统计学原理中,可以根据样本比例的抽样分布,用样本比例估计总体比例的区间,或用样本比例的差估计总体比例差。,二项分布的统计推断,需要强调的是,以上方法使用的前提是样本量n要足够大,或者二项比例接近0.5; 否则区间估计的效果将非常差,特别是在二项比例趋近1或0时; 这时,可以采用假设检验(得分检验)的方法来进行参数估计,其效果要优于一般直接采用区间估计的方法。 原因在于:计算样本比例的标准误时,不需要用样本比例作为总体比例的点估计。,二项分布的统计推断,【例】一项新

11、治疗手段在10次试验中有9次成功,试对总体比例进行区间估计(=0.05)。 【解1】基于直接区间估计方法的结果为: 【解2】运用检验统计量构造区间: 对于给定的p和n,使检验统计量值 的 是下面方程的解.,二项分布的统计推断,对二项参数的假设检验: Wald检验(最简单的方法) 是利用极大似然(ML)估计值代替真实标准误表达式中的未知参数而构造的统计量 近似服从标准正态分布, 近似服从df=1的卡方分布 称为Wald统计量,二项分布的统计推断,似然比检验 利用似然函数构造似然比统计量,其中分子是原假设成立时似然函数的极大值,分母是不限定参数时似然函数的极大值,形式为: 在原假设成立条件下,该统

12、计量服从df=1的大样本卡方分布 可以利用统计软件计算似然函数的极大值,几种方法的比较,【例】试对前例进行假设检验,其原假设与备择假设分别为 Wald检验的统计量: 得分检验的统计量: 似然比检验统计量:,几种方法的比较,其中, 当以上统计推断方法结果不一致时,说明ML估计量的分布远离了正态分布,在这种情况下,使用小样本方法将更准确。 对小样本时,直接使用二项分布,而不是使用正态近似来计算P-值,将更加安全准确。,分类数据的检验,当分类超过两类时,形成多项分布; 多项分布属性数据的假设检验一般提法: 按照某项指标总体被分为r类,分别为: 提出原假设: 假设对该总体进行n次观测,其中Ai类的观测

13、次数为ni,以此为基础对原假设进行检验。,分类数据的2检验,在原假设成立时,n次观测中属于Ai类的期望频数为 ,则实际频数与期望频数应接近,从而有Pearson卡方统计量: 该统计量的值越小,说明原假设成立;若该值较大,说明实际频数与期望频数差异较大,故拒绝原假设。,Mendel 的豌豆实验,分类数据的2检验,对得到的卡方统计量的值,可以直接与相应的显著性水平和自由度下的卡方值比较,若大于则拒绝原假设,若小于则不拒绝原假设; 查表得: ,故不拒绝原假设。 也可以利用P-值进行判断: 需要注意的是:卡方统计量的使用要求样本量要大,且期望频数不能太小,见附录3。 通常要求样本量50,期望频数5。,

14、分类数据的2检验,对于小期望频数的问题,有人采用合并类别的方法。但会导致: 会丢失信息; 随机性受到影响; 不同的类别合并方式会产生不同的结论 对于前面讨论的二项分布的检验而言,同样可以采用卡方统计量进行检验。只不过只有两类而已(卡方的df=1)。,分类数据的2检验,以上所进行的多项分布数据检验称为拟合优度检验,或一致性检验; 类似的例子如: 为提高市场占用率,两个主要竞争对手展开了公告战。已知之前A公司占用率45%,B公司为40%,其他15%。为了解广告之后是否有变化调查了200个消费者,有102人购买A公司产品,82人购买B公司产品,16人购买其他公司产品。问前后是否有差异。,分类数据的似

15、然比检验,分类数据的似然函数取决于多项分布的分布律: 似然函数就是观测数据出现的概率,被看作参数的函数。 似然比统计量确定了在原假设下和不限定参数时似然函数极大值的比值。 则多项分布的似然比统计量记为:,分类数据的似然比检验,似然比统计量说明,当期望频数等于实际频数时,G2等于0;越大的G2则提供了拒绝H0越充分的证据。 G2与皮尔逊卡方统计量类似,当原假设成立且期望频数很大时,都服从相同的卡方分布。 G2渐近卡方分布自由度的确定方法: 自由度df=完全参数空间要估计的参数个数-原假设成立时要估计的参数个数,Mendel 的豌豆实验,前例同样可以利用似然比统计量进行检验 与皮尔逊卡方统计量的值

16、相近。 检验的判断准则同卡方检验。,带参数的分类数据的检验,前面的分类数据检验中,假设总体比例都是已知的,进而通过计算检验统计量的值进行判断原假设是否成立。而实际中并不完全是这样的。 这就需要在原假设成立时先对未知的参数进行估计,然后再进行检验。 原假设为:,带参数的分类数据的检验,根据多项分布律构造似然函数,从而得到对数似然方程,可以求得未知参数的估计值,再来计算皮尔逊卡方统计量和似然比统计量:,带参数的分类数据的检验,【例】按性别和是否色盲将随机调查1000人进行分类,结果为:男性正常、女性正常、男性色盲、女性色盲各有442人、514人、38人、6人。 根据遗传学理论,男性正常、女性正常、男性色盲、女性色盲的概率分别为: 其中, 未知, 。 问调查与模型相符吗?,带参数的分类数据的检验,可见,上例中参数是未知的,需要先求p的极大似然估计值。 似然函数为: 得到对数似然方程: 于是求得:,数值迭代算法求参数,在对数似然方程无显式解时,可以使用excel,用数值迭

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号