工程统计学(7)

上传人:今*** 文档编号:108195653 上传时间:2019-10-22 格式:PPT 页数:97 大小:1.97MB
返回 下载 相关 举报
工程统计学(7)_第1页
第1页 / 共97页
工程统计学(7)_第2页
第2页 / 共97页
工程统计学(7)_第3页
第3页 / 共97页
工程统计学(7)_第4页
第4页 / 共97页
工程统计学(7)_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《工程统计学(7)》由会员分享,可在线阅读,更多相关《工程统计学(7)(97页珍藏版)》请在金锄头文库上搜索。

1、卡方检验,卡方(2)分布,卡方分布与正态分布不同,它的分布函数图像不左右对称而是呈现右偏的。,2分布是一族分布,其分布图与自由度有关,与正态分布不同,卡方分布是一种不对称分布。自由度为1或2时与自由度大于3时分布图呈现不同的形状。随着自由度的增加,其图像接近于正态分布的图像。 与大多数分布相同,卡方分布也有卡方分布表,求得卡方值后,依照不同自由度,找出P值的临界值,当卡方值大于临界值即达统计显著意义,如果卡方值小于临界值即不达统计显著意义。,卡方(2)分布,卡方(2)检验的本质,将总体分成K类,每部分的比例分别为p1, p2, p3pk。假设在观察到的样本中,各类别的比率恰巧为p1, p2,

2、p3pk。则抽取样本数为n的样本,在假设为真的情况下,可以先算出样本在各类别的预期分布,再与实际上观察到的样本分布来比较,用英国统计学家Karl Pearson所发明的卡方(2 ,chi-square)检验来进行统计检定。,2检验用来对不同类别的目标量之间是否存在显著差异进行检验,也可以用来判断两组或多组的资料是否相关联,也称为拟合度检验,即检验观察数据是否契合理论数据. 2检验是非参数检验的一种 主要用于处理定类变量 数据通常是频数,卡方(2)检验的本质,不用对参数进行假设 对分布较少有要求,也叫distribution-free tests 用于类别/顺序型数据 没有参数检验敏感,效力低

3、因此在二者都可用时,总是用参数检验,卡方(2)检验的本质,列联表(contingency table),列联表是由两个以上的变量进行交叉分类的频数分布表。,行数一般用字母r表示,列数用c表示。 上面就是一个22的列联表。,观察频数fo和期望频数fe 观察值的分布和期望值的分布,计算期望频数,第一步:算出行合计和列合计,第二步:代入下面公式算出期望频数。,计算期望频数,如果预期频率小于5,那么计算得出的卡方值将随fe的改变而发生显著的变化。此时计算值是不太可靠的,需要小心处理.,自由度,自由度(degree of freedom),是指可以自由取值的数据的个数。 对rc维的列联表数据,自由度的计

4、算公式为,自由度=(行数1)(列数1)=(r1)(c1),用fo表示观察值频数(observed frequency), 用fe表示期望值频数(expected frequency),则2检验统计量可以写为:,从上面的公式可以看出, 2统计量度量的就是观察频数偏离期望频数的程度!,卡方检验统计量的计算,卡方检验的分析,从2统计量的计算公式看出,它有这样几个特征 20,它是几个平方值的和 2统计量的分布与自由度有关 2统计量描述了观察值与期望值的接近程度。如果两者越接近,即fo- fe的绝对值越小,计算出的2的值越小;反之,则计算出的2的值越大。2检验正是运用2的计算结果与2分布中的临界值进行比

5、较,做出对原假设接受或是拒绝的判断。,在卡方检验中,统计学家对大多数的变量皆假设为独立的,因此:,H0:数据相互独立(不相关) H1:数据相互不独立(相关) 若P值0.05,就拒绝H0,H0:吸烟与肺癌是相对独立,没有关系。 H1:吸烟与肺癌是相对独立,有关系。,H0:吸烟与肺癌是相对独立,没有关系的假设拒绝,因p=0.002a=0.05。,例:年老和年轻的雇用情况如下表,试分析年龄与雇用的关系?,此问题可将两个变量分成不同水平。 年龄:年老和年轻 聘雇:雇用和未雇用,列总和*行总和 期望频率= 全部总和,卡方值=0.00366+0.0024+0.00072+0.0004732 =0.0072

6、57,P=0.932a=0.05水平,即年龄与雇用是没有关联。,卡方检验的应用,某公司生产的电子产品享有盛誉,现一种主要元件可从三个 供货商采购,元件质量可分为两个等级,从一批元件中随机 抽取1000件进行检验,结果如下表所示:,为了优化采购流程,现想知道各个供货商和质量等级间是否存在联系?,卡方检验:当需要验证是否存在差异的因子数大于等 于三的时候,用卡方检验,卡方检验的应用,1、建立假设 零假设 H0: 供应商和元件等级之间是独立的 备择假设 H1: 供应商和元件等级之间不独立,显著性水平:=0.05,自由度=(r-1)(c-1)=(3-1)(2-1)=2,卡方检验的应用,2、进行检验 统

7、计表格卡方检验,卡方检验的应用,统计结论:P=0.0010.05拒绝原假设,业务结论:供货商和元件等级之间存在联系。元件的质量受供货商的影响!,例:某集团公司计划比较属下四个分公司产品质量客户反馈情况是否有差异,通过各地销售产品的反馈(有无投诉)进行数据收集,得到如下表所示数据。,如何分析?,结论:P值=0.009a=0.05水平,说明四个公司的投诉质量情况存在差异,通过对结果进一步分析,可看到公司A的期望投数据诉是32.33,而实际观测结果是45,明显高于预测,而其它三个公司的实际观测数据小于期望数据,说明公司A的产品质量问题比较严重,需要进一步详细分析,进行整改。,相关分析的意义和任务,一

8、、相关关系的概念(注意相关关系与函数关系的区别),(一) 函数关系,它反映着现象之间存在着严格的依存关系,也就是具有确定性的对应关系,这种关系可用一个数学表达式反映出来。,例如某种商品的销售额和销售量之间,由于价格因素,所以两者可表现为严格的依存关系。,(二) 相关关系,它反映着现象之间的数量上不严格的依存关系,也就是说两者之间不具有确定性的对应关系,这种关系有二个明显特点:,1.现象之间确实存在数量上的依存关系,即某一社会经济现象变化要引起另一社会经济现象的变化;,2.现象之间的这种依存关系是不严格的,即无法用数学公式表示。,商品价格和商品销售量之间,存在着一定的依存关系,即商品价格发生变动

9、,商品的销售量也会随之发生变动。,在具有相互依存关系的两个变量中,作为根据的变量称自变量,一般用X表示;发生对应变化的变量称因变量,一般用y表示。,相关关系的种类,1.按相关关系涉及的因素多少来分,可分为:单相关和复相关。,在实际工作中,如存在多个自变量,可抓住其中主要的自变量,研究其相关关系,而保持另一些因素不变,这时复相关可转化为偏相关。,二因素之间的相关关系称单相关,即只涉及一个自变量和一个因变量。,三个或三个以上因素的相关关系称复相关,或多元相关,即涉及二个或二个以上的自变量和因变量。,2.按相关关系的性质来分,可分为: 正相关和负相关,正相关是指两相关现象变化的方向是一致的。 负相关

10、是指两相关现象变化的方向是相反的。,3. 按相关关系的形式来分,可分为: 直线相关和曲线相关,直线相关是指两个相关现象之间,当自变量X的数值发生变动时,因变量y随之发生近似于固定比例的变动,在相关图上的散点近似地表现为直线形式,因此称其为直线相关关系。,曲线相关是指两个相关现象之间,当自变量X的数值发生变动时,因变量y也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其为曲线相关关系。,4. 按相关程度分,可分为: 完全相关、不完全相关和不相关,完全相关就是相关现象之间的关系是完全确定的关系,因而完全相关关系就是函数关系。 不相关是指

11、两现象之间在数量上的变化上各自独立,互不影响。 不完全相关就是介于完全相关和不相关之间的一种相关关系。相关分析的对象主要是不完全相关关系。,相关分析的任务和内容,相关分析的主要任务,概括起来是两个方面:,一方面,研究现象之间关系的密切程度,即相关分析; 另一方面,研究自变量与因变量之间的变动关系,即回归分析。,相关分析的主要内容包括以下五个方面:,1. 判断社会经济现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点; 2. 确定相关关系的密切程度; 3. 测定两个变量之间的一般关系值; 4. 测定因变量估计值和实际值之间的差异,用以反映因变量估计值的可靠程度; 5.

12、 相关系数的显著性检验。,简单线性相关分析,一、相关表和相关图,相关图,也称散布图(或散点图)。,相关系数是在直线相关条件下,表明两个现象之间相关关系的方向和密切 程度的综合性指标。一般用符号r表示。,r的测定方法:,1.积差法,对r的解释如下:(即r的特点), r取正值或负值决定于分子协方差; r的绝对值,在0与1之间; r的绝对值大小,可说明现象之间相关关系的紧密程度。,2.简捷法,3.从单变量分组表计算相关系数,简单线性相关分析的特点,通过对r的计算方法的讨论,可看出二个明显特点:,2. 相关关系中只能计算出一个相关系数r。,1. 相关关系中,两个变量不必定出哪个是自变量,哪个是因变量,

13、因此,相关的两个变量都是随机变量;,相关系数的显著性检验,在实际的客观现象分析研究中,相关系数一般都是利用样本数据计算的,因而带有一定的随机性;样本容量越小其可信程度就越差,因此也需要进行检验。即检验样本r值的显著性。,介绍对总体相关系数 是否等于0进行检验,通常采用t分布来检验r的显著性。方法如下:,第一步:提出假设:,第二步:计算检验的统计量:,第三步:进行决策:,根据给定的显著性水平 和自由度(n-2),查找t分布表中相应的临界值 。,若 ,则表明r在统计上是显著的。,p就是你否定一个原假设时所犯的错误的概率,即p越小,你否定一个原假设时所犯的错误的概率就越小,如p=0,说明你否定一个原

14、假设时所犯的错误的概率为0,你可以有100%的把握否定原假设。在做相关性分析时,原假设是没有相关性,p=0,就否认了没有相关性,所以P=0代表这个项目(因子)对结果的影响显著(关联很大)。,相关性分析,1)计算x与y的相关系数; 2) 对变量x与y是否线性相关进行相关性检验 x : 产量( kg ) 40 42 48 55 65 79 88 100 120 140 y : 费用(千元) 150 140 160 170 150 162 185 165 190 185,结论:H0假设P=0.005a=0.05水准,拒绝H0,接收H1,即;产量与费用具有线性相关性。,例:分析设备的寿命与载荷关系?,

15、实验测得某设备的数据如下: 载荷 10 10 75 75 3.9 3.9 39 39 10 10 75 75 3.9 3.9 39 39 10 10 75 75 3.9 3.9 39 39 10 10 75 75 3.9 3.9 39 39 10 10 75 75 3.9 3.9 39 39 10 10 75 75 3.9 3.9 39 39 寿命7 6.5 64 152 6.5 18.5 241 548 6.8 16.1 62.5 149 6.3 18.2 238 543 6.6 15.7 61 146 6.1 17.9 235 538 6.4 15.3 59.5 143 5.9 17.6

16、232 533 6.2 14.9 58 140 5.7 17.3 229 528 6 14.5 56.5 135 5.5 17 226 523,推论?,回归分析,合金的强度y与合金中的碳含量x有关。为了生产出强度满足顾客需要的合金,在冶炼时应该如何控制碳含量?如果在冶炼过程中通过化验得到了碳含量,能否预测合金的强度?,这时需要研究两个变量间的关系。首先是收集数据(xi,yi),i=1,2, ,n。现从生产中收集到表所示的数据。,数据表,散点图,相关系数,1相关系数的定义,在散布图上 n 个点在一条直线附近,但又不全在一条直线上,称为两个变量有线性相关关系,可以用相关系数 r 去描述它们线性关系的密切程度,其中,性质:,表示n个点在一条直线上,这时两个变量间完全线性相关。,r0表示当x增加时y也增大,称为正相关,r0表示当x增加时y减小,称为负相关,r=0表示两个变量间没有线性相关关系,但

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号