列联表、卡方检验与对数线性模型.ppt

上传人:re****.1 文档编号:569720003 上传时间:2024-07-30 格式:PPT 页数:43 大小:1.38MB
返回 下载 相关 举报
列联表、卡方检验与对数线性模型.ppt_第1页
第1页 / 共43页
列联表、卡方检验与对数线性模型.ppt_第2页
第2页 / 共43页
列联表、卡方检验与对数线性模型.ppt_第3页
第3页 / 共43页
列联表、卡方检验与对数线性模型.ppt_第4页
第4页 / 共43页
列联表、卡方检验与对数线性模型.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《列联表、卡方检验与对数线性模型.ppt》由会员分享,可在线阅读,更多相关《列联表、卡方检验与对数线性模型.ppt(43页珍藏版)》请在金锄头文库上搜索。

1、列联表、列联表、c c2检验和对数线性模型检验和对数线性模型三维列联表三维列联表(关于某项政策调查所得结果(关于某项政策调查所得结果:table7.sav)观点:赞成(1)观点:不赞成(0)低收入(1)中等收入(2)高收入(3)低收入(1)中等收入(2)高收入(3)男1201055810女025157279列联表列联表前面就是一个所谓的三维前面就是一个所谓的三维列联表列联表(contingency table).这些变量中这些变量中每个都有两个或更多的可能取每个都有两个或更多的可能取值值。这些取值也称为。这些取值也称为水平水平;比如收入有三;比如收入有三个水平,观点有两个水平,性别有两个水个水

2、平,观点有两个水平,性别有两个水平等。平等。该表为该表为322列联表列联表在在SPSS数据中,表就不和课本印的一样,数据中,表就不和课本印的一样,收入的收入的“低低”、“中中”、“高高”用代码用代码1、2、3代表;性别的代表;性别的“女女”、“男男”用代码用代码0、1代表;观点代表;观点“赞成赞成”和和“不赞成不赞成”用用1、0代表。有些计算机数据对于这些代码的形代表。有些计算机数据对于这些代码的形式不限(式不限(可以是数字,也可以是字符串可以是数字,也可以是字符串)。)。Table7.sav 数据数据列联表列联表列联表的中间各个变量不同水平的交列联表的中间各个变量不同水平的交汇处,就是这种水

3、平组合出现的频数汇处,就是这种水平组合出现的频数或或计数计数(count)。)。二维的列联表又称为二维的列联表又称为交叉表交叉表(cross table)。)。列联表可以有很多维。维数多的叫做列联表可以有很多维。维数多的叫做高维列联表。高维列联表。注意前面这个列联表的变量都是定性注意前面这个列联表的变量都是定性变量变量;但列联表也会带有但列联表也会带有定量变量作为定量变量作为协变量。协变量。二维列联表的检验二维列联表的检验 研究列联表的一个主要目研究列联表的一个主要目的是看这些变量是否相关。的是看这些变量是否相关。比如比如前面例子中的前面例子中的收入和收入和观点观点是否相关是否相关。这需要形式

4、上的检验这需要形式上的检验二维列联表的检验二维列联表的检验 下面表是把该例的三维表简化成下面表是把该例的三维表简化成只有收入只有收入和观点的二维表和观点的二维表( (这是这是SPSS自动转化的自动转化的: :Analyze-Descriptive Statistics-Crosstabs-.).二维列联表的检验二维列联表的检验对对于于上上面面那那样样的的二二维维表表。我我们们检检验验的的零零假假设设和备选假设为和备选假设为H H0 0:观点和收入这两个变量不相关观点和收入这两个变量不相关;H H1 1:这两个变量相关。这两个变量相关。这里的检验统计量在零假设下有(大样本时)这里的检验统计量在零

5、假设下有(大样本时)近似的近似的c c2 2分布。分布。当该统计量很大时或当该统计量很大时或p p- -值很小时,就可以拒值很小时,就可以拒绝零假设,认为两个变量相关。绝零假设,认为两个变量相关。实际上有不止一个实际上有不止一个c c2 2检验统计量。包括检验统计量。包括Pearson c c2 2统计量统计量和和似然比似然比(likelihood ratio)c c2 2统计量统计量;它们都有渐近的;它们都有渐近的c c2 2分布。分布。根据计算可以得到(对于这两个统计量均有)根据计算可以得到(对于这两个统计量均有)p p- -值小于值小于0.0010.001。因此可以说,收入高低的确。因此

6、可以说,收入高低的确影响观点。影响观点。 Pearson c c2 2统计量统计量似然比似然比c c2 2统计量统计量Oi代表第代表第i个格子的计数,个格子的计数,Ei代表按照零假设代表按照零假设(行列无关)(行列无关)对第对第i格子的计数的期望值格子的计数的期望值二维列联表的检验二维列联表的检验刚刚才才说说,这这些些c c2 2统统计计量量是是近近似似的的,那那么么有有没没有有精确的统计量呢?精确的统计量呢?当当然然有有。这这个个检检验验称称为为FisherFisher精精确确检检验验;它它不是不是c c2 2分布,而是分布,而是超几何分布超几何分布。对对本本问问题题, ,计计算算Fishe

7、rFisher统统计计量量得得到到的的p p- -值值也也小小于于0.0010.001。聪聪明明的的同同学学必必然然会会问问,既既然然有有精精确确检检验验为为什什么么还要用近似的还要用近似的c c2 2检验呢?检验呢?这这是是因因为为当当数数目目很很大大时时,超超几几何何分分布布计计算算相相当当缓缓慢慢(比比近近似似计计算算会会差差很很多多倍倍的的时时间间);而而且且在在计计算算机机速速度度不不快快时时,根根本本无无法法计计算算。因因此此人人们们多多用用大大样样本本近近似似的的c c2 2统统计计量量。而而列列联联表的有关检验也和表的有关检验也和c c2 2检验联系起来了。检验联系起来了。Fi

8、sher精确检验精确检验SPSS: Weight-Describ-crosstab-exacttable7.sav 其中有变量性别其中有变量性别( (sex) )、观点观点( (opinion) )和收入和收入( (income) );每一列相应于其代表每一列相应于其代表的变量的水平的变量的水平; ;每一行为一种水平的组合每一行为一种水平的组合( (共有共有23212种组合种组合( (12行行),),而每种组合的数目而每种组合的数目( (也就是列联表中的频数也就是列联表中的频数) )在在number那一列上面,这就是每种组合的权重那一列上面,这就是每种组合的权重( (weight),),需要把

9、这个数目考虑进去需要把这个数目考虑进去, ,称为加权称为加权( (weight).).如果不加权,最后结果按照所有组合只如果不加权,最后结果按照所有组合只出现一次来算出现一次来算( (也就是说,按照列联表每一格的频也就是说,按照列联表每一格的频数为数为1).).由于在后面的选项中没有加权的机会由于在后面的选项中没有加权的机会, ,因此因此在一开始就要加权在一开始就要加权. .方法是点击图标中的小天平方法是点击图标中的小天平(“(“权权”就是天平的意思就是天平的意思),),出现对话框之后点击出现对话框之后点击Weight cases,然后把然后把“number”选入即可。选入即可。二维列联表情况

10、二维列联表情况加权之后,按照次序选加权之后,按照次序选AnalyzeDescriptive StatisticsCrosstabs。在打开的对话框中,把在打开的对话框中,把opinion和和income分别选入分别选入Row(行)和行)和Column(列);至于哪个放入行或列);至于哪个放入行或哪个放入列是没有关系的。哪个放入列是没有关系的。如果要如果要Fisher精确检验则可以点精确检验则可以点Exact,另外在另外在Statistics中选择中选择Chi-square,以得到以得到c c2检验结果。检验结果。最后点击最后点击OK之后,就得到有关之后,就得到有关Pearson c c2统计量

11、、统计量、似然比似然比c c2统计量以及统计量以及Fisher统计量的输出了统计量的输出了( (这里这里的的Sig就是就是p-值值) )。 加权:加权:下面为下面为SPSSSPSS对于对于table7.savstable7.savs数据产生的数据产生的下面二维列联下面二维列联表表相关分析的输出相关分析的输出利用利用crosstabscrosstabs处理处理三维列联表三维列联表问题的问题的SPSSSPSS选项选项利用利用crosstabscrosstabs处理处理三维三维列联表列联表问题的输出问题的输出利用利用crosstabscrosstabs处理处理三维三维列联表列联表问题的输出问题的输出

12、利用利用crosstabscrosstabs处理处理三维三维列联表列联表问题的输出问题的输出高维列联表和高维列联表和( (多项分布多项分布) )对数线性模型对数线性模型 前面例子前面例子原始数据原始数据是个三维列联表,是个三维列联表,对三维列联表的检验也类似。对三维列联表的检验也类似。但高维列联表在计算机软件的选项但高维列联表在计算机软件的选项可有所不同,而且可以构造一个所可有所不同,而且可以构造一个所谓谓( (多项分布多项分布) )对数线性模型对数线性模型(loglinear model)来进行分析。来进行分析。利用对数线性模型的好处是不仅可利用对数线性模型的好处是不仅可以直接进行预测,而且

13、可以增加以直接进行预测,而且可以增加定定量变量作为模型的一部分。量变量作为模型的一部分。对数线性模型对数线性模型现在简单直观地通过二维表介绍一下对数线性模现在简单直观地通过二维表介绍一下对数线性模型,假定不同的行代表第一个变量的不同水平,型,假定不同的行代表第一个变量的不同水平,而不同的列代表第二个变量的不同水平。而不同的列代表第二个变量的不同水平。用用mij代代表二维列联表第表二维列联表第i行,第行,第j列的频数。列的频数。人们常假定人们常假定这个频数可以用下面的公式来确定:这个频数可以用下面的公式来确定:这就是所谓的这就是所谓的多项分布多项分布对数线性模型。这里对数线性模型。这里a ai

14、i为为行变量的第行变量的第i个水平对个水平对ln(mln(mijij) )的影响,而的影响,而b bj j为列变为列变量的第量的第j个水平对个水平对ln(mln(mijij) )的的影响,这两个影响称影响,这两个影响称为为主效应(主效应(main effect)。( (多项分布多项分布) )对数线性模型对数线性模型这个模型看上去和回归模型很象,但由于对于分这个模型看上去和回归模型很象,但由于对于分布的假设不同,不能简单地用线性回归的方法来布的假设不同,不能简单地用线性回归的方法来套用套用( (和和LogisticLogistic回归类似回归类似) );计算过程也很不一;计算过程也很不一样。当然

15、我们把这个留给计算机去操心了。只要样。当然我们把这个留给计算机去操心了。只要利用数据来拟合这个模型就可以得到对于利用数据来拟合这个模型就可以得到对于a ai i和和b bj j的的“估计估计”。有了估计的参数,就可以预测出任何有了估计的参数,就可以预测出任何i i,j j水平组水平组合的频数合的频数m mijij了(通过其对数)。了(通过其对数)。注意,这里的估计之所以打引号是因为一个变量注意,这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的的各个水平的影响是相对的, ,因此因此, ,只有事先固定只有事先固定一个参数值一个参数值( (比如比如a a1 1=0=0),),或者设定类似

16、于或者设定类似于SaSai i=0=0这这样的约束,才可能估计出各个的值。样的约束,才可能估计出各个的值。没有约束,没有约束,则这些参数是估计不出来的。则这些参数是估计不出来的。 (多项分布)对数线性模型(多项分布)对数线性模型二维列联表的更完全的对数线性模型为二维列联表的更完全的对数线性模型为这里的这里的( (ab)ab)ijij代表第一个变量的第代表第一个变量的第i i个水平个水平和第二个变量的第和第二个变量的第j j个水平对个水平对ln(mln(mijij) )的共同的共同影响影响( (交叉效应交叉效应) )。即当单独作用时,每个。即当单独作用时,每个变量的一个水平对变量的一个水平对ln

17、(mln(mijij) )的影响只有的影响只有a ai i( (或或b bj j) )大,但如果这两个变量一同影响就不仅大,但如果这两个变量一同影响就不仅是是a ai i+ +b bj j,而且还多出一项。而且还多出一项。这里的交叉项的诸参数的大小也是相对的,这里的交叉项的诸参数的大小也是相对的,也需要也需要约束条件约束条件来得到其来得到其“估计估计”;涉及;涉及的变量和水平越多,约束也越多。的变量和水平越多,约束也越多。注意,无论你对模型假定了多少注意,无论你对模型假定了多少种效应,种效应,并不见得都有意义并不见得都有意义;有;有些可能是多余的。本来没有交叉些可能是多余的。本来没有交叉影响,

18、但如果写入,也没有关系,影响,但如果写入,也没有关系,在分析过程中一般可以知道哪些在分析过程中一般可以知道哪些影响是显著的,而那些是不显著影响是显著的,而那些是不显著的。的。 两种两种对数线性模型对数线性模型前前面面介介绍绍的的多多项项分分布布对对数数线线性性模模型型假假定定所所有有的的可可能能格格子子里里面面的的频频数数满满足足多多项分布。项分布。另另一一类类为为PoissonPoisson对对数数线线性性模模型型. .它它假假定定每每个个格格子子里里面面的的频频数数满满足足一一PoissonPoisson分布(后面再介绍)分布(后面再介绍). .统计软件的选项中有关于分布的选项统计软件的选

19、项中有关于分布的选项高高维维表表的的检检验验统统计计量量和和二二维维表表一一样样也也包包含含了了Pearson c c2统统计计量量和和似似然然比比c c2统统计量。计量。 用用table7.savtable7.sav数据拟合对数线性模型数据拟合对数线性模型假定假定(多项分布)对数线性模型为多项分布)对数线性模型为 这里这里a ai为收入(为收入(i=1,2,3=1,2,3代表收入的低、中、高三代表收入的低、中、高三个水平),个水平),b bj为观点(为观点(j=1,2=1,2代表不赞成和赞成两代表不赞成和赞成两个水平),个水平),g gk为性别(为性别(k=1,2=1,2代表女性和男性两个代

20、表女性和男性两个水平)水平), , mijk代表三维列联表对于三个变量的第代表三维列联表对于三个变量的第ijk水平组合的出现次数。水平组合的出现次数。而从相应的参数估计输出结果,可以得到对而从相应的参数估计输出结果,可以得到对a ai i的的三个值的估计为三个值的估计为0.5173, 0.2549,0.0000,0.5173, 0.2549,0.0000,对对b bj j的的两个值的估计为两个值的估计为-0.6931,0.0000,-0.6931,0.0000,对对g gk k的两个值的两个值的估计为的估计为 0.1139,0.00000.1139,0.0000。( (多项对数线性模型多项对数

21、线性模型常数无意义,输出的常数项仅仅是数学意义常数无意义,输出的常数项仅仅是数学意义) )SPSS输出输出就就这这里里的的三三维维列列联联表表问问题题,如如只只考考虑虑各各个个变变量量单单独独的的影影响响,而而不不考考虑虑变变量量组组合合的的综综合合影影响响,其其SPSS输输出出的的Pearson c c2统统计计量量和和似似然然比比c c2统统计计量量得得到到的的p-值值分分别别为为0.0029和和0.0011。 SPSS输出输出SPSS的的实现实现数数据据table7.sav 假假定定已已经经加加权权 (加加权权一一次次并并存存盘盘了了既既可可) 这时的选项为这时的选项为AnalyzeLo

22、glinearGeneral,首首先先选选择择格格子子中中频频数数的的分分布布,这这里里是是多多项项分分布布 (其其默默认认值值是是Poisson对数线性模型对数线性模型).然然后后把把三三个个变变量量(sex,opinion,income)选选入入Factors(因因子子);再再选选Model(模模型型),如如果果选选Saturated(饱饱和和模模型型),那那就就是是所所有有交交叉叉效效应应都都要要放放入入模模型型;但但如如果果不不想想这这样样,可可以以选选Custom(自自定定义义),在在Building Terms(构构造造模模型型的的项项)选选Main effect(主主效效应应),

23、再再把把三三个个变变量量一一个个一一个个地地选选进进来来(如果两个或三个一同选入,等于选入交叉效应如果两个或三个一同选入,等于选入交叉效应).如果想要知道模型参数,在如果想要知道模型参数,在Options中选择中选择Estimates。最后最后Continue-OK即可得出结果即可得出结果.在计算机输出的结果中可以找到我们感兴趣的结果。在计算机输出的结果中可以找到我们感兴趣的结果。如如果果SPSS的的Viewer输输出出不不完完全全,可可以以选选中中不不完完全全的的输输出出,利利用用Edit-Copy Objects来来复复制制到到例例如如记记事事本本那那样样的的文件中,就可以看到完整输出了文

24、件中,就可以看到完整输出了 PoisonPoison对数线性模型对数线性模型 有有的的时时候候,类类似似的的高高维维表表并并不不一一定定满满足足多多项项分分布布对对数数线线性性模模型型。下下面面看看一一个个例例子子。这这是是关关于于哮哮喘喘病病人人个个数数和和空空气污染程度,年龄和性别的数据(气污染程度,年龄和性别的数据(asthma.sav)后后面面表表格格为为某某地地在在一一段段时时间间记记录录的的60组组在在不不同同空空气气污污染染状态的不同年龄及不同性别的人的状态的不同年龄及不同性别的人的发生哮喘的人数发生哮喘的人数。其中其中性别为定性变量性别为定性变量S(sex, 1代表女性,代表女

25、性,2代表男性代表男性),空空气气污污染染程程度度P也也是是定定性性变变量量(polut, 1、2、3分分别别代代表表轻度、中度和严重污染),轻度、中度和严重污染),年龄年龄A (age)为定量变量为定量变量,为那一组人的平均年龄;,为那一组人的平均年龄;还有一列还有一列计数计数C (count)为这一组的哮喘人数。为这一组的哮喘人数。这这个个表表格格和和前前面面的的列列联联表表的的不不同同点点在在于于每每一一格格的的计计数数并并不不简简单单是是前前面面三三个个变变量量的的组组合合的的数数目目(某某个个年年龄龄段段,某某种种性性别别及及某某种种污污染染下下的的人人数数),而而是是代代表表了了某

26、某个个年年龄龄段段,某种性别及某种污染下某种性别及某种污染下发生哮喘的人数发生哮喘的人数。 Poisson对数线性模型简介对数线性模型简介在某些固定的条件下在某些固定的条件下, 人们认为某些人们认为某些事件出现的次数服从事件出现的次数服从Poisson分布分布, 比比如在某一个时间段内某种疾病的发生如在某一个时间段内某种疾病的发生病数病数, 显微镜下的微生物数显微镜下的微生物数, 血球数血球数, 门诊病人数门诊病人数, 投保数投保数, 商店的顾客数商店的顾客数, 公共汽车到达数公共汽车到达数, 电话接通数等等电话接通数等等. 然而然而, 条件是不断变化的条件是不断变化的. 因此因此, 所所涉及

27、的涉及的Poisson分布的参数也随着变分布的参数也随着变化化.PoissonPoisson对数线性模型对数线性模型假假定定哮哮喘喘发发生生服服从从PoissonPoisson分分布布;但但是是由由于于条条件件不不同同,PoissonPoisson分分布布的的参参数数l l也也应应该该随随着着条条件件的的变变化化而而改改变变。这这里里的的条条件件就就是是给给出出的的性性别别、空空气气污污染染程程度度与与年年龄龄。当当然然,如如何何影影响响以以及及这这些些条条件件影影响响是是否否显显著著则则是是我我们们所所关关心心的的。这这个个模模型型可可以以写写成成 这里这里m m为常数项,为常数项,a ai

28、 i为性别为性别(i=1,2i=1,2分别代分别代表女性和男性两个水平),表女性和男性两个水平),b bj j为空气污染为空气污染程度程度(j=1,2,3j=1,2,3代表低、中高三个污染水平)代表低、中高三个污染水平),x x为连续变量年龄为连续变量年龄,而而g g为年龄前面的系为年龄前面的系数数,e eijij为为残差项残差项。 PoissonPoisson对数线性模型对数线性模型从从对对于于数数据据( (asthma.savasthma.sav) )的的PoissonPoisson对对数数线线性性模模型型的的相相应应SPSSSPSS输输出出,可可以以得得到到对对m m的的估估计计为为4.

29、98204.9820,对对a ai i的的两两个个值值的的“估估计计”为为-0.0608-0.0608、 0.00000.0000,对对b bj j的的三三个个值值的的“估估计计”为为-0.1484-0.1484,0.12230.1223、0.00000.0000,对对g g的估计为的估计为 0.01260.0126。注注意意,这这里里的的对对主主效效应应a aI I和和b bj j的的估估计计只只有有相相对对意意义义;它们在一个参数为它们在一个参数为0 0的约束条件下得到的。的约束条件下得到的。从从模模型型看看上上去去,年年龄龄和和性性别别对对哮哮喘喘影影响响都都不不那那么么重重要要。轻轻度

30、度污污染染显显然然比比中中度度污污染染和和严严重重污污染染哮哮喘喘要要好好。但但是是似似乎乎严严重重污污染染时时哮哮喘喘稍稍微微比比中中度度污污染染少少些些( (差差别别不显著不显著) )。通通过过更更进进一一步步的的分分析析(这这里里不不进进行行),可可以以发发现现,中中度度和和严严重重空空气气污污染染(无无论论单单独独还还是是一一起起)和和轻轻度度空空气气污污染染比比较较都都显显著著增增加加哮哮喘喘人人数数,而而中中度度及及严严重重污染时的哮喘人数并没有显著区别。污染时的哮喘人数并没有显著区别。数据数据( (asthma.savasthma.sav) )m=read.table(d:/bo

31、oktj1/data/asthma.txt)names(m)=c(Sex,Polution,Age,Count)attach(m)a=glm(CountSex+Polution+Age,family=poisson)Sex=factor(Sex);Polution=factor(Polution)a=glm(CountSex+Polution+Age,family=poisson)summary(a)数据数据( (asthma.savasthma.sav) )m=read.table(d:/booktj1/data/asthma.txt)Call:glm(formula=CountSex+Po

32、lution+Age,family=poisson)DevianceResiduals:Min1QMedian3QMax-1.7901-0.6700-0.06510.60931.5848Coefficients:EstimateStd.ErrorzvaluePr(|z|)(Intercept)1.7307120.14023812.341|z|)(Intercept)-0.6553450.385525-1.7000.089154.Time0.0059370.0016623.5710.000355*Machine20.4162160.1763882.3600.018291*Person20.1435910.1769330.8120.417047-Signif.codes:0*0.001*0.01*0.05.0.11(Dispersionparameterforpoissonfamilytakentobe1)Nulldeviance:85.214on59degreesoffreedomResidualdeviance:68.375on56degreesoffreedomAIC:215.32思考思考:列联表与列联表与Poisson对数线性模型,对数线性模型,以及后以及后面要介绍的试验设计的面要介绍的试验设计的数据表有什么区别?数据表有什么区别?

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号