吴喜之统计学精品讲义下

资源描述

《吴喜之统计学精品讲义下》由会员分享，可在线阅读，更多相关《吴喜之统计学精品讲义下（268页珍藏版）》请在金锄头文库上搜索。

1、统计学从数据到结论第八章列联表、列联表、2检验和对数线性模型检验和对数线性模型三维列联表三维列联表（关于某项政策调查所得结果（关于某项政策调查所得结果:table7.txt）观点：赞成观点：不赞成低收入中等收入高收入低收入中等收入高收入男 201055810 女 25157279 列联表列联表 ?前面就是一个所谓的三维前面就是一个所谓的三维列联表列联表 (contingency table). ?这些变量中这些变量中每个都有两个或更多的可能取值每个都有两个或更多的可能取值。这些取值也称为。这些取值也称为水平水平；比如收入有三个水平，观点有两个水平，

2、性别有两个水平等。；比如收入有三个水平，观点有两个水平，性别有两个水平等。该表为该表为322列联表列联表 ?在下面在下面SPSS数据中，表就和上面的不同，收入的数据中，表就和上面的不同，收入的“低低”、“中中”、“高高”用代码用代码1、2、3代表；性别的代表；性别的“女女”、“男男”用代码用代码0、1代表；观点代表；观点“赞成赞成”和和“不赞成不赞成”用用1、0代表。有些计算机数据对于这些代码的形式不限（代表。有些计算机数据对于这些代码的形式不限（可以是数字，也可以是字符串可以是数字，也可以是字符串）。）。列联表列联表 ?列联表的中间各个变量不同水平的交

3、汇处，就是这种水平组合出现的频数或列联表的中间各个变量不同水平的交汇处，就是这种水平组合出现的频数或计数计数（count）。）。 ?二维的列联表又称为二维的列联表又称为交叉表交叉表（cross table）。）。 ?列联表可以有很多维。维数多的叫做列联表可以有很多维。维数多的叫做高维列联表。高维列联表。 ?注意前面这个列联表的变量都是定性变量注意前面这个列联表的变量都是定性变量;但列联表也会带有但列联表也会带有定量变量作为协变量。定量变量作为协变量。二维列联表的检验二维列联表的检验 ?研究列联表的一个主要目的是看这些变量是否相关。比如前面例子中的收入和观点

4、研究列联表的一个主要目的是看这些变量是否相关。比如前面例子中的收入和观点是否相关是否相关。 ?这需要形式上的检验这需要形式上的检验二维列联表的检验二维列联表的检验 ?下面表是把该例的三维表简化成下面表是把该例的三维表简化成只有收入和观点的二维表只有收入和观点的二维表(这是(这是SPSS自动转化的: 自动转化的:Analyze-Descriptive Statistics- Crosstabs-). OPINION * INCOME Crosstabulation Count 7151941 45251282 524031123 0 1 OPINION Total 123

5、INCOME Total 二维列联表的检验二维列联表的检验 ?对于上面那样的二维表。我们检验的零假设和备选假设为对于上面那样的二维表。我们检验的零假设和备选假设为 ?H H0 0:观点和收入这两个变量不相关观点和收入这两个变量不相关;H H1 1:这两个变量相关。这两个变量相关。 ?这里的检验统计量在零假设下有（大样本时）这里的检验统计量在零假设下有（大样本时）近似的近似的2 2分布。分布。 ?当该统计量很大时或当该统计量很大时或p p-值很小时，就可以拒绝零假设，认为两个变量相关。 -值很小时，就可以拒绝零假设，认为两个变量相关。二维列联表的检验二维列联表的检验 ?实

6、际上有不止一个实际上有不止一个2 2检验统计量。包括检验统计量。包括 Pearson 2 2统计量统计量和和似然比似然比（likelihood ratio） 2 2统计量统计量；它们都有渐近的；它们都有渐近的2 2分布。分布。 ?对于我们的数据，根据计算可以得到（对于这两个统计量均有）对于我们的数据，根据计算可以得到（对于这两个统计量均有）p p-值小于 0.001 -值小于 0.001。因此可以说，收入高低的确影响观点。。因此可以说，收入高低的确影响观点。 () 2 1 n ii i i OE Q E = = 1 2ln n i i i i O TO E = = Pear

7、son 2 2统计量似然比统计量似然比2 2统计量统计量二维列联表的检验二维列联表的检验 ?刚才说，这些刚才说，这些2 2统计量是近似的，那么统计量是近似的，那么有没有精确的统计量呢？有没有精确的统计量呢？ ?当然有。这个检验称为当然有。这个检验称为Fisher精确检验 Fisher精确检验；它不是；它不是2 2分布，而是分布，而是超几何分布超几何分布。 ?对本问题,计算Fisher统计量得到的对本问题,计算Fisher统计量得到的 p p-值也小于0.001。-值也小于0.001。 ?Fisher精确检验的又一例子Fisher精确检验的又一例子二维列联表的检验二维列

8、联表的检验 ?聪明的同学必然会问，既然有精确检验聪明的同学必然会问，既然有精确检验为什么为什么还要用近似的还要用近似的2 2检验呢？检验呢？ ?这是因为当数目很大时，超几何分布计算相当缓慢（比近似计算会差很多倍的时间）；而且在计算机速度不快时，根本无法计算。因此人们多用大样本近似的这是因为当数目很大时，超几何分布计算相当缓慢（比近似计算会差很多倍的时间）；而且在计算机速度不快时，根本无法计算。因此人们多用大样本近似的2 2统计量。而列联表的有关检验也和统计量。而列联表的有关检验也和 2 2检验联系起来了。检验联系起来了。具体运算：先具体运算：先加权加权，加权之后，按照次

9、序选，加权之后，按照次序选 AnalyzeDescriptive StatisticsCrosstabs。在打开的对话框中，把在打开的对话框中，把opinion和和income分别选入分别选入 Row（行）和（行）和Column（列）；至于哪个放入行或哪个放入列是没有关系的。（列）；至于哪个放入行或哪个放入列是没有关系的。如果要如果要Fisher精确检验则可以点精确检验则可以点Exact，另外在，另外在 Statistics中选择中选择Chi-square，以得到，以得到2检验结果。检验结果。最后点击最后点击OK之后，就得到有关之后，就得到有关Pearson 2统计量、似然比统

10、计量、似然比2统计量以及统计量以及Fisher统计量的输出了 (这里的统计量的输出了 (这里的Sig就是就是p-值)。值)。 Chi-Square Tests 20.456a2.000.000 21.1902.000.000 20.713.000 20.290 b 1.000.000.000.000 123 Pearson Chi-Square Likelihood Ratio Fishers Exact Test Linear-by-Linear Association N of Valid Cases Valuedf Asymp. Sig. (2-sided) Exact Sig. (

11、2-sided) Exact Sig. (1-sided) Point Probability 0 cells (.0%) have expected count less than 5. The minimum expected count is 10.33. a. The standardized statistic is -4.504. b. 下面就是SPSS计算机对于这个问题的输出下面就是SPSS计算机对于这个问题的输出高维列联表和高维列联表和(多项分布)(多项分布)对数线性模型对数线性模型 ?前面例子原始数据是个三维列联表，其检验和对两维类似。前面例子原始数据是个三维列联表，

12、其检验和对两维类似。 ?但高维列联表在计算机软件的选项上有所不同，而且可以构造一个所谓 (多项分布) 但高维列联表在计算机软件的选项上有所不同，而且可以构造一个所谓 (多项分布)对数线性模型对数线性模型 (loglinear model)来进行分析。来进行分析。 ?利用对数线性模型的好处是不仅可以直接进行预测，而且可以增加利用对数线性模型的好处是不仅可以直接进行预测，而且可以增加定量变量作为模型自变量的一部分。定量变量作为模型自变量的一部分。对数线性模型对数线性模型 ? 现在简单直观地通过二维表介绍一下对数线性模型，假定不同的行代表第一个变量的不同水平，而不同的列代表第二

13、个变量的不同水平。用现在简单直观地通过二维表介绍一下对数线性模型，假定不同的行代表第一个变量的不同水平，而不同的列代表第二个变量的不同水平。用mij代表二维列联表第代表二维列联表第i行，第行，第j列的频数。人们常假定这个频数可以用下面的公式来确定：列的频数。人们常假定这个频数可以用下面的公式来确定： ln() ijijij m=+ 这就是所谓的对数线性模型。这里这就是所谓的对数线性模型。这里 i i为行变量的第为行变量的第i个水平对个水平对ln(mln(mij ij) )的影响，而的影响，而 j j为列变量的第为列变量的第j个水平对个水平对ln(mln(mij

14、ij) )的影响，这两个影响称的影响，这两个影响称为主效应（为主效应（main effect）； ij ij代表随机误差。代表随机误差。 (多项分布)对数线性模型(多项分布)对数线性模型 ?该模型看上去和回归模型很象，但由于分布假设不同，不能简单地用线性回归的方法来套用该模型看上去和回归模型很象，但由于分布假设不同，不能简单地用线性回归的方法来套用(和Logistic回归类似)(和Logistic回归类似)；计算过程也很不一样(把这个留给计算机去操心)。只要利用数据来拟合这个模型就可以得到对于参数；计算过程也很不一样(把这个留给计算机去操心)。只要利用数据来拟合

15、这个模型就可以得到对于参数的估计(没有意义)，以及的估计(没有意义)，以及 i i和和 j j的的“估计估计”。 ?有了估计的参数，就可以预测出任何有了估计的参数，就可以预测出任何 i i，j j水平组合的频数水平组合的频数m mij ij了(通过对数) 了(通过对数) (多项分布)对数线性模型(多项分布)对数线性模型 ?注意，这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的, 注意，这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的, ?只有事先固定一个参数值(只有事先固定一个参数值(比如比如 1 1=0=0),或者设定类似于),或者设定类似于i i

16、=0=0这样的约束，才可能估计出各个的值。这样的约束，才可能估计出各个的值。 ?没有约束，这些参数是估计不出来的。没有约束，这些参数是估计不出来的。（多项分布多项分布）对数线性模型对数线性模型 ?二维列联表的更完全的对数线性模型为二维列联表的更完全的对数线性模型为 ln()() ijijijij m=+ 这里的这里的()()ij ij代表第一个变量的第代表第一个变量的第i i个水平和第二个变量的第个水平和第二个变量的第j j个水平对个水平对ln(mln(mij ij) )的共同影响，称为的共同影响，称为交叉效应交叉效应。即当单独作用时，每变量的某水平对。即当单独作用时，每变量的某水平对ln(mln(mij ij) )的影响只有的影响只有 i i(或(或 j j)大，但如这两个变量共同影响就不仅是)大，但如这两个变量共同影响就

展开阅读全文

吴喜之 统计学精品讲义 下

吴喜之统计学精品讲义下