吴喜之 统计学精品讲义 下

上传人:suns****4568 文档编号:85139641 上传时间:2019-03-07 格式:PDF 页数:268 大小:821.49KB
返回 下载 相关 举报
吴喜之 统计学精品讲义 下_第1页
第1页 / 共268页
吴喜之 统计学精品讲义 下_第2页
第2页 / 共268页
吴喜之 统计学精品讲义 下_第3页
第3页 / 共268页
吴喜之 统计学精品讲义 下_第4页
第4页 / 共268页
吴喜之 统计学精品讲义 下_第5页
第5页 / 共268页
点击查看更多>>
资源描述

《吴喜之 统计学精品讲义 下》由会员分享,可在线阅读,更多相关《吴喜之 统计学精品讲义 下(268页珍藏版)》请在金锄头文库上搜索。

1、统计学 从数据到结论 第八章 列联表、列联表、2检验和对数线性模型检验和对数线性模型 三维列联表三维列联表 (关于某项政策调查所得结果(关于某项政策调查所得结果:table7.txt) 观点:赞成观点:不赞成 低收 入 中等收 入 高收 入 低收 入 中等收 入 高收 入 男 201055810 女 25157279 列联表列联表 ?前面就是一个所谓的三维前面就是一个所谓的三维列联表列联表 (contingency table). ?这些变量中这些变量中每个都有两个或更多的可能取 值 每个都有两个或更多的可能取 值。这些取值也称为。这些取值也称为水平水平;比如收入有三个 水平,观点有两个水平,

2、性别有两个水平 等。 ;比如收入有三个 水平,观点有两个水平,性别有两个水平 等。该表为该表为322列联表列联表 ?在下面在下面SPSS数据中,表就和上面的不同, 收入的 数据中,表就和上面的不同, 收入的“低低”、“中中”、“高高”用代码用代码1、2、3代 表;性别的 代 表;性别的“女女”、“男男”用代码用代码0、1代表;观 点 代表;观 点“赞成赞成”和和“不赞成不赞成”用用1、0代表。有些计算 机数据对于这些代码的形式不限( 代表。有些计算 机数据对于这些代码的形式不限(可以是数 字,也可以是字符串 可以是数 字,也可以是字符串)。)。 列联表列联表 ?列联表的中间各个变量不同水平的交

3、汇 处,就是这种水平组合出现的频数或 列联表的中间各个变量不同水平的交汇 处,就是这种水平组合出现的频数或计 数 计 数(count)。)。 ?二维的列联表又称为二维的列联表又称为交叉表交叉表(cross table)。)。 ?列联表可以有很多维。维数多的叫做列联表可以有很多维。维数多的叫做高 维列联表。 高 维列联表。 ?注意前面这个列联表的变量都是定性变 量 注意前面这个列联表的变量都是定性变 量;但列联表也会带有但列联表也会带有定量变量作为协 变量。 定量变量作为协 变量。 二维列联表的检验二维列联表的检验 ?研究列联表的一个主 要目的是看这些变量 是否相关。比如前面 例子中的收入和观点

4、 研究列联表的一个主 要目的是看这些变量 是否相关。比如前面 例子中的收入和观点 是否相关是否相关。 ?这需要形式上的检验这需要形式上的检验 二维列联表的检验二维列联表的检验 ?下面表是把该例的三维表简化成下面表是把该例的三维表简化成只有收入和 观点的二维表 只有收入和 观点的二维表(这是(这是SPSS自动转化 的: 自动转化 的:Analyze-Descriptive Statistics- Crosstabs-). OPINION * INCOME Crosstabulation Count 7151941 45251282 524031123 0 1 OPINION Total 123

5、INCOME Total 二维列联表的检验二维列联表的检验 ?对于上面那样的二维表。我们检验的零 假设和备选假设为 对于上面那样的二维表。我们检验的零 假设和备选假设为 ?H H0 0:观点和收入这两个变量不相关观点和收入这两个变量不相关;H H1 1:这 两个变量相关。 这 两个变量相关。 ?这里的检验统计量在零假设下有(大样 本时) 这里的检验统计量在零假设下有(大样 本时)近似的近似的2 2分布。分布。 ?当该统计量很大时或当该统计量很大时或p p-值很小时,就可 以拒绝零假设,认为两个变量相关。 -值很小时,就可 以拒绝零假设,认为两个变量相关。 二维列联表的检验二维列联表的检验 ?实

6、际上有不止一个实际上有不止一个2 2检验统计量。包括检验统计量。包括 Pearson 2 2统计量统计量和和似然比似然比 (likelihood ratio) 2 2统计量统计量;它 们都有渐近的 ;它 们都有渐近的2 2分布。分布。 ?对于我们的数据,根据计算可以得到 (对于这两个统计量均有) 对于我们的数据,根据计算可以得到 (对于这两个统计量均有)p p-值小于 0.001 -值小于 0.001。因此可以说,收入高低的确影 响观点。 。因此可以说,收入高低的确影 响观点。 () 2 1 n ii i i OE Q E = = 1 2ln n i i i i O TO E = = Pear

7、son 2 2统计量 似然比 统计量 似然比2 2统计量统计量 二维列联表的检验二维列联表的检验 ?刚才说,这些刚才说,这些2 2统计量是近似的, 那么 统计量是近似的, 那么有没有精确的统计量呢?有没有精确的统计量呢? ?当然有。这个检验称为当然有。这个检验称为Fisher精确 检验 Fisher精确 检验;它不是;它不是2 2分布,而是分布,而是超几何 分布 超几何 分布。 ?对本问题,计算Fisher统计量得到的对本问题,计算Fisher统计量得到的 p p-值也小于0.001。-值也小于0.001。 ?Fisher精确检验的又一例子Fisher精确检验的又一例子 二维列联表的检验二维列

8、联表的检验 ?聪明的同学必然会问,既然有精确检验聪明的同学必然会问,既然有精确检验 为什么为什么还要用近似的还要用近似的2 2检验呢?检验呢? ?这是因为当数目很大时,超几何分布计 算相当缓慢(比近似计算会差很多倍的 时间);而且在计算机速度不快时,根 本无法计算。因此人们多用大样本近似 的 这是因为当数目很大时,超几何分布计 算相当缓慢(比近似计算会差很多倍的 时间);而且在计算机速度不快时,根 本无法计算。因此人们多用大样本近似 的2 2统计量。而列联表的有关检验也和 统计量。而列联表的有关检验也和 2 2检验联系起来了。检验联系起来了。 具体运算:先具体运算:先加权加权,加权之后,按照次

9、序选,加权之后,按照次序选 AnalyzeDescriptive StatisticsCrosstabs。 在打开的对话框中,把在打开的对话框中,把opinion和和income分别选入分别选入 Row(行)和(行)和Column(列);至于哪个放入行或 哪个放入列是没有关系的。 (列);至于哪个放入行或 哪个放入列是没有关系的。 如果要如果要Fisher精确检验则可以点精确检验则可以点Exact,另外在,另外在 Statistics中选择中选择Chi-square,以得到,以得到2检验结果。检验结果。 最后点击最后点击OK之后,就得到有关之后,就得到有关Pearson 2统计 量、似然比 统

10、计 量、似然比2统计量以及统计量以及Fisher统计量的输出了 (这里的 统计量的输出了 (这里的Sig就是就是p-值)。值)。 Chi-Square Tests 20.456a2.000.000 21.1902.000.000 20.713.000 20.290 b 1.000.000.000.000 123 Pearson Chi-Square Likelihood Ratio Fishers Exact Test Linear-by-Linear Association N of Valid Cases Valuedf Asymp. Sig. (2-sided) Exact Sig. (

11、2-sided) Exact Sig. (1-sided) Point Probability 0 cells (.0%) have expected count less than 5. The minimum expected count is 10.33. a. The standardized statistic is -4.504. b. 下面就是SPSS计算机对于这个问题的输出下面就是SPSS计算机对于这个问题的输出 高维列联表和高维列联表和(多项分布)(多项分布)对数线性模型对数线性模型 ?前面例子原始数据是个三维列联表, 其检验和对两维类似。 前面例子原始数据是个三维列联表,

12、其检验和对两维类似。 ?但高维列联表在计算机软件的选项上 有所不同,而且可以构造一个所谓 (多项分布) 但高维列联表在计算机软件的选项上 有所不同,而且可以构造一个所谓 (多项分布)对数线性模型对数线性模型 (loglinear model)来进行分析。来进行分析。 ?利用对数线性模型的好处是不仅可以 直接进行预测,而且可以增加 利用对数线性模型的好处是不仅可以 直接进行预测,而且可以增加定量变 量作为模型自变量的一部分。 定量变 量作为模型自变量的一部分。 对数线性模型对数线性模型 ? 现在简单直观地通过二维表介绍一下对数线性模 型,假定不同的行代表第一个变量的不同水平,而 不同的列代表第二

13、个变量的不同水平。用 现在简单直观地通过二维表介绍一下对数线性模 型,假定不同的行代表第一个变量的不同水平,而 不同的列代表第二个变量的不同水平。用mij代表 二维列联表第 代表 二维列联表第i行,第行,第j列的频数。人们常假定这个 频数可以用下面的公式来确定: 列的频数。人们常假定这个 频数可以用下面的公式来确定: ln() ijijij m=+ 这就是所谓的对数线性模型。这里这就是所谓的对数线性模型。这里 i i为行变量的 第 为行变量的 第i个水平对个水平对ln(mln(mij ij) )的影响,而 的影响,而 j j为列变量的第为列变量的第j个 水平对 个 水平对ln(mln(mij

14、ij) )的影响,这两个影响称 的影响,这两个影响称为主效应 ( 为主效应 (main effect); ij ij代表随机误差。 代表随机误差。 (多项分布)对数线性模型(多项分布)对数线性模型 ?该模型看上去和回归模型很象,但由于 分布假设不同,不能简单地用线性回归 的方法来套用 该模型看上去和回归模型很象,但由于 分布假设不同,不能简单地用线性回归 的方法来套用(和Logistic回归类似)(和Logistic回归类似); 计算过程也很不一样(把这个留给计算 机去操心)。只要利用数据来拟合这个 模型就可以得到对于参数 ; 计算过程也很不一样(把这个留给计算 机去操心)。只要利用数据来拟合

15、这个 模型就可以得到对于参数 的估计(没有 意义),以及 的估计(没有 意义),以及 i i和和 j j的的“估计估计”。 ?有了估计的参数,就可以预测出任何有了估计的参数,就可以预测出任何 i i,j j水平组合的频数水平组合的频数m mij ij了(通过对数) 了(通过对数) (多项分布)对数线性模型(多项分布)对数线性模型 ?注意,这里的估计之所以打引号是 因为一个变量的各个水平的影响是 相对的, 注意,这里的估计之所以打引号是 因为一个变量的各个水平的影响是 相对的, ?只有事先固定一个参数值(只有事先固定一个参数值(比如 比如 1 1=0=0),或者设定类似于),或者设定类似于i i

16、=0=0这样的 约束,才可能估计出各个的值。 这样的 约束,才可能估计出各个的值。 ?没有约束,这些参数是估计不出来 的。 没有约束,这些参数是估计不出来 的。 (多项分布多项分布)对数线性模型对数线性模型 ?二维列联表的更完全的对数线性模型为二维列联表的更完全的对数线性模型为 ln()() ijijijij m=+ 这里的这里的()()ij ij代表第一个变量的第 代表第一个变量的第i i个水平 和第二个变量的第 个水平 和第二个变量的第j j个水平对个水平对ln(mln(mij ij) )的共同 影响,称为 的共同 影响,称为交叉效应交叉效应。即当单独作用时, 每变量的某水平对 。即当单独作用时, 每变量的某水平对ln(mln(mij ij) )的影响只有 的影响只有 i i(或(或 j j)大,但如这两个变量共同影响就不仅是)大,但如这两个变量共同影响就

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号