12独立性检验基本思想及其初步应用课件

上传人:cl****1 文档编号:25487 上传时间:2016-11-10 格式:PPT 页数:20 大小:405.50KB
返回 下载 相关 举报
12独立性检验基本思想及其初步应用课件_第1页
第1页 / 共20页
12独立性检验基本思想及其初步应用课件_第2页
第2页 / 共20页
12独立性检验基本思想及其初步应用课件_第3页
第3页 / 共20页
12独立性检验基本思想及其初步应用课件_第4页
第4页 / 共20页
12独立性检验基本思想及其初步应用课件_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《12独立性检验基本思想及其初步应用课件》由会员分享,可在线阅读,更多相关《12独立性检验基本思想及其初步应用课件(20页珍藏版)》请在金锄头文库上搜索。

1、 立性检验的基本思想及其初步应用定量变量 的取值一定是实数 , 它们的取值大小有特定的含义 , 不同取值之间的运算也有特定的含义 重、考试成绩、温度等等 归分析(画散点图、相关指数 差分析)(定性变量)对于性别变量 , 其取值为男和女两种 , 这种变量的不同 “ 值 ” 表示个体所属的不同类别 , 像这样的变量称为 分类变量 主要考虑 分类变量之间是否有关系 :如是否吸烟 、 宗教信仰 、 是否患肺癌 、 国籍等等 吸烟是否与患肺癌有关系 ?性别是否对于喜欢数学课程有影响 ? 等等 性变量 或 定性变量 , 它们的取值一定是离散的 , 而且不同的取值仅表示个体所属的类别 ,如性别变量 , 只取

2、男 、 女两个值两个分类变量的相关关系的分析:通过图形直观判断两个分类变量是否相关;独立性检验 肺癌 总计不吸烟 7775 42 7817吸烟 2099 49 2148总计 9874 91 9965由列联表可以粗略估计出 , 在不吸烟者中 , 有 有肺癌;在吸烟者中 , 有 有肺癌 。 因此 , 直观上可以得到结论: 吸烟者和不吸烟者患肺癌的可能性存在差异 三维柱形图和二维条形图能更直观地反映出相关数据的总体状况 肿瘤研究所随机地调查了 9965人,得到如下结果(单位:人):吸烟与患肺癌 列联表 (列出两个分类变量的频数表):不患肺癌 患肺癌 总计不吸烟 7775 42 7817吸烟 2099

3、 49 2148总计 9874 91 99651、 列联表2、 三维柱形图 3、 二维条形图不患肺癌 患肺癌 吸烟不吸烟不患肺癌患肺癌吸烟不吸烟080007000600050004000300020001000从三维柱形图能清晰看出各个频数的相对大小 吸烟者中患肺癌的比例高于不患肺癌的比例 烟00 . 10 . 20 . 30 . 40 . 50 . 60 . 70 . 80 . 91不吸烟 吸烟患肺癌比例不患肺癌比例4、 等高条形图等高条形图更清晰地表达了两种情况下患肺癌的比例 得到的直观印象是吸烟和患肺癌有关 , 那么事实是否真的如此呢 ? 这需要用 统计观点 来考察这个问题 吸烟与患肺癌

4、有关 ” , 为此先假设:烟与患肺癌没有关系不患肺癌 患肺癌 总计不吸烟 a b a+c d c+a+c b+d a+b+c+ 得到如下用字母表示的列联表:不患肺癌 患肺癌 总计不吸烟 a b a+c d c+a+c b+d a+b+c+果 “ 吸烟与患肺癌没有关系 ” , 则在吸烟者中不患肺癌的比例应该与不吸烟者中相应的比例应差不多 ,即( ) ( ) 0c d c a b a d b ca b c d |小 , 说明吸烟与患肺癌之间关系越弱;|大 , 说明吸烟与患肺癌之间关系越强 基于上述分析 , 我们构造一个随机变量若 即 “ 吸烟与患肺癌没有关系 ” , 则 由列联表中数据 , 利用公

5、式 ( 1) 计算得 2 ()( ) ( ) ( ) ( )n a d b b c d a c b d ( 1)29 9 6 5 ( 7 7 7 5 4 9 4 2 2 0 9 9 )5 6 . 6 3 2 1 7 2 1 4 8 9 8 7 4 9 1k 其中 n=a+b+c+在 计学家估算出如下的概率:2( 6 . 6 3 5 ) 0 . 0 1也就是说 , 在 对随机变量 观测值超过 是一个小概率事件 2的观测值为 远远大于 所以有理由断定 即认为 “ 吸烟与患肺癌有关系 ”5 6 . 6 3 2k 但这种判断会犯错误,犯错误的概率不会超过 我们有 99的把握认为“吸烟与患肺癌有关系”

6、2来确定在多大程度上可以认为 “ 两个分类变量有关系 ” 的方法称为两个分类变量的独立性检验 果 ,就判断 则就判断 6 5k ( 6 . 6 3 5 ) 0 . 0 1独立性检验的基本思想:类似于数学上的反证法 , 对 “ 两个分类变量有关系 ”这一结论成立的可信程度的判断:( 1) 假设该结论不成立 , 即假设结论 “ 两个分类变量没有关系 ” 成立 .( 2) 在假设条件下 , 计算构造的随机变量 如果由观测数据计算得到的 则在一定程度上说明假设不合理 .( 3) 根据随机变量 可以通过 ( 2) 式评价假设不合理的程度 , 由实际计算出的 k说明假设不合理的程度约为 99%, 即 “

7、两个分类有关系 ” 这一结论成立的可信程度约为 99%计x1 a b a+c d c+a+c b+d a+b+c+ 假设有两个分类变量 , 它们的可能取值分别为 x1, y1,其样本频数列联表 ( 称为2 为:利用独立性检验来考察两个分类变量是否有关系 , 能较精确地给出这种判断的可靠程度 1) 根据实际问题需要的可信程度确定临界值 2)由观测数据计算得到随机变量 k;( 3)如果 k以 12 100%的把握认为“ 有关系”;否则就说样本观测数据没有提供“ 有关系”的充分证据 P K k( 1) 如果 k就有 把握认为 “ 有关系 ” ;( 2) 如果 k就有 把握认为 “ 有关系 ” ;(

8、3) 如果 k就有 99%的把握认为 “ 有关系 ” ;( 4) 如果 k就有 把握认为 “ 有关系 ” ;( 5) 如果 k就有 95%的把握认为 “ 有关系 ” ;( 6) 如果 k就有 90%的把握认为 “ 有关系 ” ;( 7) 如果 k=就认为没有充分的证据显示“ 有关系 ” 在某医院 , 因为患心脏病而住院的 665名男性病人中 , 有 214人秃顶;而另外 772名不是因为患心脏病而住院的男性病人中有 175人秃顶 。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系 ? 你所得的结论在什么范围内有效 ?患心脏病患其他病175597214451010020030040050

9、0600患心脏病 患其他病秃头 不秃头解:根据题目所给数据得到如下列联表 1心脏病 不患心脏病总计秃顶 214 175 389不秃顶 451 597 1048总计 665 772 1437根据联表 1 得到22 1 4 3 7 ( 2 1 4 5 9 7 1 7 5 4 5 1 ) 1 6 . 3 7 3 6 . 6 3 5 9 1 0 4 8 6 6 5 7 7 2 9%的把握认为 “ 秃顶患心脏病有关 ” 。因为这组数据来自住院的病人 , 因此所得到的结论适合住院的病人群体 例 2 为考察高中生的性别与是否喜欢数学课程之间的关系 , 在某城市的某校高中生中随机抽取 300名学生 , 得到如下联表:喜欢数学课程不喜欢数学课程总计男 37 85 122女 35 143 178总计 72 228 300由表中数据计算 k在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系 ? 为什么 ?2( 3 . 8 4 1 ) 0 . 0 5 ,2的观测值 k这就意味着 “ 性别与是否喜欢数学课程之间的关系 ” 这一结论错误的可能性约为 或小于 , 即有 95%( 或大于 95%) 的把握认为 “ 性别与是否喜欢数学课程之间有关系 ” 。解:在假设 “ 性别与是否喜欢数学课程之间的关系 ” 的前提下 并且

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 理学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号