独立性检验的基本思想及其初步应用课件

上传人:cn****1 文档编号:568856832 上传时间:2024-07-27 格式:PPT 页数:28 大小:409KB
返回 下载 相关 举报
独立性检验的基本思想及其初步应用课件_第1页
第1页 / 共28页
独立性检验的基本思想及其初步应用课件_第2页
第2页 / 共28页
独立性检验的基本思想及其初步应用课件_第3页
第3页 / 共28页
独立性检验的基本思想及其初步应用课件_第4页
第4页 / 共28页
独立性检验的基本思想及其初步应用课件_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《独立性检验的基本思想及其初步应用课件》由会员分享,可在线阅读,更多相关《独立性检验的基本思想及其初步应用课件(28页珍藏版)》请在金锄头文库上搜索。

1、3.2 独立性检验的基本思想独立性检验的基本思想及其初步应用及其初步应用 最新3.2独立性检验的基本思想及其初步应用(修改)我们经常听到这些说法:我们经常听到这些说法:l吸烟对患肺癌有影响;吸烟对患肺癌有影响;l数学好的人物理一般也很好;数学好的人物理一般也很好;l是否喜欢数学课程与性别之间有关系;是否喜欢数学课程与性别之间有关系;l人的血型会决定人的性格;人的血型会决定人的性格;l星座与人的命运之间有某种联系星座与人的命运之间有某种联系. 这些说法都有道理吗?这些说法都有道理吗?最新3.2独立性检验的基本思想及其初步应用(修改)探究探究1 1 独立性检验的基本思想独立性检验的基本思想 对于性

2、别变量,其取值为男和女两种对于性别变量,其取值为男和女两种. .这种变量这种变量的不同的不同“值值”表示个体所属的不同类别,像这样的变表示个体所属的不同类别,像这样的变量称为量称为 . .分类变量在现实生活中是大量存在的,如是否吸烟,分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等是否患肺癌,宗教信仰,国别,年龄,出生月份等. .分类变量分类变量x是变量吗?是变量吗?y表示一年四季,则表示一年四季,则y的取值有哪些?的取值有哪些?y是变量吗?是变量吗?x表示性别,则表示性别,则x的取值有哪些?的取值有哪些?最新3.2独立性检验的基本思想及其初步应用(修

3、改)(2)(2)分类变量的取值有时可用数字来表示,但这时分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义,如用的数字除了分类以外没有其他的含义,如用“0”“0”表示表示“男男”,用,用“1”“1”表示表示“女女”.”.对分类变量的理解对分类变量的理解(1)(1)分类变量的取值一定是离散的,而且不同的取值分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等两个值,商品的等级变量只取一级、二级、三级等. .最新3.2独立性检验的基本思想及其初步应用(修改

4、)不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟7 7757 77542427 8177 817吸烟吸烟2 0992 09949492 1482 148总计总计9 8749 87491919 9659 965问题:问题:为了研究吸烟是否对患肺癌有影响,某肿瘤研究为了研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了所随机地调查了9 9659 965人,得到如下结果:人,得到如下结果:3-73-7吸烟与患肺癌列联表(单位:人)吸烟与患肺癌列联表(单位:人)两个分类变量的频两个分类变量的频数表,称为列联表数表,称为列联表思考思考1 1:你如何由列联表中的数据判断吸烟是否对肺癌有影响你如何由列联

5、表中的数据判断吸烟是否对肺癌有影响?能不能从患肺癌的人数来判断?应该从什么量来判断?能不能从患肺癌的人数来判断?应该从什么量来判断?最新3.2独立性检验的基本思想及其初步应用(修改)不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟7 7757 77542427 8177 817吸烟吸烟2 0992 09949492 1482 148总计总计9 8749 87491919 9659 965问题:问题:为了研究吸烟是否对患肺癌有影响,某肿瘤研究为了研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了所随机地调查了9 9659 965人,得到如下结果:人,得到如下结果:3-73-7吸烟与患肺癌列联表

6、(单位:人)吸烟与患肺癌列联表(单位:人)在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是_._. 2.28%2.28%在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是_,_, 0.54%0.54%由计算结果,你会做出怎样的判断?由计算结果,你会做出怎样的判断? 你的判断一定正确吗?能知道判断犯错误的概率是多少吗?你的判断一定正确吗?能知道判断犯错误的概率是多少吗?最新3.2独立性检验的基本思想及其初步应用(修改)等高条形图等高条形图患肺癌患肺癌比例比例不患肺不患肺癌比例癌比例思考思考2 2:除了用比例来判断吸烟是否对患肺癌有影:除了用比例来判断吸烟是否对患肺癌有影响外?还有其它方法来判断

7、吗?响外?还有其它方法来判断吗?(1 1)观察等)观察等高条形图,高条形图,你得到什么你得到什么结论?结论?(2 2)你的判)你的判断一定正确断一定正确吗?能知道吗?能知道判断的正确判断的正确率是多少吗率是多少吗?最新3.2独立性检验的基本思想及其初步应用(修改)思考思考3 3:通过分析数据和图形,我们得到的直观印象:通过分析数据和图形,我们得到的直观印象是是“吸烟和患肺癌有关吸烟和患肺癌有关”但是我们不知道我们判断但是我们不知道我们判断的正确率有多大,那么我们是否能够以一定的把握认的正确率有多大,那么我们是否能够以一定的把握认为为“吸烟与患肺癌有关吸烟与患肺癌有关”呢?呢?为了回答上述问题,

8、我们先假设为了回答上述问题,我们先假设:H0:吸烟与患肺癌没有关系吸烟与患肺癌没有关系用用A表示不吸烟表示不吸烟, B表表示不患肺癌示不患肺癌,则,则“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”独立,即假独立,即假设设 H0等价于等价于P(AB)=P(A)P(B) . 最新3.2独立性检验的基本思想及其初步应用(修改)3-83-8吸烟与患肺癌列联表吸烟与患肺癌列联表( (单位:人单位:人) ) 不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d把表把表3-73-7中的数字用字母代替,得到如下用字母表示的列联表中的数字用字母代替,得到如

9、下用字母表示的列联表思考思考4: (1)在表)在表3-8中,事件中,事件AB发生的频数是什么?发生的频数是什么? (3)事件)事件B发生的频数是什么?发生的频数是什么? (2)事件)事件A发生的频数是什么?发生的频数是什么? (4)P(AB)、)、P(A)、)、P(B)分别是什么?它们之间有什么关系?分别是什么?它们之间有什么关系? (5)|ad-bc|越小,说明什么问题?越小,说明什么问题?|ad-bc|越大,说明什么问题?越大,说明什么问题?最新3.2独立性检验的基本思想及其初步应用(修改)即(a+b+c+d)a=(a+b)(a+c)即最新3.2独立性检验的基本思想及其初步应用(修改)为使

10、不同的样本容量的数据有统一的评判标准,基为使不同的样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量于上面的分析,我们构造一个随机变量其中其中n=a+b+c+d为样本容量为样本容量.思考思考5:(2)K2越大,说明什么问题?越大,说明什么问题? (1)K2越小,说明什么问题?越小,说明什么问题? 结论:若结论:若 H H0 0 成立,即成立,即“吸烟与患肺癌没吸烟与患肺癌没有关系有关系”,则,则K K2 2应该很小应该很小 最新3.2独立性检验的基本思想及其初步应用(修改)不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟7 7757 77542427 8177 817吸烟吸烟

11、2 0992 09949492 1482 148总计总计9 8749 87491919 9659 965请根据表请根据表3-73-7中的数据,利用公式(中的数据,利用公式(1 1)计算)计算K K2 2的观测值的观测值 3-73-7吸烟与患肺癌列联表(单位:人)吸烟与患肺癌列联表(单位:人)最新3.2独立性检验的基本思想及其初步应用(修改)思考思考6 6:这个值到底是大还是小,它能告诉我们什么呢?这个值到底是大还是小,它能告诉我们什么呢?(2)式说明,在)式说明,在H0成立的情况下,成立的情况下,K2的观测值超过的观测值超过 6.635 的概率非常小,近似为的概率非常小,近似为0.01,所以,

12、所以K26.6356.635是一个小概率事件,基本不发生是一个小概率事件,基本不发生 思考思考7 7: (1 1)我们计算的)我们计算的K K2 2的观测值的观测值k56.632 k56.632 ,远远大于,远远大于6.6356.635,它发生的概率大不大?是不是一个小概率事件?它发生的概率大不大?是不是一个小概率事件?(2 2)你觉)你觉H H0 0成立吗?成立吗? (3 3)你的判断会犯错误吗?犯错误的概率有多大?)你的判断会犯错误吗?犯错误的概率有多大? (4 4)上述的方法相比于之前讲的两种方法,它有什么优势?)上述的方法相比于之前讲的两种方法,它有什么优势? (5 5)你能总结上述检

13、验方法及它的一般步骤吗?)你能总结上述检验方法及它的一般步骤吗? 最新3.2独立性检验的基本思想及其初步应用(修改)(5 5)你能总结上述检验方法及它的一般步骤吗?)你能总结上述检验方法及它的一般步骤吗? 结论:结论:在上述过程中,实际上是借助于随机变量在上述过程中,实际上是借助于随机变量K2的观测值的观测值k建立了一个判断建立了一个判断H0是否成立的规则:如果是否成立的规则:如果k 6.635,就判断,就判断H0不成立,即认为吸烟与患肺癌有关系;否则,就判断不成立,即认为吸烟与患肺癌有关系;否则,就判断H0成立,成立,即认为吸烟与患肺癌没有关系在该规则下,把结论即认为吸烟与患肺癌没有关系在该

14、规则下,把结论“H0 成立成立”错判成错判成“H0不成立不成立”的概率不会超过的概率不会超过0.01, 即有即有99的把握认为不的把握认为不成立成立一般步骤:一般步骤:假设两个分类变量假设两个分类变量X X与与Y Y没有关系没有关系.计算出计算出K K2 2的观测值的观测值k .k .判断判断k k的值的大小,即的值的大小,即k k是不是一个小概率事件,从而确定是不是一个小概率事件,从而确定X X与与Y Y有关的程度或无关系有关的程度或无关系. .最新3.2独立性检验的基本思想及其初步应用(修改)结论:这种判断两个分类变量是否有关系的方法称为结论:这种判断两个分类变量是否有关系的方法称为“独独

15、立性检验立性检验”1.1.定义:利用随机变量定义:利用随机变量K K2 2来判断来判断“两个分类变量有关系两个分类变量有关系”的方法称为独立性检验的方法称为独立性检验. .思考思考8 8:独立性检验与反证法有何异同独立性检验与反证法有何异同 ?反反证法法独立性独立性检验假假设命命题的的结论不正确不正确假假设H0:两个分:两个分类变量量X,Y没有关没有关系系在假在假设的前提下,推出矛盾的前提下,推出矛盾在在H0成立的条件下,得到一个小概率成立的条件下,得到一个小概率事件事件所以假所以假设不成立,原命不成立,原命题成立成立所以所以H0不成立,即两个分不成立,即两个分类变量量X,Y有关系有关系最新3

16、.2独立性检验的基本思想及其初步应用(修改)2.独立性检验的一般步骤独立性检验的一般步骤假设两个分类变量假设两个分类变量X与与Y没有关系没有关系.计算出计算出K2的观测值的观测值k .判断判断k的值的大小,即的值的大小,即k是不是一个小概率是不是一个小概率事件,从而确定事件,从而确定X与与Y有关的程度或无关系有关的程度或无关系. 最新3.2独立性检验的基本思想及其初步应用(修改)问题问题1:如何判断:如何判断K2的观测值的观测值k是大还是小呢?是大还是小呢? 这仅需确定一个正数这仅需确定一个正数k0,当,当kk0时就认为时就认为K2的观测的观测值值k大此时相应于的判断规则为:如果大此时相应于的

17、判断规则为:如果kk0 ,就,就认为认为“两个分类变量之间有关系两个分类变量之间有关系”;否则就认为;否则就认为“两个两个分类变量之间没有关系分类变量之间没有关系”. 我们称这样的我们称这样的k0为一个判断规则的临界值按照上为一个判断规则的临界值按照上述规则,把述规则,把“两个分类变量之间没有关系两个分类变量之间没有关系”错误地判错误地判断为断为“两个分类变量之间有关系两个分类变量之间有关系”的概率为的概率为P(K2k0). 在实际应用中,我们把在实际应用中,我们把kk0解释为有解释为有(1-P(K2k0) 100%的把握认为的把握认为“两个分类变量之间有关系两个分类变量之间有关系”;把;把k

18、k0解释为不能以解释为不能以(1-P(K2k0) 100%的把握认为的把握认为“两两个分类变量之间有关系个分类变量之间有关系”,或者样本观测数据没有提,或者样本观测数据没有提供供“两个分类变量之间有关系两个分类变量之间有关系”的充分证据的充分证据 最新3.2独立性检验的基本思想及其初步应用(修改)0.500.500.400.400.250.250.150.150.100.100.050.050.020.025 50.010.010 00.000.005 50.0010.0010.450.455 50.700.708 81.321.323 32.072.072 22.702.706 63.843

19、.841 15.025.024 46.636.635 57.877.879 910.8210.828 8最新3.2独立性检验的基本思想及其初步应用(修改)问题问题2:如何用独立性检验的方法来检验两:如何用独立性检验的方法来检验两个分类变量个分类变量X和和Y是否有关系呢?是否有关系呢?一般地,假设有两个分类变量一般地,假设有两个分类变量X和和Y,它们的可,它们的可能取值分别为能取值分别为x1,x2和和y1,y2, 其样本频其样本频数列联表(称为数列联表(称为22列联表)为:列联表)为:表表3-9 22列联表列联表y1y2总计总计x1aba+bx2cdc+d总计总计a+cb+da+b+c+d若要推

20、断的论述为若要推断的论述为Hl:X与与Y有关系,可以按如下步有关系,可以按如下步骤判断结论骤判断结论Hl 成立的可能性:成立的可能性: 最新3.2独立性检验的基本思想及其初步应用(修改)若要推断的论述为若要推断的论述为Hl:X与与Y有关系,可以按如下步有关系,可以按如下步骤判断结论骤判断结论Hl 成立的可能性:成立的可能性: 1计算满足条件计算满足条件X=x1的个体中具有的个体中具有Y=y1的个体所占的个体所占的比例的比例 和满足条件和满足条件X=x2的个体中具有的个体中具有Y=y2的个的个体所占的比例体所占的比例 .两个比例的值相差越大,两个比例的值相差越大,H1成成立的可能性就越大立的可能

21、性就越大也可以通过画出等高条形图,粗也可以通过画出等高条形图,粗略地判断两个分类变量是否有关系,但是以上两种判略地判断两个分类变量是否有关系,但是以上两种判断无法精确地给出所得结论的可靠程度断无法精确地给出所得结论的可靠程度 2可以利用独立性检验来考察两个分类变量是否有可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度具关系,并且能较精确地给出这种判断的可靠程度具体做法是:体做法是: 最新3.2独立性检验的基本思想及其初步应用(修改)(3)如果如果kk0 ,就以,就以(1-P(K2k0) 100%的把握的把握认为认为“X与与Y有关系有关系”;否则就说样本观测数

22、据没;否则就说样本观测数据没有提供有提供“X与与Y有关系有关系”的充分证据的充分证据 根据实际问题需要确定容许推断根据实际问题需要确定容许推断“两个分类两个分类变量有关系变量有关系”犯错误的上界犯错误的上界 ,然后查表,然后查表3-11确确定临界值定临界值 ; 0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.828表表3-11 临界值表临界值表最新3.2独立性检验的基本思想及其初步应用(修改) 例例1、在在某某医医院院,因因为为患患心心脏脏病病而而住住院院的的

23、665名名男男性性病病人人中中,有有214人人秃秃顶顶,而而另另外外772名名不不是是因因为为患患心心脏脏病病而而住住院院的的男男性性病病人人中中有有175人人秃秃顶顶.(1)利利用用图图形形判判断断秃秃顶顶与与患患心心脏脏病病是是否否有有关关系系;(2)能能否否在在犯犯错错误误的的概概率率不不超超过过0.01的前提下认为秃顶与患心脏病有关系?的前提下认为秃顶与患心脏病有关系?例题解析:思考:根据临界值表,在犯错误的概率不超过思考:根据临界值表,在犯错误的概率不超过0.01的前提下,取的临界值是什么?的前提下,取的临界值是什么?最新3.2独立性检验的基本思想及其初步应用(修改)患心脏病患心脏病

24、患其他病患其他病总计总计秃顶秃顶214175389不秃顶不秃顶4515971 048总计总计6657721 437(1)(1)相应的等高条形图如下所示,相应的等高条形图如下所示,秃顶秃顶不秃顶不秃顶不患心脏病不患心脏病患心脏病患心脏病解:解:根据题目所给数据得到如下列联表:根据题目所给数据得到如下列联表:由图可由图可认为秃认为秃顶与患顶与患心脏病心脏病有关系有关系最新3.2独立性检验的基本思想及其初步应用(修改)因此,在犯错误的概率不超过因此,在犯错误的概率不超过0.010.01的前提下,认为的前提下,认为秃顶与患心脏病有关系秃顶与患心脏病有关系. .(2)(2)根据列联表中的数据,得到根据列

25、联表中的数据,得到注意:在熟悉了独立性检验的基本原理后,我注意:在熟悉了独立性检验的基本原理后,我们在判断两个分类变量是否有关时,可以直接们在判断两个分类变量是否有关时,可以直接算出的观测值(不画等高条形图)来解决两个算出的观测值(不画等高条形图)来解决两个分类变量的独立性检验问题。但是,借助于图分类变量的独立性检验问题。但是,借助于图形可以更直观地向非专业人士解释所得到的统形可以更直观地向非专业人士解释所得到的统计分析结果。计分析结果。最新3.2独立性检验的基本思想及其初步应用(修改)练习练习2、在研究某种新药对小白兔的防治效果时、在研究某种新药对小白兔的防治效果时,得到下表数据得到下表数据

26、:存活数存活数死亡数死亡数总计总计未用新药未用新药10138139用新药用新药12920149总计总计23058288试分析新药对防治小白兔是否有效试分析新药对防治小白兔是否有效?有有99.5%的把握判定新药对防治小白兔是有效的的把握判定新药对防治小白兔是有效的.解:最新3.2独立性检验的基本思想及其初步应用(修改)练习练习3、打鼾不仅影响别人休息,而且可能与患某种打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:每一疾病有关,下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?晚都打鼾与患心脏病有关吗? 患心脏病患心脏病未患心脏病未患心脏病总计总计每一

27、晚都打鼾每一晚都打鼾30224254不打鼾不打鼾2413551379总计总计5415791633练习练习4:书:书P97练习练习最新3.2独立性检验的基本思想及其初步应用(修改)独立性检验的一般步骤独立性检验的一般步骤: :(1 1)假设两个分类变量)假设两个分类变量X X与与Y Y没有关系;没有关系;(2 2)计算出)计算出K K2 2的观测值的观测值k k;(3 3)把)把k k的值与临界值比较确定的值与临界值比较确定X X与与Y Y有关的程度或有关的程度或无关系无关系. .请你能说出独立性检验的一般步骤。请你能说出独立性检验的一般步骤。最新3.2独立性检验的基本思想及其初步应用(修改)作业:书作业:书P97 习题习题3.2 第第1、2题题最新3.2独立性检验的基本思想及其初步应用(修改)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号