统计学统计学STATISTICS第第 3 章章 概率、概率分布概率、概率分布 与抽样分布与抽样分布1统计学统计学STATISTICS3.1 事件及其概率事件及其概率3.2 随机变量及其概率分布随机变量及其概率分布3.3 常用的抽样方法常用的抽样方法3.4 抽样分布抽样分布3.5 中心极限定理的应用中心极限定理的应用2统计学统计学STATISTICS学习目标学习目标¨掌握事件的定义及其概率的计算掌握事件的定义及其概率的计算¨熟悉常用的几种离散型和连续型随机变熟悉常用的几种离散型和连续型随机变量及其概率分布量及其概率分布¨了解常用的抽样方法了解常用的抽样方法¨掌握样本均值、比率和方差的抽样分布掌握样本均值、比率和方差的抽样分布¨熟练运用中心极限定理熟练运用中心极限定理3统计学统计学STATISTICS3.1 事件及其概率事件及其概率3.1.1 试验、事件和样本空间试验、事件和样本空间3.1.2 事件的概率事件的概率3.1.3 概率的性质和运算法则概率的性质和运算法则3.1.4 条件概率与事件的独立性条件概率与事件的独立性3.1.5 全概公式与逆概公式全概公式与逆概公式4统计学统计学STATISTICS3.1.1 试验、事件和样本空间试验、事件和样本空间5统计学统计学STATISTICS1)对试验对象进行一次观察或测量的过程)对试验对象进行一次观察或测量的过程 –掷一颗骰子,观察其出现的点数掷一颗骰子,观察其出现的点数–从一副从一副52张扑克牌中抽取一张,并观察其结果张扑克牌中抽取一张,并观察其结果(纸牌的数字或花色纸牌的数字或花色)2)试验的特点)试验的特点–可以在相同的条件下重复进行可以在相同的条件下重复进行–每次试验的可能结果可能不止一个,但试验的每次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的所有可能结果在试验之前是确切知道的–在试验结束之前,不能确定该次试验的确切结在试验结束之前,不能确定该次试验的确切结果果1. 试试 验验6统计学统计学STATISTICS2. 事件事件1)事事件件:试试验验的的每每一一个个可可能能结结果果(任任何何样样本本点集合点集合)–掷一颗骰子出现的点数为掷一颗骰子出现的点数为3–用大写字母用大写字母A,,B,,C,,…表示表示2)随随机机事事件件(random event):每每次次试试验验可可能能出出现也可能不出现的事件现也可能不出现的事件–掷一颗骰子可能出现的点数掷一颗骰子可能出现的点数7统计学统计学STATISTICS3)简单事件:不能被分解成其他事件组合的基本事件)简单事件:不能被分解成其他事件组合的基本事件–抛一枚均匀硬币,抛一枚均匀硬币,“出现正面出现正面”和和“出现反面出现反面” 4)必然事件)必然事件::每次试验一定出现的事件,用每次试验一定出现的事件,用 表示表示–掷一颗骰子出现的点数小于掷一颗骰子出现的点数小于75)不可能事件)不可能事件::每次试验一定不出现的事件,用每次试验一定不出现的事件,用 表表示示–掷一颗骰子出现的点数大于掷一颗骰子出现的点数大于68统计学统计学STATISTICS4-96)事件的关系和运算)事件的关系和运算 事件的关系有:包含和相等;事件的关系有:包含和相等; 事件的运算有:和(并),差,交(积),逆。
事件的运算有:和(并),差,交(积),逆1)包含:关系式)包含:关系式 表示表示“若若A出现,出现, 则则B也出现也出现” (反之则未必),(反之则未必), 称作称作“B包含包含A”,, 或或“A导致导致B” A AB B A统计学统计学STATISTICS4-10 ((3)和(并):运算式)和(并):运算式A+B或或A∪∪B读作读作“A加加B”,称作,称作“A与与B的和(并)的和(并)”,表示,表示“A和和B至少出至少出现一个现一个”对于多个事件对于多个事件 或或 表示表示“诸事件中至少出现一个诸事件中至少出现一个” BA A A+B((2)相等:关系式)相等:关系式A=B表示二事件表示二事件A和和B要么都出现,要么都出现,要么都不出现,称作要么都不出现,称作“事件事件A等于事件等于事件B”或或“事件事件A和和B等价等价”。
统计学统计学STATISTICS((4)差:运算式)差:运算式 A--B或或A\B读作读作“A减减B”,,称作称作“A与与B的差的差”,表示,表示“事件事件A出现但出现但B不出现4-11 A - BA AB B统计学统计学STATISTICS((5)交(积):运算式)交(积):运算式AB或或A∩B,称作,称作“A与与B的交(或积)的交(或积)”,表示,表示“事件事件A和和B同时出现同时出现”对于多个事件对于多个事件 表示表示“诸事件诸事件 同时出现同时出现” 4-12A A A AB B AB统计学统计学STATISTICS((6)逆事件:)逆事件: ={A不出现不出现},称作,称作A的对的对立事件或逆事件显然立事件或逆事件显然A和和 互为对立事互为对立事件,它们之间有下列关系:,件,它们之间有下列关系:,A∩ =Ø4-13A A A统计学统计学STATISTICS4-14((7)不相容(互斥):若)不相容(互斥):若AB=Ø,即,即A与与B不不可能同时出现,则称可能同时出现,则称A和和B不相容。
不相容A B统计学统计学STATISTICS3. 样本空间与样本点样本空间与样本点1)样本空间)样本空间–一个试验中所有结果的集合,用一个试验中所有结果的集合,用 表示表示–例如:在例如:在掷一颗骰子的试验中,样本空间表掷一颗骰子的试验中,样本空间表示为:示为: {1,2,3,4,5,6}–在投掷硬币的试验中,在投掷硬币的试验中, {正面,反面正面,反面}2)样本点)样本点–样本空间中每一个特定的试验结果样本空间中每一个特定的试验结果–用符号用符号 表示表示15统计学统计学STATISTICS3.1.2 事件的概率事件的概率16统计学统计学STATISTICS1. 定义定义: 概率是对随机事件发生可能性大小的度量概率是对随机事件发生可能性大小的度量.2. 事事件件A的的概概率率是是一一个个介介于于0和和1之之间间的的一一个个值值,,用用以以度度量量试试验验完完成成时时事事件件A发发生生的的可可能能性性大大小小,, 记为记为P(A)3. 概率的计算概率的计算: 1)古典概率)古典概率 特征:特征:((1)试验的基本事件总数是有限的;)试验的基本事件总数是有限的; ((2)每个基本事件出现的可能性都相同。
每个基本事件出现的可能性都相同 计算方法:计算方法:17统计学统计学STATISTICS2)统计概率)统计概率 当当试试验验的的次次数数很很多多时时,,概概率率P(A)可可以以由由所所观观察察到的事件到的事件A发生次数发生次数(频数频数)的比例来逼近的比例来逼近–在在相相同同条条件件下下,,重重复复进进行行n次次试试验验,,事事件件A发发生生了了m次次,,则则事事件件A发发生生的的概概率率可可以以写为写为 18统计学统计学STATISTICS3、主观概率、主观概率对未来某一事件,既不能通过可能事件个对未来某一事件,既不能通过可能事件个数来计算,也不能根据大量试验的频率来数来计算,也不能根据大量试验的频率来估计,只有根据经验、专业知识、对事件估计,只有根据经验、专业知识、对事件发生的众多条件或影响因素的分析等,对发生的众多条件或影响因素的分析等,对其进行估计从而作出相应决策其进行估计从而作出相应决策19统计学统计学STATISTICS3.1.3 概率的性质和运算法则概率的性质和运算法则20统计学统计学STATISTICS互斥事件及其概率互斥事件及其概率(mutually exclusive events)¨ 在在试试验验中中,,两两个个事事件件有有一一个个发发生生时时,,另另一一个个就就不不能能发发生生,,则则称称事事件件A与与事事件件B是是互斥事件,(没有没有公共样本点公共样本点)A AB B 互斥事件的文氏图互斥事件的文氏图(Venn diagram) (Venn diagram) 21统计学统计学STATISTICS【【例例】】在在一一所所城城市市中中随随机机抽抽取取600个个家家庭庭,,用用以以确确定定拥拥有个人电脑的家庭所占的比例。
定义如下事件:有个人电脑的家庭所占的比例定义如下事件: A::600个家庭中恰好有个家庭中恰好有265个家庭拥有电脑个家庭拥有电脑B:恰好有:恰好有100个家庭拥有电脑个家庭拥有电脑C:特定户张三家拥有电脑:特定户张三家拥有电脑说明下列各对事件是否为互斥事件,并说明你的理由说明下列各对事件是否为互斥事件,并说明你的理由 (1) A与与B (2) A与与C (3) B与与 C22统计学统计学STATISTICS解 : (1) 事事 件件 A与与 B是是 互互 斥斥 事事 件件 因因 为为 你你 观观 察察 到到 恰恰 好好 有有 265个个 家家 庭庭 拥拥 有有 电电 脑脑 ,, 就就 不可能恰好有不可能恰好有100个家庭拥有电脑个家庭拥有电脑 (2) 事事 件件 A与与 C不不 是是 互互 斥斥 事事 件件 因因 为为 张张 三三 也也 许许 正正 是是 这这 265个个 家家 庭庭 之之 一一 ,, 因因 而而 事事 件与有可能同时发生件与有可能同时发生 (3) 事件事件B与与C不是互斥事件。
理由同不是互斥事件理由同(2)23统计学统计学STATISTICS【【【【例例例例】】】】同时抛掷两枚硬币,并考察其结果恰好有同时抛掷两枚硬币,并考察其结果恰好有同时抛掷两枚硬币,并考察其结果恰好有同时抛掷两枚硬币,并考察其结果恰好有一枚正面朝上的概率是多少?一枚正面朝上的概率是多少?一枚正面朝上的概率是多少?一枚正面朝上的概率是多少? 解解解解::::用用用用H H表表表表示示示示正正正正面面面面,,,,T T表表表表示示示示反反反反面面面面,,,,下下下下标标标标1 1和和和和2 2表表表表示示示示硬硬硬硬币币币币1 1 和硬币和硬币和硬币和硬币2 2该项试验会有该项试验会有该项试验会有该项试验会有4 4个互斥事件之一发生个互斥事件之一发生个互斥事件之一发生个互斥事件之一发生 (1) (1) 两枚硬币都正面朝上,记为两枚硬币都正面朝上,记为两枚硬币都正面朝上,记为两枚硬币都正面朝上,记为H H1 1H H2 2 (2) 1 (2) 1号硬币正面朝上而号硬币正面朝上而号硬币正面朝上而号硬币正面朝上而2 2号硬币反面朝上,记为号硬币反面朝上,记为号硬币反面朝上,记为号硬币反面朝上,记为H H1 1T T2 2 (3) 1 (3) 1号硬币反面朝上而号硬币反面朝上而号硬币反面朝上而号硬币反面朝上而2 2号硬币正面朝上,记为号硬币正面朝上,记为号硬币正面朝上,记为号硬币正面朝上,记为T T1 1H H2 2 (4) (4) 两枚硬币都是反面朝上,记为两枚硬币都是反面朝上,记为两枚硬币都是反面朝上,记为两枚硬币都是反面朝上,记为 T T1 1T T2 224统计学统计学STATISTICS 由由于于每每一一枚枚硬硬币币出出现现正正面面或或出出现现反反面面的的概概率率都都是是1/2,,当当抛抛掷掷的的次次数数逐逐渐渐增增大大时时,,上上面面的的4个个简简单单事事件件中中每每一一事事件件发发生生的的相相对对频频数数(概概率率)将将近近似似等等于于1/4。
因因为为仅仅当当H1T2或或T1H2发发生生时时,,才才会会恰恰好好有有一一枚枚硬硬币币朝朝上上的的事事件件发发生生,,而而事事件件H1T2或或T1H2又又为为互互斥斥事事件件,,两两个个事事件件中中一一个个事事件件发发生生或或者者另另一一个个事事件件发发生生的的概概率率便便是是1/2(1/4+1/4)因因此此,,抛抛掷掷两两枚枚硬硬币币,,恰恰好好有有一一枚枚出出现现正正面面的的概概率率等等于于H1T2或或T1H2发发生生的的概概率率,,也也就就是是两两种种事事件件中中每每个个事件发生的概率之和事件发生的概率之和 25统计学统计学STATISTICSu互斥事件加法规则互斥事件加法规则1))若若两两个个事事件件A与与B互互斥斥,,则则事事件件A发发生生或或事事件件B发发生生的的概概率率等等于于这这两两个个事事件件各各自自的的概概率之和,即率之和,即 P(A∪∪B) =P(A)+P(B)2)事件)事件A1,,A2,,…,,An两两互斥,则有两两互斥,则有 P(A1∪∪A2 ∪∪…∪∪An) =P(A1)+P(A2) +…+P(An)26统计学统计学STATISTICS 解解解解::::掷掷掷掷一一一一颗颗颗颗骰骰骰骰子子子子出出出出现现现现的的的的点点点点数数数数( (1 1,,,,2 2,,,,3 3,,,,4 4,,,,5 5,,,,6 6) )共共共共有有有有6 6个个个个互互互互斥斥斥斥事事事事件件件件,,,,而而而而且且且且每每每每个个个个事事事事件件件件出出出出现现现现的的的的概概概概率率率率都都都都为为为为1/6 1/6 ,,,, 根据互斥事件的加法规则,得根据互斥事件的加法规则,得根据互斥事件的加法规则,得根据互斥事件的加法规则,得 【【例例】】抛掷一抛掷一颗颗骰子,并考察其结果。
求出其点骰子,并考察其结果求出其点 数为数为1点或点或2点或点或3点或点或4点或点或5点或点或6点的概率点的概率27统计学统计学STATISTICSu概率的性质概率的性质(小结小结)1)非负性)非负性: 对任意事件对任意事件A,有,有 P 02))规规范范性性: 一一个个事事件件的的概概率率是是一一个个介介于于0与与1之之间间的的值值,,即对于任意事件即对于任意事件 A,,有有0 P 13)必然事件的概率为)必然事件的概率为1;不可能事件的概率为;不可能事件的概率为0 即即P ( )=1;; P( )=04)可加性)可加性: 若若A与与B互斥,则互斥,则P(A∪∪B) =P(A)+P(B)–推广到多个两两互斥事件推广到多个两两互斥事件A1,,A2,,…,,An,有,有 P( A1∪∪A2 ∪∪… ∪∪An) = P(A1)+P(A2)+…+P(An)28统计学统计学STATISTICS事件的补及其概率事件的补及其概率¨ 事件的补(complement)¨ 事事件件A A不不发发生生的的事事件件,,称称为为事事件件A A的的补补事事件件( (或或称称逆逆事事件件) ),,记记为为 A 。
它它是是样样本本空空间间中中所所有有不属于事件不属于事件A的样本点的集合的样本点的集合A A A AP( A)=1- P(A)29统计学统计学STATISTICS广义加法公式广义加法公式 广义加法公式广义加法公式 对任意两个随机事件A和B,它们和的概率为两个事件分别概率的和减去两个事件交的概率,即 P(A∪∪B) = P(A) + P(B) - P(A∩B) 两个事件的并两个事件的并两个事件的交两个事件的交30统计学统计学STATISTICS广义加法公式广义加法公式(事件的并或和事件的并或和) 事件A或事件B发生的事件,称为事件A与事件B的并它是由属于事件A或事件B的所有样本点的集合,记为A∪B或A+BBA A A A∪B B31统计学统计学STATISTICS广义加法公式广义加法公式(事件的交或积事件的交或积) A AB B A A∩B B 事件A与事件B同时发生的事件,称为事件A与事件B的交,它是由属于事件A也属于事件B的所有公共样本点所组成的集合,记为B∩A 或AB32统计学统计学STATISTICS 解:解:设设 A A =员工离职是因为对工资不满意员工离职是因为对工资不满意B B =员工离职是因为对工作不满意员工离职是因为对工作不满意 依题意有:依题意有:P(A)=0.40;;P(B)=0.30;;P(AB)=0.15 P(A+B)= P(A)+ P(B)- P(AB)=0.40+0.30-0.15=0.55【【【【例例例例】】】】一一一一家家家家计计计计算算算算机机机机软软软软件件件件开开开开发发发发公公公公司司司司的的的的人人人人事事事事部部部部门门门门最最最最近近近近做做做做了了了了一一一一项项项项调调调调查查查查,,,,发发发发现现现现在在在在最最最最近近近近两两两两年年年年内内内内离离离离职职职职的的的的公公公公司司司司员员员员工工工工中中中中有有有有40%40%是是是是因因因因为为为为对对对对工工工工资资资资不不不不满满满满意意意意,,,,有有有有30%30%是是是是因因因因为为为为对对对对工工工工作作作作不不不不满满满满意意意意,,,,有有有有15%15%是是是是因因因因为为为为他他他他们们们们对对对对工工工工资资资资和和和和工工工工作作作作都都都都不不不不满满满满意意意意。
求求求求两两两两年年年年内内内内离离离离职职职职的的的的员员员员工工工工中中中中,,,,离离离离职职职职原原原原因因因因是是是是因因因因为为为为对对对对工工工工资资资资不不不不满满满满意意意意、、、、或者对工作不满意、或者二者皆有的概率或者对工作不满意、或者二者皆有的概率或者对工作不满意、或者二者皆有的概率或者对工作不满意、或者二者皆有的概率33统计学统计学STATISTICS3.1.4 条件概率与事件的独立性条件概率与事件的独立性统计学统计学STATISTICS1. 条件概率条件概率在在事事件件B已已经经发发生生的的条条件件下下事事件件A发发生生的的概概率率,,称称为为已已知事件知事件B时事件时事件A的条件概率,记为的条件概率,记为P(A|B) P(B)P(AB)P(A|B) =事件事件B B及其及其概率概率P P ( (B B) ) 事件事件 A AB B及其及其概率概率P P ( (A AB B) )事件事件事件事件事件事件A A A AA A 事件事件事件事件事件事件B B B B B B一旦事件一旦事件一旦事件一旦事件B B B B发生发生发生发生35统计学统计学STATISTICS解:设设 A =顾客购买食品,顾客购买食品, B =顾客购买其他商品顾客购买其他商品 依题意有:依题意有:P(A)=0.80;;P(B)=0.60;;P(AB)=0.35 【【【【例例例例】】】】一一一一家家家家超超超超市市市市所所所所作作作作的的的的一一一一项项项项调调调调查查查查表表表表明明明明,,,,有有有有80%80%的的的的顾顾顾顾客客客客到到到到超超超超市市市市是是是是来来来来购购购购买买买买食食食食品品品品,,,,60%60%的的的的人人人人是是是是来来来来购购购购买买买买其其其其他他他他商商商商品品品品,,,,35%35%的的的的人人人人既既既既购购购购买买买买食食食食品也购买其他商品。
求:品也购买其他商品求:品也购买其他商品求:品也购买其他商品求: (1)(1)已知某顾客购买食品的条件下,也购买其他商品的概率已知某顾客购买食品的条件下,也购买其他商品的概率已知某顾客购买食品的条件下,也购买其他商品的概率已知某顾客购买食品的条件下,也购买其他商品的概率 (2)(2)已知某顾客购买其他的条件下,也购买食品的概率已知某顾客购买其他的条件下,也购买食品的概率已知某顾客购买其他的条件下,也购买食品的概率已知某顾客购买其他的条件下,也购买食品的概率36统计学统计学STATISTICS【例】一一家家电电脑脑公公司司从从两两个个供供应应商商处处购购买买了了同同一一种种计计算算机机配配件,质量状况如下表所示件,质量状况如下表所示 从这从这200个配件中任取一个进行检查,求个配件中任取一个进行检查,求 (1) 取出的一个为正品的概率取出的一个为正品的概率 (2) 取出的一个为供应商甲的配件的概率取出的一个为供应商甲的配件的概率 (3) 取出一个为供应商甲的正品的概率取出一个为供应商甲的正品的概率 (4) 已知取出一个为供应商甲的配件,它是正品的概率已知取出一个为供应商甲的配件,它是正品的概率甲乙两个供应商提供的配件 正品数次品数合计供应商甲 84690供应商乙 1028110合计1861420037统计学统计学STATISTICS解:设设 A = 取出的一个为正品取出的一个为正品 B = 取出的一个为供应商甲供应的配件取出的一个为供应商甲供应的配件¨ (1) (2) (3) (4)38统计学统计学STATISTICS1)用来计算两事件交的概率)用来计算两事件交的概率2)以条件概率的定义为基础)以条件概率的定义为基础3)设)设A,,B为两个事件,若为两个事件,若P(B)>0,则,则 P(AB)=P(B)P(A|B) 或或 P(AB)=P(A)P(B|A)2. 乘法公式乘法公式39统计学统计学STATISTICS【【【【例例例例】】】】一一家家报报纸纸的的发发行行部部已已知知在在某某社社区区有有75%75%的的住住户户订订阅阅了了该该报报纸纸的的日日报报,,而而且且还还知知道道某某个个订订阅阅日日报报的的住住户户订订阅阅其其晚晚报报的的概概率率为为50%50%。
求求某某住住户户既订阅日报又订阅晚报的概率既订阅日报又订阅晚报的概率 解:解:解:解:设设 A A = = 某住户订阅了日报某住户订阅了日报 B B = =某住户订阅了晚报某住户订阅了晚报 依题意有依题意有::P P( (A A) )=0.75=0.75;;P P( (B B| |A A)=0.50 )=0.50 P P( (A AB B) )= =P P( (A A) )· · P P( (B B| |A A)=0.75×0.5=)=0.75×0.5=0.3750.37540统计学统计学STATISTICS【【【【例例例例】】】】从一个装有从一个装有3 3个红球个红球2 2个白球的盒子里摸球个白球的盒子里摸球( (摸出后球不放回摸出后球不放回) ),求连续两次摸中红球的概率,求连续两次摸中红球的概率 解:解:解:解:设设 A A = = 第第2 2次摸到红球次摸到红球 B B = = 第第1 1次摸到红球次摸到红球 依题意有依题意有:: P P( (B B) )=3/5=3/5;;P P( (A A| |B B)=2/4 )=2/4 P P( (A AB B) )= =P P( (A A) )· · P P( (B B| |A A)=3/5×2/4=)=3/5×2/4=0.30.341统计学统计学STATISTICS3. 独立事件独立事件1))若若P(A|B)=P(A)或或P(B|A)=P(B) ,,则则称称事事件件A与与B事件独立,或称独立事件事件独立,或称独立事件 2))若若两两个个事事件件相相互互独独立立,,则则这这两两个个事事件件同同时时发发生生的的概概率率等等于于它它们们各各自自发发生生的的概概率率之积,即之积,即 P(AB)= P(A)· P(B)3)若事件)若事件A A1 1, ,A A2 2, ,, ,A An n相互独立,则相互独立,则 P(A1, A2, , An)= P(A1)· P(A2) · · P(An) 42统计学统计学STATISTICS【【【【例例例例】】】】一一个个旅旅游游经经景景点点的的管管理理员员根根据据以以往往的的经经验验得得知知,,有有80%80%的的游游客客在在古古建建筑筑前前照照相相留留念念。
求求接接下下来来的两个游客都照相留念的概率的两个游客都照相留念的概率 解:解:解:解:设设 A A = = 第一个游客照相留念第一个游客照相留念 B B = = 第二个游客照相留念第二个游客照相留念 两个游客都照相留念是两个事件的交在没两个游客都照相留念是两个事件的交在没 有其他信息的情况下,我们可以假定事件有其他信息的情况下,我们可以假定事件A A 和事件和事件B B是相互立的,所以有是相互立的,所以有 P P( (A AB B) )= =P P( (A A) )· · P P( (B B)=0.80×0.80=)=0.80×0.80=0.640.6443统计学统计学STATISTICS【【【【例例例例】】】】假假定定我我们们是是从从两两个个同同样样装装有有3 3个个红红球球2 2个个白白球球的的盒盒子子摸摸球球每每个个盒盒子子里里摸摸1 1个个求求连连续续两两次次摸摸中红球的概率中红球的概率 解:解:解:解:设设 A A = = 从第一个盒子里摸到红球从第一个盒子里摸到红球 B B = = 从第二个盒子里摸到红球从第二个盒子里摸到红球 依题意有依题意有::P P( (A A) )=3/5=3/5;;P P( (B B)=3/5 )=3/5 P P( (A AB B) )= =P P( (A A) )· · P P( (B B)=3/5×3/5=)=3/5×3/5=0.360.3644统计学统计学STATISTICS4-45¨独立性与互不相容的区别:独立性与互不相容的区别:Ø 独立性是指两个事件的发生互不影响。
独立性是指两个事件的发生互不影响Ø 互不相容是指两个事件不能同时发生互不相容是指两个事件不能同时发生 Ø 两个不相容事件一定是统计相依的,两个两个不相容事件一定是统计相依的,两个独立事件一定是相容的(除非其中有一个事独立事件一定是相容的(除非其中有一个事件的概率为件的概率为0) 统计学统计学STATISTICS3.1.5 全概率公式与逆概率公式全概率公式与逆概率公式统计学统计学STATISTICS1. 全概率公式全概率公式B B B B B B B B5 5 5 5B B B B4 4 4 4B B B B B B B B3 3 3 3 完备事件组完备事件组完备事件组完备事件组47统计学统计学STATISTICS【【【【例例例例】】】】假假设设在在n n张张彩彩票票中中只只有有一一张张中中奖奖奖奖券券,,那那么么第第二个人摸到奖券的概率是多少?二个人摸到奖券的概率是多少? 解:解:解:解:设设 A A = = 第二个人摸到奖券,第二个人摸到奖券,B B = = 第一个人摸到奖券第一个人摸到奖券 依题意有依题意有::P P( (B B) )=1/=1/n n;;P P( ( B B)=()=(n n-1)/-1)/n n P P( (A A| |B B)=0 )=0 P P( (A A| | B B)=1/)=1/n n-1 -1 48统计学统计学STATISTICS2. 逆概率公式逆概率公式(贝叶斯公式贝叶斯公式 )P P( (B Bi i) )是没有加入其它信息的概是没有加入其它信息的概是没有加入其它信息的概是没有加入其它信息的概率,率,率,率,被称为事件被称为事件被称为事件被称为事件B Bi i的先验概率的先验概率的先验概率的先验概率P P( (B Bi i| |A A) )被称为事件被称为事件被称为事件被称为事件B Bi i的后验概的后验概的后验概的后验概率率率率B B B B B B B B5 5 5 5B B B B4 4 4 4B B B B B B B B3 3 3 3 49统计学统计学STATISTICS【【【【例例例例】】】】某某考考生生回回答答一一道道四四选选一一的的考考题题,,假假设设他他知知道道正正确确答答案案的的概概率率为为1/21/2,,而而他他不不知知道道正正确确答答案案时时猜猜对对的的概概率率应应该该为为1/41/4。
考考试试结结束束后后发发现现他他答答对对了了,,那那么么他他是知道正确答案情况下做对的概率是多大呢?是知道正确答案情况下做对的概率是多大呢? 解:解:解:解:设设 A A = = 该考生答对了该考生答对了 ,,B B = = 该考生知道正确答案该考生知道正确答案 依题意有依题意有::P P( (B B) )=1/2=1/2;; P P( ( B B)=1-1/2 = 1/2 )=1-1/2 = 1/2 P P( (A A| | B B)=1/4 )=1/4 P P( (A A| |B B)=1)=150统计学统计学STATISTICS3.2 随机变量及其概率分布随机变量及其概率分布3.2.1 随机变量3.2.2 离散型随机变量的概率分布3.2.3 离散型随机变量的数学期望和方差3.2.4 几种常用的离散型概率分布3.2.5 概率密度函数与连续型随机变量3.2.6 常见的连续型概率分布统计学统计学STATISTICS3.2.1 随机变量随机变量统计学统计学STATISTICS4-531. 1. 随机变量就是其取值带有随机性的变量,随机变量就是其取值带有随机性的变量,一般用一般用 X、、Y、、Z 等表示。
等表示 在给定的条件下,这种变量取任何值事先在给定的条件下,这种变量取任何值事先不能确定,只能由随机试验的结果来定,不能确定,只能由随机试验的结果来定,并且随试验的结果而变并且随试验的结果而变例如:例如: 投掷两枚硬币出现正面的数量投掷两枚硬币出现正面的数量统计学统计学STATISTICS4-542. 随机变量的种类随机变量的种类 如果随机变量的全体可能取值能够一一如果随机变量的全体可能取值能够一一列举出来,这样的随机变量称作离散型随机列举出来,这样的随机变量称作离散型随机变量(如掷一枚硬币首次出现正面向上所需变量(如掷一枚硬币首次出现正面向上所需要的投掷次数);要的投掷次数); 如果随机变量的全体可能取值不能一一如果随机变量的全体可能取值不能一一列举,其可能的取值在数轴上是连续的,则列举,其可能的取值在数轴上是连续的,则该变量称为连续型随机变量(如可能出现的该变量称为连续型随机变量(如可能出现的测量误差)测量误差)统计学统计学STATISTICSu离散型随机变量的一些例子离散型随机变量的一些例子试验随机变量可能的取值抽查100个产品一家餐馆营业一天电脑公司一个月的销售销售一辆汽车取到次品的个数顾客数销售量顾客性别0,1,2, …,1000,1,2, …0,1, 2,…男性为0,女性为155统计学统计学STATISTICSu连续型随机变量的一些例子连续型随机变量的一些例子试验试验随机变量随机变量可能的取可能的取值值抽查一批电子元件新建一座住宅楼测量一个产品的长度使用寿命(小时)半年后工程完成的百分比测量误差(cm)X 00 X 100X 056统计学统计学STATISTICS3.2.2 离散型随机变量的概率分布离散型随机变量的概率分布统计学统计学STATISTICS 1.离散型随机变量的分布离散型随机变量的分布 离散型随机变量离散型随机变量X的所有可能取值的所有可能取值x1 、、x2 、、 x3 、、……、、xn和这些值的概率和这些值的概率p(x1) 、、 p(x2) 、、p(x3)、、 ……、、p(xn) 就称为离散型随机变量的概就称为离散型随机变量的概率分布。
即:率分布即:统计学统计学STATISTICS¨离散型随机变量概率分布的性质离散型随机变量概率分布的性质变量变量X x1 x2 x3 …… xn概率概率P p(x1) p(x2) p(x3) …… p(xn) 离散型随机变量的概率分布离散型随机变量的概率分布统计学统计学STATISTICS【【例例】】投投掷掷一一枚枚骰骰子子,,出出现现的的点点数数是是个个离离散散型型随机变量,其概率分布为随机变量,其概率分布为X = xi1 2 3 4 5 6P(X=xi)=pi1/6 1/6 1/6 1/6 1/6 1/60 01/61/6P P( (x x) )1 1x x2 23 34 45 56 6统计学统计学STATISTICS【【例例】】一部电梯在一周内发生故障的次数X及相应的概率如下表故障次数故障次数X = xi0123概率概率P(X=xi)pi0.100.250.35一部电梯一周发生故障的次数及概率分布一部电梯一周发生故障的次数及概率分布 (1) (1) 确定确定 的值的值 (2) (2) 求正好发生两次故障的概率求正好发生两次故障的概率 (3) (3) 求最多发生两次故障的概率求最多发生两次故障的概率 (4)(4)求求故障次数多于一次的概率故障次数多于一次的概率61统计学统计学STATISTICS解:解:(1) 由于0.10+0.25+0.35+ =1 所以, =0.30 (2) P(X=2)=0.35 (3) P(X 2)=0.10+0.25+0.35=0.70 (4) P(X1)=0.35+0.30=0.6562统计学统计学STATISTICS3.2.3 离散型随机变量的离散型随机变量的 数学期望和方差数学期望和方差统计学统计学STATISTICS1. 离散型随机变量的数学期望离散型随机变量的数学期望1))离离散散型型随随机机变变量量X的的所所有有可可能能取取值值xi与与其其取取相相对对应的概率应的概率pi乘积之和乘积之和2)描述离散型随机变量取值的集中程度)描述离散型随机变量取值的集中程度3)记为)记为 或或E(X)4)计算公式为)计算公式为64统计学统计学STATISTICS2. 离散型随机变量的方差离散型随机变量的方差1))随随机机变变量量X的的每每一一个个取取值值与与期期望望值值的的离离差差平平方方和的数学期望,记为和的数学期望,记为 2 或或D(X)2)描述离散型随机变量取值的分散程度)描述离散型随机变量取值的分散程度3)计算公式为)计算公式为4)方差的平方根称为标准差,记为)方差的平方根称为标准差,记为 或或D(X)65统计学统计学STATISTICS【【【【例例例例】】】】一一家家电电脑脑配配件件供供应应商商声声称称,,他他所所提提供供的的配配件件100100个中拥有次品的个数及概率如下表个中拥有次品的个数及概率如下表 次品数次品数X = xi0123概率概率P(X=xi)pi0.750.120.080.05每每100100个配件中的次品数及概率分布个配件中的次品数及概率分布 求该供应商次品数的数学期望和标准差求该供应商次品数的数学期望和标准差 66统计学统计学STATISTICS3.2.4 几种常用的离散型概率分布几种常用的离散型概率分布统计学统计学STATISTICS常用离散型概率分布常用离散型概率分布离散型离散型概率分布概率分布二项分布二项分布两点分布两点分布泊松分布泊松分布超几何分布超几何分布68统计学统计学STATISTICS1. 二项分布二项分布1)二项分布与伯努利试验有关)二项分布与伯努利试验有关2)伯努利试验满足下列条件)伯努利试验满足下列条件–一一次次试试验验只只有有两两个个可可能能结结果果,,即即“成成功功”和和“失败失败”•“成功成功”是指我们感兴趣的某种特征是指我们感兴趣的某种特征–一一次次试试验验“成成功功”的的概概率率为为p ,,失失败败的的概概率率为为q =1- p,,且概率且概率p对每次试验都是相同的对每次试验都是相同的 –试验是相互独立的,并试验是相互独立的,并可以重复进行可以重复进行n次次 –在在n次次试试验验中中,,“成成功功”的的次次数数对对应应一一个个离离散散型型随机变量随机变量X X 69统计学统计学STATISTICS3))重重复复进进行行 n 次次试试验验,,出出现现“成成功功”的的次次数数的的概概率率分分布布称称为为二二项项分分布布,,记记为为X~B(n,,p)4))设设X为为 n 次次重重复复试试验验中中出出现现成成功功的的次次数数,,X 取取 x 的概率为的概率为5)二项分布的期望与方差:)二项分布的期望与方差:70统计学统计学STATISTICSu对于对于P(X=x) 0,, x =1,2,…,n,有,有u同样有同样有71统计学统计学STATISTICS【【【【例例例例】】】】已知一批产品的次品率为已知一批产品的次品率为4%4%,从中任意有放回地抽,从中任意有放回地抽 取取5 5个。
求个求5 5个产品中:个产品中: (1) (1) 没有次品的概率是多少?没有次品的概率是多少? (2) (2) 恰好有恰好有1 1个次品的概率是多少?个次品的概率是多少? (3) (3) 有有3 3个以下次品的概率是多少?个以下次品的概率是多少? 72统计学统计学STATISTICS3-732. 两点分布(两点分布( 0-1分布分布))u随机变量随机变量X只取只取0和和1两个可能的值两个可能的值u两点分布的期望为两点分布的期望为p,方差为,方差为pq当当 n = 1 时,二项分布退化为两点分布:时,二项分布退化为两点分布:或或统计学统计学STATISTICS3-74【【例例】】已知一批产品的次品率为p=0.04,合格率为q=1-p=1-0.04=0.96并指定废品用1表示,合格品用0表示则任取一件为废品或合格品这一离散型随机变量,其概率分布为X = xi0 1P(X=xi)=pi0.96 0.040.50.50 01 11 1x xP P( (x x) )统计学统计学STATISTICS3. 泊松分布泊松分布1))1837年年法法国国数数学学家家泊泊松松(D.Poisson,,1781—1840)首首次次提出提出 2))用用于于描描述述在在一一指指定定时时间间范范围围内内或或在在一一定定的的长长度度、、面积、体积之内每一事件出现次数的分布面积、体积之内每一事件出现次数的分布3)泊松分布的例子)泊松分布的例子–一定时间段内,某航空公司接到的订票数一定时间段内,某航空公司接到的订票数–一定时间内,到车站等候公共汽车的人数一定时间内,到车站等候公共汽车的人数–一定路段内,路面出现大损坏的次数一定路段内,路面出现大损坏的次数–一定时间段内,放射性物质放射的粒子数一定时间段内,放射性物质放射的粒子数–一匹布上发现的疵点个数一匹布上发现的疵点个数–一定页数的书刊上出现的错别字个数一定页数的书刊上出现的错别字个数 75统计学统计学STATISTICS — 给定的时间间隔、长度、面给定的时间间隔、长度、面 积、体积内积、体积内“成功成功”的的平均数平均数e = 2.71828 x —给定的时间间隔、长度、面给定的时间间隔、长度、面 积、体积内积、体积内“成功成功”的次数的次数4)概率分布函数)概率分布函数 X~P( )5)泊松分布的期望和方差均为)泊松分布的期望和方差均为 76统计学统计学STATISTICS【【【【例例例例】】】】假假定定某某航航空空公公司司预预订订票票处处平平均均每每小小时时接接到到4242次次订订票票电话,,那那么么1010分分钟钟内内恰恰好好接接到到6 6次次电话的的概概率是多少?率是多少? 解:解:解:解:设设X X= =1010分钟内航空公司预订票处接到的次数分钟内航空公司预订票处接到的次数 77统计学统计学STATISTICS((1))当当试试验验的的次次数数 n 很很大大,,成成功功的的概概率率 p 很很小小时时,,可可用用泊泊松松分分布布来来近近似似地地计计算算二二项项分分布的概率,即布的概率,即(2)实际应用中,当 P0.05,n>20,近似效果良好6)泊松分布作为二项分布的近似)泊松分布作为二项分布的近似78统计学统计学STATISTICS4. 超几何分布超几何分布1))采采用用不不重重复复抽抽样样,,各各次次试试验验并并不不独独立立,,成成功功的概率也互不相等的概率也互不相等2))总总体体元元素素的的数数目目N很很小小,,或或实实验验次次数数n相相对对于于N来来说说较较大大时时,,样样本本中中“成成功功”的的次次数数则则服服从从超几何概率分布超几何概率分布3)概率分布函数为)概率分布函数为4))79统计学统计学STATISTICS【【【【例例例例】】】】假假定定有有1010支支股股票票,,其其中中有有3 3支支购购买买后后可可以以获获利利,,另另外外7 7支支购购买买后后将将会会亏亏损损。
如如果果你你打打算算从从1010支支股股票票中中选选择择4 4支支购购买买,,但但你你并并不不知知道道哪哪3 3支支是是获获利利的的,,哪哪7 7支支是是亏亏损的求:损的求: (1)(1)有有3 3支能获利的股票都被你选中的概率有多大?支能获利的股票都被你选中的概率有多大? (2)3(2)3支可获利的股票中有支可获利的股票中有2 2支被你选中的概率有多大?支被你选中的概率有多大? 解:解:解:解:设设N N= =1010,,MM=3=3,,n n=4=480统计学统计学STATISTICS3.2.5 概率密度函数与概率密度函数与 连续型随机变量连续型随机变量统计学统计学STATISTICS1. 连续型随机变量的特点连续型随机变量的特点1))连连续续型型随随机机变变量量可可以以取取某某一一区区间间或或整整个个实实数轴上的任意一个值数轴上的任意一个值2)它取任何一个特定的值的概率都等于)它取任何一个特定的值的概率都等于03)不能列出每一个值及其相应的概率)不能列出每一个值及其相应的概率4)通常研究它取某一区间值的概率)通常研究它取某一区间值的概率5))用用概概率率密密度度函函数数的的形形式式和和分分布布函函数数的的形形式式来描述来描述统计学统计学STATISTICS2. 概率密度函数概率密度函数1))设设X为为一一连连续续型型随随机机变变量量,,x 为为任任意意实实数数,,X的概率密度函数记为的概率密度函数记为f(x),它满足条件,它满足条件2)) f(x)不是概率不是概率统计学统计学STATISTICS 密度函数密度函数 f(x)表示表示X 的所有取值的所有取值 x 及其频数及其频数f(x)值值( (值值, , 频数频数) )频数频数f f( (x x) )a ab bx x统计学统计学STATISTICS 在在平平面面直直角角坐坐标标系系中中画画出出f(x)的的图图形形,,则则对对于于任任何何实数实数 a < b,,P(a< X b)是该曲线下从是该曲线下从a到到 b的面积的面积f(x)xab概率是曲线下的面积概率是曲线下的面积统计学统计学STATISTICS3. 分布函数分布函数1))连连续续型型随随机机变变量量的的概概率率可可以以用用分分布布函函数数F(x)来表示来表示2)分布函数定义为)分布函数定义为3)根)根据分布函数,据分布函数,P(a
为描述误差相对频数分布的模型而提出u描述连续型随机变量的最重要的分布描述连续型随机变量的最重要的分布u许多现象都可以由正态分布来描述许多现象都可以由正态分布来描述 u可用于近似离散型随机变量的分布可用于近似离散型随机变量的分布例如:例如: 二项分布二项分布u经典统计推断的基础经典统计推断的基础x xf f ( (x x) )统计学统计学STATISTICS((1)概率密度函数)概率密度函数f(x) = 随机变量随机变量 X 的频数的频数 = 正态随机变量正态随机变量X的均值的均值 = 正态随机变量正态随机变量X的方差的方差 = 3.1415926; e = 2.71828x = 随机变量的取值随机变量的取值 (- < x < )统计学统计学STATISTICS((2)) 正态分布函数的性质正态分布函数的性质u图形是关于图形是关于x= 对称的钟形曲线,且峰值在对称的钟形曲线,且峰值在x= 处处u均均值值 和和标标准准差差 一一旦旦确确定定,,分分布布的的具具体体形形式式也也惟惟一一确确定定,,不不同同参参数数正正态态分分布布构构成成一一个个完完整整的的“正正态态分分布布族族” u均均值值 可可取取实实数数轴轴上上的的任任意意数数值值,,决决定定正正态态曲曲线线的的具具体体位位置置;;标标准准差差决决定定曲曲线线的的“陡陡峭峭”或或“扁扁平平”程程度度。
越大,正态曲线扁平;越大,正态曲线扁平; 越小,正态曲线越陡峭越小,正态曲线越陡峭u当当X X的的取取值值向向横横轴轴左左右右两两个个方方向向无无限限延延伸伸时时,,曲曲线线的的两两个尾端也无限渐近横轴,理论上永远不会与之相交个尾端也无限渐近横轴,理论上永远不会与之相交u正正态态随随机机变变量量在在特特定定区区间间上上的的取取值值概概率率由由正正态态曲曲线线下下的面积给出,而且其曲线下的总面积等于的面积给出,而且其曲线下的总面积等于1 统计学统计学STATISTICS 和和 对对正态曲线的影响正态曲线的影响xf(x)CAB =1/2=1/2 =1 =1 统计学统计学STATISTICS((3)正态分布的概率)正态分布的概率概率是曲线下的概率是曲线下的面积面积面积面积! !a ab bx xf f( (x x) )统计学统计学STATISTICS((4)对称钟形分布中的)对称钟形分布中的3σ法则法则¨3σ 法则法则——关于钟形分布的一个近似的关于钟形分布的一个近似的或经验的法则:或经验的法则:–变量值落在变量值落在 [-3σ,,+3σ]范围以外的情况极为范围以外的情况极为少见。
因此通常将落在区间少见因此通常将落在区间[-3σ,,+3σ]之外之外的数据称为异常数据或称为离群点的数据称为异常数据或称为离群点x99.73%68.27%95.45%统计学统计学STATISTICS切比雪夫定理¨ 对于任意一个数据集中,至少有75%的数据位于平均数2个标准差范围内至少有89%的数据位于平均数3个标准差范围内97统计学统计学STATISTICS((5)标准正态分布)标准正态分布a a)标准正态分布)标准正态分布)标准正态分布)标准正态分布的概率密度函数的概率密度函数的概率密度函数的概率密度函数作变换:作变换:b b)标准正态分布)标准正态分布)标准正态分布)标准正态分布的分布函数的分布函数的分布函数的分布函数可将一般形式的可将一般形式的正态分布转化为标准正态分布正态分布转化为标准正态分布正态分布转化为标准正态分布正态分布转化为标准正态分布统计学统计学STATISTICSX X 一般正态分布一般正态分布一般正态分布一般正态分布一般正态分布一般正态分布 Z标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布 统计学统计学STATISTICS((6)标准正态分布表的使用)标准正态分布表的使用a)对于标准正态分布,即)对于标准正态分布,即Z~N(0,1),有,有–P (a Z b) b a –P (|Z| a) 2 a 1b)对于负的)对于负的 z ,可由,可由 (-z) z 得到得到c)对于一般正态分布,即)对于一般正态分布,即X~N( , ),有,有统计学统计学STATISTICS标准化的例子标准化的例子 P(5 X 6.2) X 55 一般正态分布一般正态分布一般正态分布一般正态分布一般正态分布一般正态分布6.2 Z Z标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布 0.120.120.04780.04780.0478统计学统计学STATISTICS标准化的例子标准化的例子P(2.9 X 7.1) 5 = 102.97.1X一般正态分布一般正态分布一般正态分布一般正态分布标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布0 0 = 1 = 1-.21-.21Z Z.21.210.16640.16640.1664.0832.0832.0832.0832.0832.0832统计学统计学STATISTICS【【【【例例例例】】】】假假假假定定定定某某某某公公公公司司司司职职职职员员员员每每每每周周周周的的的的加加加加班班班班津津津津贴贴贴贴服服服服从从从从均均均均值值值值为为为为5050元元元元、、、、标标标标准准准准差差差差为为为为1010元元元元的的的的正正正正态态态态分分分分布布布布,,,,那那那那么么么么全全全全公公公公司司司司中中中中有有有有多多多多少少少少比比比比例例例例的的的的职职职职员员员员每每每每周周周周的的的的加加加加班班班班津津津津贴贴贴贴会会会会超超超超过过过过7070元元元元,,,,又又又又有有有有多多多多少少少少比比比比例例例例的的的的职职职职员员员员每每每每周周周周的的的的加加加加班班班班津贴在津贴在津贴在津贴在4040元到元到元到元到6060元之间呢?元之间呢?元之间呢?元之间呢? 解:解:解:解:设设 =5=50 0,, =10=10,,X X~~N N(50,10(50,102 2) )统计学统计学STATISTICS2. 均匀分布均匀分布1)) 若随机变量若随机变量X的概率密度函数为的概率密度函数为则称则称X在在 [a ,b]上服从均匀分布,记为上服从均匀分布,记为X~U[a,b]2)数学期望和方差)数学期望和方差104统计学统计学STATISTICSu随机变量随机变量X在某取值范围在某取值范围[a ,b]的任一子区间的任一子区间[c ,d]上上取值的概率为取值的概率为 u同样有:同样有:105统计学统计学STATISTICS【【【【例例例例】】】】某某某某公公公公共共共共汽汽汽汽车车车车站站站站从从从从早早早早上上上上6 6时时时时起起起起每每每每隔隔隔隔1515分分分分钟钟钟钟开开开开出出出出一一一一趟趟趟趟班班班班车车车车,,,,假假假假定定定定某某某某乘乘乘乘客客客客在在在在6 6点点点点以以以以后后后后到到到到达达达达车车车车站站站站的的的的时时时时刻刻刻刻是是是是随随随随机机机机的的的的,,,,所所所所以以以以有有有有理理理理由由由由认认认认为为为为他他他他等等等等候候候候乘乘乘乘车车车车的的的的时时时时间间间间长长长长度度度度X X服服服服从从从从参参参参数数数数为为为为a a=0=0,,,,b b=15=15的的的的均均均均匀匀匀匀分分分分布布布布。
试试试试求求求求该该该该乘乘乘乘客客客客等等等等候候候候乘乘乘乘车车车车的时间长度少于的时间长度少于的时间长度少于的时间长度少于5 5分钟的概率分钟的概率分钟的概率分钟的概率 解:解:解:解:概率密度函数为概率密度函数为落入区间落入区间[0[0,,15]15]的任一子区间的任一子区间[0[0,,d d] ]的概率是的概率是 ,,等候乘车的时间长度少于等候乘车的时间长度少于5 5分钟即有分钟即有d d =5=5,因此该事件发生的,因此该事件发生的概率等于概率等于5/15=1/35/15=1/3106统计学统计学STATISTICS3. 指数分布指数分布1.若随机变量若随机变量X的概率密度函数为的概率密度函数为2. 称称X服从参数为服从参数为 的指数的指数分布,记为分布,记为X~E( )3.数学期望和方差数学期望和方差107统计学统计学STATISTICS指数分布指数分布(概率计算概率计算)1.随机变量随机变量X取小于或等于某一特定值取小于或等于某一特定值x的概率为的概率为 2.随机随机变量变量X落入任一区间落入任一区间( (a,,b) )的概率为的概率为 108统计学统计学STATISTICS指数分布指数分布(例题分析例题分析)【【【【例例例例】】】】假假定定某某加加油油站站在在一一辆辆汽汽车车到到达达之之后后等等待待下下一一辆辆汽汽车车到到达达所所需需要要的的时时间间( (单单位位::分分钟钟) )服服从从参参数数为为1/51/5的的指指数数分分布布,,如如果果现现在在正正好好有有一一辆辆汽汽车车刚刚刚刚到到站站加加油油,,试试分分别别求求以以下下几几个个事事件发生的概率:件发生的概率: (1)(1)一辆汽车到站前需要等待一辆汽车到站前需要等待5 5分钟以上分钟以上 (2)(2)一辆汽车到站前需要等待一辆汽车到站前需要等待5 5~ ~1010分钟分钟 解:解:解:解:109统计学统计学STATISTICS3.3 常用的抽样方法常用的抽样方法 大多数的实际应用当中真实的均值与方差等的大多数的实际应用当中真实的均值与方差等的参数是未知的,需要通过抽样调查,用样本统参数是未知的,需要通过抽样调查,用样本统计量去推断人们所关心的总体参数。
计量去推断人们所关心的总体参数l 简单随机抽样简单随机抽样l 分层抽样分层抽样l 系统抽样系统抽样l整群抽样整群抽样统计学统计学STATISTICS3.3.1 简单随机抽样简单随机抽样1.从从总总体体N个个单单位位中中随随机机地地抽抽取取n个个单单位位作作为为样样本本,,使使得每一个总体单位都有相同的机会得每一个总体单位都有相同的机会( (概率概率) )被抽中被抽中 2.抽取元素的具体方法有重复抽样和不重复抽样抽取元素的具体方法有重复抽样和不重复抽样3.特点特点–简单、直观,在抽样框完整时,可直接从中抽取样本简单、直观,在抽样框完整时,可直接从中抽取样本–用样本统计量对目标量进行估计比较方便用样本统计量对目标量进行估计比较方便4.局限性局限性–当当N很大时,不易构造抽样框很大时,不易构造抽样框–抽出的单位很分散,给实施调查增加了困难抽出的单位很分散,给实施调查增加了困难–没有利用其他辅助信息以提高估计的效率没有利用其他辅助信息以提高估计的效率111统计学统计学STATISTICS3.3.2 分层抽样分层抽样1.将将总总体体单单位位按按某某种种特特征征或或某某种种规规则则划划分分为为不不同同的的层层,,然然后后从从不不同同的的层层中中独独立立、、随随机机地抽取样本地抽取样本2.优点优点–保保证证样样本本的的结结构构与与总总体体的的结结构构比比较较相相近近,,从从而提高估计的精度而提高估计的精度–组织实施调查方便组织实施调查方便–既既可可以以对对总总体体参参数数进进行行估估计计,,也也可可以以对对各各层层的目标量进行估计的目标量进行估计112统计学统计学STATISTICS3.3.3 系统抽样系统抽样1.将将总总体体中中的的所所有有单单位位(抽抽样样单单位位)按按一一定定顺顺序序排排列列,,在在规规定定的的范范围围内内随随机机地地抽抽取取一一个个单单位位作作为为初初始始单单位位,,然然后后按按事事先先规规定定好好的的规则确定其他样本单位规则确定其他样本单位–先先从从数数字字1到到k之之间间随随机机抽抽取取一一个个数数字字r作作为为初始单位,以后依次取初始单位,以后依次取r+k,,r+2k…等单位等单位2.优点:操作简便,可提高估计的精度优点:操作简便,可提高估计的精度3.缺点:对估计量方差的估计比较困难缺点:对估计量方差的估计比较困难113统计学统计学STATISTICS3.3.4 整群抽样整群抽样1.将将总总体体中中若若干干个个单单位位合合并并为为组组(群群),抽抽样样时时直直接接抽抽取取群群,,然然后后对对中中选选群群中中的的所所有有单单位位全部实施调查全部实施调查2.特点特点–抽样时只需群的抽样框,可简化工作量抽样时只需群的抽样框,可简化工作量–调调查查的的地地点点相相对对集集中中,,节节省省调调查查费费用用,,方方便便调查的实施调查的实施–缺点是估计的精度较差缺点是估计的精度较差114统计学统计学STATISTICS3.4 抽样分布抽样分布3.4.1 抽样分布的概念抽样分布的概念3.4.2 样本均值抽样分布的形式样本均值抽样分布的形式3.4.3 样本均值抽样分布的特征样本均值抽样分布的特征3.4.4 样本比率的抽样分布样本比率的抽样分布3.4.5 样本方差的抽样分布样本方差的抽样分布3.4.6 两个样本统计量的抽样分布两个样本统计量的抽样分布统计学统计学STATISTICS若将样本指标的取值分别记为若将样本指标的取值分别记为 其相应的概率记为其相应的概率记为P1,,P2,,…Pn,,将它们按将它们按顺序排列起来,可得如下概率分布表。
顺序排列起来,可得如下概率分布表 …………3.4.1 抽样分布的概念抽样分布的概念从总体中随机地抽取许多样本从总体中随机地抽取许多样本,所得到的所得到的所有可能的所有可能的样本观测值及其所对应的概率便是抽样分布因此,样本观测值及其所对应的概率便是抽样分布因此,抽样分布也可以称为样本统计量的概率分布抽样分布也可以称为样本统计量的概率分布统计学统计学STATISTICS1.样本统计量的概率分布,样本统计量的概率分布,是一种理论分布是一种理论分布–在重复选取容量为在重复选取容量为n的样本时,由该统计量的所有的样本时,由该统计量的所有可能取值形成的相对频数分布可能取值形成的相对频数分布 2.随机变量是随机变量是 样本统计量–样本均值样本均值,样本方差等样本方差等3.结果来自结果来自容量相同的的所有可能样本可能样本4.提供了样本统计量长远而稳定的信息,是进行提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要推断的理论基础,也是抽样推断科学性的重要依据依据 抽样分布抽样分布 (sampling distribution)117统计学统计学STATISTICS【【例例5-2】】设设一一个个总总体体,,含含有有4个个元元素素(个个体体) ,,即即总总体体单单位位数数N=4。
4 个个个个体体分分别别为为x1=1,,x2=2,,x3=3,,x4=4 总体的均值、方差及分布如下总体的均值、方差及分布如下总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3均值均值3.4.2 样本均值的抽样分布样本均值的抽样分布方差方差统计学统计学STATISTICS现现从从总总体体中中抽抽取取n==2的的简简单单随随机机样样本本,,在在重重复复抽抽样样条件下,共有条件下,共有42=16个样本所有样本的结果为个样本所有样本的结果为:3,,43,,33,,23,,132,,42,,32,,22,,124,,44,,34,,24,,141,,441,,33211,,21,,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n = 2 的样本(共的样本(共16个)个)统计学统计学STATISTICS计计算算出出各各样样本本的的均均值值,,如如下下表表并并给给出出样样本本均均值值的抽样分布的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值1616个样本的均值(个样本的均值(个样本的均值(个样本的均值(x x))))统计学统计学STATISTICS5-121x x样本均值的抽样分布样本均值的抽样分布1.01.00 00.10.10.20.20.30.3P P ( ( x x ) )1.51.53.03.04.04.03.53.52.02.02.52.5X11.522.533.54p1/162/163/164/163/162/161/16统计学统计学STATISTICSn样本均值的分布与总体分布的比较样本均值的分布与总体分布的比较 = 2.5 σ2 =1.25总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3抽样分布抽样分布P ( x )1.01.00 0.1 .1.2 .2.3 .31.51.53.03.04.04.03.53.52.02.0 2.52.5统计学统计学STATISTICS样本均值抽样分布的形成过程样本均值抽样分布的形成过程123统计学统计学STATISTICS样本均值的抽样分布样本均值的抽样分布124统计学统计学STATISTICS3.4.2 样本均值抽样分布的形式样本均值抽样分布的形式 x x 的的的的分分分分布布布布趋趋趋趋于于于于正正正正态态态态分分分分布布布布的的的的过过过过程程程程统计学统计学STATISTICS3-126 总体分布总体分布总体分布总体分布正态分布正态分布非正态分布非正态分布大样本大样本小样本小样本正态分布正态分布正态分布正态分布非正态分布非正态分布统计学统计学STATISTICS1.样本均值的数学期望样本均值的数学期望2.样本均值的方差样本均值的方差–重复抽样重复抽样–不重复抽样不重复抽样当当N趋于无穷大或趋于无穷大或N很大很大n很小时,不重复抽样可很小时,不重复抽样可以用重复抽样公式计算以用重复抽样公式计算3.4.3 样本均值抽样分布的特征样本均值抽样分布的特征127统计学统计学STATISTICS样本均值的抽样分布样本均值的抽样分布(总体数学期望与方差总体数学期望与方差)比较及结论:比较及结论:比较及结论:比较及结论:1. 1. 样本均值的均值样本均值的均值( (数学期望数学期望) ) 等于总体均值等于总体均值 2. 2. 样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/1/n n 128统计学统计学STATISTICSt分布分布129统计学统计学STATISTICSt分布分布在实际问题中所有可能的样本数是难以一在实际问题中所有可能的样本数是难以一一列举的,这时可以通过反复进行抽样模一列举的,这时可以通过反复进行抽样模拟,记录下统计量取不同数值时的百分比,拟,记录下统计量取不同数值时的百分比,这是可以发现样本均值的抽样分布服从与这是可以发现样本均值的抽样分布服从与自由度为(自由度为(n-1)的)的t分布分布130统计学统计学STATISTICSt 分布分布 t t 分分布布是是类类似似正正态态分分布布的的一一种种对对称称分分布布,,它它通通常常要要比比正正态态分分布布平平坦坦和和分分散散。
依依赖赖于于称称之之为为自自由由度度的的参参数数随着自由度的增大,分布也逐渐趋于正态分布随着自由度的增大,分布也逐渐趋于正态分布 x x xt t 分布与标准正态分布的比较分布与标准正态分布的比较t t 分布分布标准正态分布标准正态分布t t不同自由度的不同自由度的t t分布分布标准正态分布标准正态分布t t ( (dfdf = 13) = 13)t t ( (dfdf = 5) = 5)z z统计学统计学STATISTICSt分布与正态分布的异同点分布与正态分布的异同点¨相同点相同点1,都是均数位于中间;,都是均数位于中间;2,,t曲线与正态曲线都是关于曲线与正态曲线都是关于μ点对称,形状相似;点对称,形状相似;3,总面积都是,总面积都是1.¨不同点不同点1,,t曲线会随曲线会随n的大小变化而变化,不是一条而是多的大小变化而变化,不是一条而是多条;条;2,随着,随着n的增加,的增加,t分布逐渐接近标准正态分布,当分布逐渐接近标准正态分布,当n==∞时,完全成为标准正态分布时,完全成为标准正态分布132统计学统计学STATISTICS样本比率的抽样分布样本比率的抽样分布133统计学统计学STATISTICS比率比率(proportion)134统计学统计学STATISTICS1.在重复选取容量为在重复选取容量为n的样本时,由样本比的样本时,由样本比率的所有可能取值形成的相对频数分布,率的所有可能取值形成的相对频数分布,称为样本比率抽样分布称为样本比率抽样分布2.一种理论概率分布一种理论概率分布3.当样本量很大时(当样本量很大时(np≥5 或或n((1-p))≥5),),样本比率的抽样分布可用正态分布近似样本比率的抽样分布可用正态分布近似 4.推断总体比率推断总体比率 的理论基础的理论基础样本比率的抽样分布样本比率的抽样分布135统计学统计学STATISTICS1.样本比率的数学期望样本比率的数学期望2.样本比率的方差样本比率的方差–重复抽样重复抽样–不重复抽样不重复抽样样本比率的抽样分布样本比率的抽样分布(数学期望与方差数学期望与方差)136统计学统计学STATISTICS 重复抽样重复抽样 不重复抽样不重复抽样 统计学统计学STATISTICS【【例例5-4】】从某地区从某地区6000名适龄儿童中用不放回抽名适龄儿童中用不放回抽样方法抽取样方法抽取400名儿童,其中有名儿童,其中有320名儿童入学,名儿童入学,求样本入学率的标准差。
求样本入学率的标准差解:解: 5-138统计学统计学STATISTICS3.4.5 样本方差的抽样分布样本方差的抽样分布1.在在重重复复选取取容容量量为n的的样本本时,,由由样本本方方差差的的所有可能取所有可能取值形成的相形成的相对频数分布数分布2.对于来自正于来自正态总体的体的简单随机随机样本,本,则比比值 的抽的抽样分布服从自由度分布服从自由度为 (n -1) 的的 2分布,即分布,即统计学统计学STATISTICS((1))由由阿阿贝(Abbe) 于于1863年年首首先先给出出,,后后来来由由海海尔尔墨墨特特(Hermert)和和卡卡·皮皮尔尔逊(K·Pearson) 分分别于于1875年年和和1900年推年推导出来出来((2))设 ,,则((3)) 令令 ,,则 Y 服从自由度服从自由度为1的的 2分布,即分布,即 ((4)) 当当总体体 ,从中抽取容量,从中抽取容量为n的的样本,本,则u 2分布分布统计学统计学STATISTICS((1)) 分布的分布的变量量值始始终为正正 ((2)) 分分布布的的形形状状取取决决于于其其自自由由度度n的的大大小小,,通通常常为不不对称称的的正正偏偏分分布布,,但但随随着着自自由由度度的增大逐的增大逐渐趋于于对称称 ((4)) 可可加加性性::若若U和和V为两两个个独独立立的的服服从从 2分分布布的的随随机机变量量,,U~ 2(n1),,V~ 2(n2),则U+V这一一随随机机变量量服服从从自自由由度度为n1+n2的的 2分布分布 l 2分布的性质和特点分布的性质和特点统计学统计学STATISTICSlc c2分布图示分布图示 选择容量为选择容量为n 的的简单随机样本简单随机样本计算样本方差计算样本方差s2计算卡方值计算卡方值 2 = (n-1)s2/σ2计算出所有的计算出所有的 2值值不同容量样本的抽样分布不同容量样本的抽样分布不同容量样本的抽样分布不同容量样本的抽样分布 n n=1=1n n=4=4n n=10=10n n=20=20 总体总体统计学统计学STATISTICS5-143统计学统计学STATISTICS3.4.6 两个样本统计量 的抽样分布统计学统计学STATISTICS1)两个总体都为正态分布,即 , 2)两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差3)方差为各自的方差之和 1. 两个样本均值之差的抽样分布统计学统计学STATISTICS两个样本均值之差的抽样分布 1 1 1 1总体总体1 2 2 2 2总体总体2抽取简单随机样抽取简单随机样样本容量样本容量 n1计算计算x1抽取简单随机样抽取简单随机样样本容量样本容量 n2计算计算x2计算每一对样本计算每一对样本的的x1-x2所有可能样本所有可能样本的的x1-x2 -- 抽样分布抽样分布抽样分布抽样分布统计学统计学STATISTICS1)两个总体都服从二项分布2)分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似3)分布的数学期望为4)方差为各自的方差之和 2. 两个样本比例之差的抽样分布统计学统计学STATISTICS3.两个样本方差比的抽样分布1 1))两两两两个总体都为正态分布,个总体都为正态分布,个总体都为正态分布,个总体都为正态分布,即即即即 X X1 1~ ~N N( (μ μ1 1 , ,σ σ1 12 2) ),,,, X X2 2~ ~N N( (μ μ2 2 , ,σ σ2 22 2 ) )2 2)从两)从两)从两)从两个总体中分别抽取容量为个总体中分别抽取容量为个总体中分别抽取容量为个总体中分别抽取容量为n n1 1和和和和n n2 2的独立样本的独立样本的独立样本的独立样本3 3)则统计量)则统计量)则统计量)则统计量 服服服服从从从从分分分分子子子子自自自自由由由由度度度度为为为为( (n n1 1-1)-1),,,,分分分分母母母母自自自自由由由由度度度度为为为为( (n n2 2-1) -1) 的的的的F F分布,即分布,即分布,即分布,即 统计学统计学STATISTICSØ由统计学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名Ø设若U为服从自由度为n1的2分布,即U~2(n1),V为服从自由度为n2的2分布,即V~2(n2),且U和V相互独立,则Ø 称F为服从自由度n1和n2的F分布,记为F分布(F distribution)统计学统计学STATISTICSF分布(图示) 不同自由度的不同自由度的F分布分布F F F((1,10)1,10)(5,10)(5,10)(10,10)(10,10)统计学统计学STATISTICS3.5 中心极限定理的中心极限定理的应用用对于抽自任意于抽自任意总体体样本量本量为n的随的随机机样本,当本,当n充分大充分大时,,样本均本均值的抽的抽样分布具有分布具有 的的正太分布。
正太分布样本量越大本量越大样本均本均值的抽的抽样分布越近似于正分布越近似于正态分布分布统计学统计学STATISTICS1. 均值的抽样分布均值的抽样分布[例例] 某汽车电瓶商声称其生产的电瓶具有均值为某汽车电瓶商声称其生产的电瓶具有均值为60个月,标准差为个月,标准差为6个月的寿命分布现质检部门从个月的寿命分布现质检部门从该厂随机抽取了该厂随机抽取了50个电瓶进行寿命检验个电瓶进行寿命检验1)假定厂商声称是正确的,试描述)假定厂商声称是正确的,试描述50个电瓶的平均个电瓶的平均寿命的抽样分布寿命的抽样分布2)假定厂商声称正确,则)假定厂商声称正确,则50个电瓶样本的平均寿命个电瓶样本的平均寿命不超过不超过57个月的概率是多少?个月的概率是多少?3)假定测得该)假定测得该50个样品组成的样本的平均寿命为个样品组成的样本的平均寿命为57个月,请问厂商的声称是否正确?个月,请问厂商的声称是否正确?统计学统计学STATISTICS[解解]1))若厂商声称是正确的,由中心极限定理知道,50个电瓶的平均寿命的分布近似服从正态分布,其均值为60个月,方差为62/50=0.852)若厂商声称正确,则50个样品组成的样本的平均寿命不超过57个月的概率为:统计学统计学STATISTICS3))不正确。
若厂商声称是正确的,则50个样品组成的样本的平均寿命不超过57个月的概率为0.0002,这是一个不可能事件若观察到50个样品组成的样本的平均寿命小于57个月,即可认为厂商的声称是不正确的统计学统计学STATISTICS[例例]某酒店某酒店电梯的最大梯的最大载重重为18人人, 1350kg假定已知假定已知该酒店旅客及其携酒店旅客及其携带的行李平均重量的行李平均重量为70kg,,标准准差差为6kg试问随机随机进入入电梯梯18人,人,总重量超重的概重量超重的概率是多少?率是多少? 解:根据条件已知解:根据条件已知:μ=70, σ=6, n=18, 电梯梯载重的最大重的最大平均重量平均重量为1350/18=75kg. 按照按照题意意,要要计算的是随机的任意算的是随机的任意18人平均重量超人平均重量超过75kg的概率的概率.用数学公式表示用数学公式表示,即即计算算P( ≥75)的概的概率率.要要计算算这一概率一概率,由已知人的体重服从正由已知人的体重服从正态分布分布,就就可以根据中心极限定理将均可以根据中心极限定理将均值 抽抽样分布概率的分布概率的计算算转换成成标准正准正态变量量z值概率的概率的计算。
算统计学统计学STATISTICS即即:就有就有:统计学统计学STATISTICS[例例]假定某统计人员填写的报表中有假定某统计人员填写的报表中有2%的可能性至的可能性至少会有一处错误,如果我们检查一个少会有一处错误,如果我们检查一个600份报表组份报表组成的样本,其中至少有一处错误的报表所占的比成的样本,其中至少有一处错误的报表所占的比率在率在0.025~~0.070之间的概率有多大之间的概率有多大?解解: 设设600份报表中至少有一处错误的报表所占的比份报表中至少有一处错误的报表所占的比率为率为 ,由题意可知,由题意可知 统计学统计学STATISTICS根据中心极限定理,有根据中心极限定理,有故所求概率为:故所求概率为:统计学统计学STATISTICS[例例]甲、乙两所高校在某年甲、乙两所高校在某年录取新生取新生时,甲校的,甲校的平均分平均分为655分,分,标准差准差为20分,乙校的平均分,乙校的平均分分为625分,分,标准差准差为25分,假定两校的分数分,假定两校的分数均服从正均服从正态分布,分布,现从两所高校中各随机抽从两所高校中各随机抽取取8名新生名新生计算其平均分,出算其平均分,出现甲校比乙校的甲校比乙校的平均分低的可能性有多大?平均分低的可能性有多大?解:因解:因为两个两个总体均体均为正正态分布,所以分布,所以8名新生名新生的平均成的平均成绩 、、 以及以及 也也为正正态分分布,且:布,且:统计学统计学STATISTICS故有故有统计学统计学STATISTICS本章小结本章小结¨事件及其概率事件及其概率¨随机变量及其概率分布随机变量及其概率分布¨常用的抽样方法常用的抽样方法¨抽样分布抽样分布¨中心极限定理的应用中心极限定理的应用161。