统计学-概率PPT优秀课件

上传人:公**** 文档编号:589006195 上传时间:2024-09-09 格式:PPT 页数:51 大小:352.50KB
返回 下载 相关 举报
统计学-概率PPT优秀课件_第1页
第1页 / 共51页
统计学-概率PPT优秀课件_第2页
第2页 / 共51页
统计学-概率PPT优秀课件_第3页
第3页 / 共51页
统计学-概率PPT优秀课件_第4页
第4页 / 共51页
统计学-概率PPT优秀课件_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《统计学-概率PPT优秀课件》由会员分享,可在线阅读,更多相关《统计学-概率PPT优秀课件(51页珍藏版)》请在金锄头文库上搜索。

1、第第4章章 随机变量的概率分布随机变量的概率分布4.4 离散随机变量的分布离散随机变量的分布4.5 连续随机变量的分布连续随机变量的分布4.6 使用概率来检验假设使用概率来检验假设学习目标学习目标 离散随机变量及相应的分布离散随机变量及相应的分布连续随机变量及相应的分布;连续随机变量及相应的分布;利用概率进行决策分析。利用概率进行决策分析。离散型随机变量与连续型随机变量离散型随机变量与连续型随机变量试验随机变量可能的取值抽查抽查100个产品个产品取到次品的个数取到次品的个数0,1,2,100一家餐馆营业一天一家餐馆营业一天顾客数顾客数0,1,2,抽查一批电子原件抽查一批电子原件使用寿命使用寿命

2、X 0新建一座住宅楼新建一座住宅楼半年完成工程的百半年完成工程的百分比分比0 X 100分布分布随随机机变变量量取取一一切切可可能能值值或或范范围围的的概概率率或或概概率率的的规规律律称称为为概概率率分分布布(probability (probability distributiondistribution,简称分布简称分布) )。概概率率分分布布可可以以用用各各种种图图或或表表来来表表示示;一一些些可可以以用用公式来表示。公式来表示。概概率率分分布布是是关关于于总总体体的的概概念念。有有了了概概率率分分布布就就等等于知道了总体。于知道了总体。前前面面介介绍绍过过的的样样本本均均值值、样样本本

3、标标准准差差和和样样本本方方差差等样本特征的概念是相应的总体特征的反映。等样本特征的概念是相应的总体特征的反映。我我们们也也有有描描述述变变量量“位位置置”的的总总体体均均值值、总总体体中中位位数数、总总体体百百分分位位数数以以及及描描述述变变量量分分散散(集集中中)程度的总体标准差和总体方差等概念。程度的总体标准差和总体方差等概念。4.4 4.4 离散随机变量的分布离散随机变量的分布离离散散变变量量只只取取离离散散的的值值,比比如如骰骰子子的的点点数数、网网站站点点击击数数、顾顾客客人人数数等等等等。每每一一种种取取值值都都有有某某种种概概率率。各各种种取取值值点点的的概概率率总总和和应应该

4、是该是1。当然离散变量不不仅仅限于取非负整数值。当然离散变量不不仅仅限于取非负整数值。一一般般来来说说,某某离离散散随随机机变变量量的的每每一一个个可可能能取取值值xi都都相相应应于于取取该该值值的的概概率率p(xi),这这些些概概率应该满足关系率应该满足关系最简单的离散分布应该是基于最简单的离散分布应该是基于可重复可重复的的有有两两结果(比如成功和失败)的相同结果(比如成功和失败)的相同独独立立试验(每次试验成功概率相同)的分试验(每次试验成功概率相同)的分布,例如抛硬币布,例如抛硬币。比如用比如用p代表得到硬币正面的概率,那代表得到硬币正面的概率,那么么1p则是得到反面的概率。则是得到反面

5、的概率。如果知道如果知道p,这个抛硬币的试验的概率,这个抛硬币的试验的概率分布也就都知道了。分布也就都知道了。4.4.14.4.1二项分布二项分布这种有两个可能结果的试验有两个特这种有两个可能结果的试验有两个特点:点:一是各次试验互相独立,一是各次试验互相独立,二是每次试验得到一种结果的概率不二是每次试验得到一种结果的概率不变(这里是得到正面的概率总是变(这里是得到正面的概率总是p)。)。类似于抛硬币的仅有两种结果的重复类似于抛硬币的仅有两种结果的重复独立试验被称为贝努里试验独立试验被称为贝努里试验(Bernoulli trials)。)。4.4.14.4.1二项分布二项分布下面试验可看成为贝

6、努里试验:下面试验可看成为贝努里试验:每一个进入某商场的顾客是否购买某商每一个进入某商场的顾客是否购买某商品品每个被调查者是否认可某种产品每个被调查者是否认可某种产品每一个新出婴儿的性别。每一个新出婴儿的性别。根据这种简单试验的分布,可以得到基根据这种简单试验的分布,可以得到基于这个试验的更加复杂事件的概率。于这个试验的更加复杂事件的概率。为了方便,人们通常称贝努里试验的两为了方便,人们通常称贝努里试验的两种结果为种结果为“成功成功”和和“失败失败”。4.4.14.4.1二项分布二项分布和贝努里试验相关的最常见的问题是和贝努里试验相关的最常见的问题是:如果如果进行进行n次贝努里试验,每次成功的

7、概率为次贝努里试验,每次成功的概率为p,那么成功,那么成功k次的概率是多少?次的概率是多少?这个概率的分布就是所谓的二项分布这个概率的分布就是所谓的二项分布(binomial distribution)。这个分布有两个参数,一个是试验次数这个分布有两个参数,一个是试验次数n,另一个是每次试验成功的概率另一个是每次试验成功的概率p。基于此,二项分布用符号基于此,二项分布用符号B(n,p)或或Bin(n,p)表示。表示。由于由于n和和p可以根据实际情况取各种不同的可以根据实际情况取各种不同的值,因此二项分布是一族分布,族内的分布值,因此二项分布是一族分布,族内的分布以这两个参数来区分。以这两个参数

8、来区分。4.4.14.4.1二项分布二项分布一一 般般 公公 式式 。 下下 面面 p(k)代代 表表 在在 n次次Bernoulli试试验验中中成成功功的的次次数数的的概概率率,p为每次试验成功的概率。有为每次试验成功的概率。有这里这里为二项式系数,或记为为二项式系数,或记为4.4.14.4.1二项分布二项分布九个二项分布九个二项分布B(5,p) (p0.1到到0.9)的概率分布图的概率分布图另一个常用离散分布是另一个常用离散分布是Poisson分分布布(“泊松分布泊松分布”)。)。它可以认为是衡量某种事件在一定它可以认为是衡量某种事件在一定期间出现的数目的概率。期间出现的数目的概率。比如说

9、在一定时间内顾客的人数、比如说在一定时间内顾客的人数、打入电话总机电话的个数、页面上打入电话总机电话的个数、页面上出现印刷错误的个数、纺织品上出出现印刷错误的个数、纺织品上出现疵点的个数。现疵点的个数。4.4.2 Poisson4.4.2 Poisson分布分布在不同条件下,同样事件在单位时间在不同条件下,同样事件在单位时间中出现同等数目的概率不尽相同。中出现同等数目的概率不尽相同。比如中午和晚上某商店在比如中午和晚上某商店在10分钟内出分钟内出现现5个顾客的概率就不一定相同。个顾客的概率就不一定相同。因此,因此,Poisson分布也是一个分布族。分布也是一个分布族。族中不同成员的区别在于事件

10、出现数族中不同成员的区别在于事件出现数目的均值目的均值l l不一样。不一样。4.4.2 Poisson4.4.2 Poisson分布分布参数为参数为l l的的Poisson分布变量的概分布变量的概率分布为(率分布为(p(k)表示表示Poisson变量变量等于等于k的概率)的概率)4.4.2 Poisson4.4.2 Poisson分布分布参数为参数为3、6、10的的Poisson分布(只分布(只标出了标出了20之内的部分)之内的部分)这里点间的连线没有意义,仅仅为容易识别这里点间的连线没有意义,仅仅为容易识别而画,因为而画,因为Poisson变量仅取非负整数值变量仅取非负整数值假定有一批假定有

11、一批500个产品,而其中有个产品,而其中有5个个次品。假定该产品的质量检查采取随次品。假定该产品的质量检查采取随机抽取机抽取20个产品进行检查。如果抽到个产品进行检查。如果抽到的的20个产品中含有个产品中含有2个或更多不合格产个或更多不合格产品,则整个品,则整个500个产品将会被退回。个产品将会被退回。这时,人们想知道,该批产品被退回这时,人们想知道,该批产品被退回的概率是多少?的概率是多少?这种概率就满足这种概率就满足超几何分布超几何分布(hypergeometric distribution)。4.4.3 超几何分布超几何分布取连续值的变量,如高度、长度、重取连续值的变量,如高度、长度、重

12、量、时间、距离等等;它们被称为连量、时间、距离等等;它们被称为连续变量续变量(continuous variable)。换言之,一个随机变量如果能够在一换言之,一个随机变量如果能够在一区间(无论这个区间多么小)内取任区间(无论这个区间多么小)内取任何值,则该变量称为在此区间内是连何值,则该变量称为在此区间内是连续的,其分布称为连续型概率分布。续的,其分布称为连续型概率分布。它们的概率分布很难准确地用离散变它们的概率分布很难准确地用离散变量概率的条形图表示。量概率的条形图表示。4.5 连续变量的分布连续变量的分布想象连续变量观测值的直方图;如果其纵想象连续变量观测值的直方图;如果其纵坐标为相对频

13、数,那么所有这些矩形条的坐标为相对频数,那么所有这些矩形条的高度和为高度和为1;完全可以重新设置量纲,使得;完全可以重新设置量纲,使得这些矩形条的面积和为这些矩形条的面积和为1。不断增加观测值及直方图的矩形条的数目,不断增加观测值及直方图的矩形条的数目,直方图就会越来越像一条光滑曲线,其下直方图就会越来越像一条光滑曲线,其下面的面积和为面的面积和为1。该曲线即所谓该曲线即所谓概率密度函数概率密度函数(probability density function,pdf),简称密度函数或密,简称密度函数或密度。下图为这样形成的密度曲线。度。下图为这样形成的密度曲线。4.5 4.5 连续变量的分布连续

14、变量的分布逐渐增加矩形条数目的直方图和一个逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。形状类似的密度曲线。 连续变量落入某个区间的概率就是概率密连续变量落入某个区间的概率就是概率密度函数的曲线在这个区间上所覆盖的面积;度函数的曲线在这个区间上所覆盖的面积;因此,理论上,这个概率就是密度函数在因此,理论上,这个概率就是密度函数在这个区间上的积分。这个区间上的积分。对于连续变量,取某个特定值的概率都是对于连续变量,取某个特定值的概率都是零,而只有变量取值于某个(或若干个)零,而只有变量取值于某个(或若干个)区间的概率才可能大于区间的概率才可能大于0。连续变量密度函数曲线(这里用连续变量密度

15、函数曲线(这里用f表示)下表示)下面覆盖的总面积为面覆盖的总面积为1,即,即4.5 4.5 连续变量的分布连续变量的分布4.5.14.5.1均匀分布均匀分布均匀分布(均匀分布(uniform distribution)是最简)是最简单的连续型分布。它的取值范围是一个单的连续型分布。它的取值范围是一个区间,比如区间,比如(a, b)。均匀分布随机变量均匀分布随机变量X取值在该区间的一个取值在该区间的一个子区间的概率等于该子区间宽度与区间子区间的概率等于该子区间宽度与区间(a, b)宽度宽度b-a之比,例如,假设区间之比,例如,假设区间(a, b)为(为(0,1)区间,那么)区间,那么X落入(落入

16、(0.2, 0.5)的概率为的概率为(0.5-0.2)/(1-0)=0.3。4.5.14.5.1均匀分布均匀分布下图展示了在区间下图展示了在区间(0,1)上的均匀分布的上的均匀分布的密度函数密度函数。近似地服从近似地服从正态分布正态分布(normal distribution,又叫,又叫高斯分布,高斯分布,Gaussian distribution)。的变量很常见,的变量很常见,象测量误差、商品的重量或尺寸、某象测量误差、商品的重量或尺寸、某年龄人群的身高和体重等等。年龄人群的身高和体重等等。在一定条件下,许多不是正态分布的在一定条件下,许多不是正态分布的样本均值在样本量很大时,也可用正样本均

17、值在样本量很大时,也可用正态分布来近似。态分布来近似。4.5.2 4.5.2 正态分布正态分布正态分布的密度曲线是一个对称的钟正态分布的密度曲线是一个对称的钟型曲线(最高点在均值处)。正态分型曲线(最高点在均值处)。正态分布也是一族分布,各种正态分布根据布也是一族分布,各种正态分布根据它们的均值和标准差不同而有区别。它们的均值和标准差不同而有区别。一个正态分布用一个正态分布用N(m m,s s2 2) 表示;其表示;其中中m m为均值,而为均值,而s s2 2为方差(标准差为方差(标准差的平方)的平方) 。也常用。也常用N(m m,s s)来表示,来表示,这里这里s s为标准差。为标准差。4.

18、5.2 4.5.2 正态分布正态分布哈佛大学心理学家Richard J. Herrrnstein和美国企业研究所(American Enterprise Institute) 著名学者Charles Murray的名著钟曲线:美国生活中的智商与阶级结构 智商是天生的,和家庭背景、阶层、甚至教育智商是天生的,和家庭背景、阶层、甚至教育程度都没有关系。程度都没有关系。 高智商和低智商在人口中的分布,长期以来基本是固定的。高智商的人反正都会成功,于是就集中资源对低智商的人进行倾斜性的教育投资,这违反了基本的市场逻辑。 智商和阶层没有关系,有钱的人未必智商高。 4.5.2 4.5.2 正态分布正态分布

19、标准差为标准差为1的正态分布的正态分布N(0, 1)称为称为标准标准正态分布正态分布(standard normal distribution)标准正态分布的密度函数用标准正态分布的密度函数用f f(x)表示。表示。任何具有正态分布任何具有正态分布N(m m,s s2 2)的随机变量的随机变量X都可以用简单的变换(减去其均值都可以用简单的变换(减去其均值m m,再除以标准差再除以标准差s s):):Z=(X-m)/sm)/s,而成为而成为标准正态随机变量。这种变换和标准标准正态随机变量。这种变换和标准得分的意义类似。得分的意义类似。4.5.2 4.5.2 正态分布正态分布两条正态分布的密度曲线

20、。左边是两条正态分布的密度曲线。左边是N(-2,0.52 2)分布,分布,右边是右边是N(0, 1)分布分布 当然,和所有连续变量一样,正态变量落在某个当然,和所有连续变量一样,正态变量落在某个区间的概率就等于在这个区间上,密度曲线下面区间的概率就等于在这个区间上,密度曲线下面的面积。的面积。比如,标准正态分布变量落在区间比如,标准正态分布变量落在区间(0.51,1.57)中的中的概率,就是在标准正态密度曲线下面在概率,就是在标准正态密度曲线下面在0.51和和1.57之间的面积。之间的面积。很容易得到这个面积等于很容易得到这个面积等于0.24682;也就是说,标;也就是说,标准正态变量在区间准

21、正态变量在区间(0.51,1.57)中的概率等于中的概率等于0.24682。如果密度函数为。如果密度函数为f f(x),那么这个面积为,那么这个面积为积分积分4.5.2 4.5.2 正态分布正态分布标准正态变量在区间标准正态变量在区间(0.51, 1.57)中的概率中的概率对对于于连连续续型型随随机机变变量量X,a a下下侧侧分分位位数数(又又称称为为a a分分位位数数,a a-quantile)定义为数定义为数xa a,它满足关系,它满足关系这里的这里的a a又又称为下(左)侧尾概率称为下(左)侧尾概率(lower/left tail probability)4.5.2 4.5.2 正态分布

22、正态分布而而a a上上侧侧分分位位数数(又又称称a a上上分分位位数数,a a-upper quantile)定定义义为为数数xa a,它满足关系它满足关系这里的这里的a a也也称为上(右)侧尾概率称为上(右)侧尾概率(upper/right tail probability)。)。4.5.2 4.5.2 正态分布正态分布通通常常用用za a表表示示标标准准正正态态分分布布的的a a上上侧侧分分位位数数,即即对对于于标标准准正正态分布变量态分布变量Z,有,有P(Zza a)=a a。下下图图表表示示了了0.050.05上上侧侧分分位位数数za a=z0.050.05及及 相相 应应 的的 尾尾

23、 概概 率率(a=0.05a=0.05)。有有些些书书用用符符号号z1 1a a而而不不是是za a;因因此此在在看看参参考考文文献时要注意符号的定义。献时要注意符号的定义。4.5.2 4.5.2 正态分布正态分布N(0,1)分布右侧尾概率分布右侧尾概率P(zza a)=a a的示意的示意图图【例】【例】某厂生产的某种节能灯管的使用寿命服从正态分布,对某批产品测试的结果,平均使用寿命为1050小时,标准差为200小时。试求:(a)使用寿命在500小时以下的灯管占多大比例?(b)使用寿命在8501450小时的灯管占多大比例?(c)以均值为中心,95的灯管的使用寿命在什么范围内?解解 X使用寿命,

24、XN (1050,2002 )(2)(-1)0.977250.158650.8186 95的灯管寿命在均值左右的灯管寿命在均值左右392(即(即6581442)小时)小时1(2.75)10.997020.00298正态变量的样本均值也是正态变量,正态变量的样本均值也是正态变量,能利用减去其均值再除以其能利用减去其均值再除以其(总体总体)标准标准差来得到标准正态变量。差来得到标准正态变量。但用样本标准差来代替未知的总体标但用样本标准差来代替未知的总体标准差时,得到的结果分布就不再是标准差时,得到的结果分布就不再是标准正态分布了。它的密度曲线看上去准正态分布了。它的密度曲线看上去有些象标准正态分布

25、,但是中间瘦一有些象标准正态分布,但是中间瘦一些,而且尾巴长一些。这种分布称为些,而且尾巴长一些。这种分布称为t-分布分布(t-distribution,或或学生分布,学生分布,Students t)。4.5.3 t-4.5.3 t-分布分布不同的样本量通过标准化所产生的不同的样本量通过标准化所产生的t分分布也不同布也不同, 这样就形成一族分布。这样就形成一族分布。t分布族中的成员是以自由度来区分布族中的成员是以自由度来区分的。这里的自由度等于样本量减分的。这里的自由度等于样本量减去去1(如果样本量为(如果样本量为n,刚才定义的,刚才定义的t分布的自由度为分布的自由度为n-1)。)。由于产生由

26、于产生t分布的方式很多,简单分布的方式很多,简单说自由度就是样本量减说自由度就是样本量减1是不准确是不准确的。自由度甚至不一定是整数。的。自由度甚至不一定是整数。4.5.3 t-4.5.3 t-分布分布标准正态分布和标准正态分布和t(1)分布的密度图分布的密度图 通通常常用用ta a表表示示t分分布布相相应应于于右右侧侧尾尾概概率率a a的的t变变量量的的a a上上侧侧分分位位数数,即即对对于于t分分布布变变量量T,有有P(Tta a)=a a。在在突突出出自自由由度度时时,也也用用tn,a a,也有用也有用t1 1a a或或tn,1 1a a表示的。表示的。下下图图表表示示了了自自由由度度为

27、为2的的t(2)分分布布右边的尾概率(右边的尾概率(a=0.05a=0.05)。4.5.3 t-4.5.3 t-分布分布t(2)分布右侧尾概率分布右侧尾概率P(tta a)=a a的示意图的示意图一一个个由由正正态态变变量量导导出出的的分分布布是是c c2-分分布布(chi-square distribution,也也翻翻译译为为卡卡方方分分布布)。该该分分布布在在一一些些检检验验中中会会用到。用到。n个个独独立立正正态态变变量量平平方方和和称称为为有有n个个自自由由度度的的c c2-分分布布,记记为为c c2(n)。c c2-分分布布为为一族分布一族分布, 成员由自由度区分。成员由自由度区分

28、。由由于于c c2-分分布布变变量量为为正正态态变变量量的的平平方方和,它不会取负值。和,它不会取负值。4.5.4 c c2-分布分布自由度为自由度为2、3、5的的c c2-分布密度曲线图分布密度曲线图F-分分布布变变量量为为两两个个c c2-分分布布变变量量(在在除除以以它它们们各各自自自自由由度度之之后后)的比;的比;而而两两个个c c2-分分布布的的自自由由度度则则为为F-分分布布的的自自由由度度,因因此此,F-分分布布有有两两个个自自由由度度;第第一一个个自自由由度度等等于于在在分分子子上上的的c c2-分分布布的的自自由由度度,第第二二个个自自由由度度等等于于在在分分母母的的c c2

29、-分布的自由度。分布的自由度。4.5.5 F-4.5.5 F-分布分布自由度为(自由度为(3,20)和()和(50,20)的)的F-分布密度曲分布密度曲线图线图 判判明明一一个个事事情情的的真真伪伪,需需要要用用事事实实说说话。在统计中事实总是来源于数据。话。在统计中事实总是来源于数据。假假定定某某药药厂厂声声称称该该厂厂生生产产的的某某种种药药品品有有60的的疗疗效效。但但是是当当实实际际调调查查了了100名名使使用用该该药药物物的的患患者者之之后后,发发现现有有40名患者服后有效。名患者服后有效。这这个个数数据据是是否否支支持持药药厂厂的的说说法法呢呢?药药厂厂所所支支持持的的模模型型实实

30、际际上上是是一一个个参参数数为为0.6的的Bernoulli试试验验模模型型。100名名患患者者的的服服药药,实实际际上上等等于于进进行行了了100次次试试验验。这就是二项分布这就是二项分布B(100,0.6)模型。模型。4.64.6使用概率来检验假设使用概率来检验假设由由于于使使用用了了药药厂厂的的0.6成成功功概概率率。这这个个模模型是基于药厂的观点的。型是基于药厂的观点的。可可以以基基于于这这个个模模型型计计算算100名名患患者者中中有有少少于或等于于或等于40名患者治疗有效的概率。名患者治疗有效的概率。通通过过计计算算(或或查查表表,后后面面会会详详细细描描述述)易易得得,在在药药厂厂

31、观观点点正正确确的的假假定定下下,这这个个概概率率为为0.000042。这这说说明明,如如果果药药厂厂正正确确,那那么么只只有有40名名患患者者有有效效这这个个事事实实是是个个小小概概率率事事件件,即即“少少于于或或等等于于40名名患患者者有有效效”的的可能性只有大约十万分之四。可能性只有大约十万分之四。4.64.6使用概率来检验假设使用概率来检验假设这这样样在在药药厂厂的的观观点点和和事事实实之之间间有有了了矛矛盾盾。是是事事实实准准确确还还是是药药厂厂准准确呢?确呢?显显然然人人们们一一般般不不会会认认为为药药厂厂的的说说法法可可以以接接受受。这这样样,就就利利用用小小概概率事件来拒绝了药

32、厂的说法。率事件来拒绝了药厂的说法。 这这种种用用小小概概率率事事件件对对假假定定的的模模型型进进行行判判断断是是后后面面要要介介绍绍的的假假设设检检验的基础。验的基础。4.64.6使用概率来检验假设使用概率来检验假设练习题练习题1、抛掷一枚均匀硬币、抛掷一枚均匀硬币120次,求下列事件发生次,求下列事件发生的概率:的概率:(1)出现正面次数占)出现正面次数占40%到到60%(2)出现正面次数占)出现正面次数占5/8或更多或更多2、有、有500个人,每人抛掷一枚均匀硬币个人,每人抛掷一枚均匀硬币120次,次,预计有多少人能得到预计有多少人能得到(1)出现正面次数占)出现正面次数占40%到到60

33、%(2)出现正面次数占)出现正面次数占5/8或更多或更多3、已知某台机器生产的产品中有、已知某台机器生产的产品中有2%是次是次品,现有品,现有400个这样的工具,求下列事件个这样的工具,求下列事件发生的概率:发生的概率:(1)次品不少于)次品不少于3%(2)次品不多于)次品不多于2%4 4、某此选举结果表明某一位候选人得到、某此选举结果表明某一位候选人得到了了46%46%的选票,从选民中随机抽取一些人的选票,从选民中随机抽取一些人作民意测验,求大多数人支持这位候选人作民意测验,求大多数人支持这位候选人的概率:的概率:(1 1)选取)选取200200个人个人(2 2)选取)选取10001000个人个人部分资料从网络收集整理而来,供大家参考,感谢您的关注!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号