管理统计学概率和分布.ppt

上传人:汽*** 文档编号:568470825 上传时间:2024-07-24 格式:PPT 页数:82 大小:441.50KB
返回 下载 相关 举报
管理统计学概率和分布.ppt_第1页
第1页 / 共82页
管理统计学概率和分布.ppt_第2页
第2页 / 共82页
管理统计学概率和分布.ppt_第3页
第3页 / 共82页
管理统计学概率和分布.ppt_第4页
第4页 / 共82页
管理统计学概率和分布.ppt_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《管理统计学概率和分布.ppt》由会员分享,可在线阅读,更多相关《管理统计学概率和分布.ppt(82页珍藏版)》请在金锄头文库上搜索。

1、统计学从数据到结论第四章 机会的度量:概率和分布概概率率是是0和和1之之间间的的一一个个数数目目,表表示示某某个事件发生的可能性或经常程度。个事件发生的可能性或经常程度。你买彩票中大奖的机会很小你买彩票中大奖的机会很小(接近接近0)但有人中大奖的概率几乎为但有人中大奖的概率几乎为1你被流星击中的概率很小你被流星击中的概率很小(接近接近0)但每分钟有流星击中地球的概率为但每分钟有流星击中地球的概率为1你今天被汽车撞上的概率几乎是你今天被汽车撞上的概率几乎是0但在北京每天发生车祸的概率是但在北京每天发生车祸的概率是1。发发生生概概率率很很小小的的事事件件称称为为小小 概概 率率 事事 件件 (sm

2、all probability event);小小概概率率事事件件不不那那么么可可能能发发生生,但但它它往往往往比比很很可可能能发发生的事件更值得研究。生的事件更值得研究。在在某某种种意意义义上上,新新闻闻媒媒体体的的主主要要注注意意力力大大都都集集中中在在小概率事件上。小概率事件上。4.1 得到概率的几种途径得到概率的几种途径1 利用等可能事件利用等可能事件如如果果一一个个骰骰子子是是公公平平的的 ,那那么么掷掷一一次次骰骰子子会会以以等等可可能能(概概率率1/6,6种种可可能能之之一一)得得到到1至至6点的中的每一个点。点的中的每一个点。抛抛一一个个公公平平的的硬硬币币,则则以以等等可可能

3、能(概概率率1/2)出出现现正正面面或或反面。反面。4.1 得到概率的几种途径得到概率的几种途径再再如如从从52张张牌牌中中随随机机抽抽取取一一张张,那那么么它它是是黑黑桃桃的的概概率率为为抽抽取取黑黑桃桃的的可可能能(k13)和和总总可可能能性性(n52)之比,即之比,即k/n=13/52=1/4;类类似似地地抽抽到到的的牌牌是是J、Q、K、A四四种种(共共有有16种种可可能能)的的概概率率是是16/52=4/13。4.1 得到概率的几种途径得到概率的几种途径其其实实即即使使没没有有学学过过概概率率,读读者者也多半能够算出这些概率。也多半能够算出这些概率。计计算算这这些些概概率率的的基基础础

4、就就是是事事先先知知道道(或或者者假假设设)某某些些事事件件是是等等可可能能的的。这这种种事事件件为为等等可可能能事件事件(equally likely event)。4.1 得到概率的几种途径得到概率的几种途径2 根据长期相对频数根据长期相对频数事件并不一定是等可能的,或者人们事件并不一定是等可能的,或者人们对于其出现的可能性一无所知。对于其出现的可能性一无所知。这时就要靠观察它在大量重复试验中这时就要靠观察它在大量重复试验中出现的频率来估计它出现的概率。出现的频率来估计它出现的概率。它约等于事件出现的频数它约等于事件出现的频数k除以重复除以重复试验的次数试验的次数n,该比值该比值k/n称为

5、称为相对频相对频数(数(relative frequency)或频率或频率。4.1 得到概率的几种途径得到概率的几种途径例如,刮发票的中奖密封时,大例如,刮发票的中奖密封时,大多得到多得到“谢谢谢谢”。如果你刮了。如果你刮了150张发票,只有张发票,只有3张中奖,你会认为,张中奖,你会认为,你的中奖概率大约是你的中奖概率大约是3/150=0.02如果一个学生在如果一个学生在200次上课时,无次上课时,无故旷课故旷课10次,那么其旷课的概率次,那么其旷课的概率可能被认为接近可能被认为接近10/200=0.054.1 得到概率的几种途径得到概率的几种途径试验次数试验次数n越大则该值越接近于想越大则

6、该值越接近于想得到的概率。得到的概率。很多事件无法进行长期重复试验。很多事件无法进行长期重复试验。因此这种通过相对频数获得概率因此这种通过相对频数获得概率的方法也并不是万能的。虽然如的方法也并不是万能的。虽然如此,用相对频数来确定概率的方此,用相对频数来确定概率的方法是很常用的。法是很常用的。你们可以举出无数类似的例子你们可以举出无数类似的例子4.1 得到概率的几种途径得到概率的几种途径3 3 主观概率主观概率一一些些概概率率既既不不能能由由等等可可能能性性来来计计算算,也也不不可可能能从从试试验验得得出出。比比如如,你你今今年年想想学学开开车车概概率率、你你五五年年内内去去欧欧洲洲旅旅游游的

7、概率等的概率等这这种种概概率率称称为为主主观观概概率率(subjective probability)。可可以以说说,主主观观概概率率是是一一次次事事件件的的概概率率。或或为为基基于于所所掌掌握握的的信信息息,某某人人对对某某事事件发生的自信程度。件发生的自信程度。4.2 概率的运算概率的运算 在掷骰子中,得到在掷骰子中,得到6点的概率是点的概率是1/6,而得到而得到5点的概率也是点的概率也是1/6。那么掷一次骰子得到那么掷一次骰子得到5或者或者6的概率是的概率是多少呢?多少呢?在掷在掷10次骰子中有次骰子中有一半或以上的次数一半或以上的次数得到得到5或或6的概率又是多少呢?的概率又是多少呢?

8、读者很快就可能很快会得到答案。但读者很快就可能很快会得到答案。但再复杂一些,也许就不简单了。再复杂一些,也许就不简单了。4.2 概率的运算概率的运算 我们需要了解怎样从简单的情况计算我们需要了解怎样从简单的情况计算稍微复杂情况时的概率。稍微复杂情况时的概率。需要读者回忆一下上中学时学过的集需要读者回忆一下上中学时学过的集合概念,比如两个集合的交和并,互合概念,比如两个集合的交和并,互余(互补)等概念。余(互补)等概念。在概率论中所说的事件(在概率论中所说的事件(event)相相当于集合论中的集合(当于集合论中的集合(set)。)。而概而概率则是事件的某种函数。率则是事件的某种函数。为什么会这么

9、说呢,让我们看掷两个为什么会这么说呢,让我们看掷两个骰子的试验。骰子的试验。4.2 概率的运算概率的运算 如所关心的是如所关心的是两骰子点数之和两骰子点数之和,则,则下表包含了所有下表包含了所有36种可能试验结果种可能试验结果的搭配和相应的点数和。的搭配和相应的点数和。可以看出,如果我们考虑点数和等于可以看出,如果我们考虑点数和等于2的事件,则仅有一种可能的试验结果(两个骰子均的事件,则仅有一种可能的试验结果(两个骰子均为一点);而如果我们考虑点数和等于为一点);而如果我们考虑点数和等于7的事件,则有六种可能的试验结果。两个骰子点的事件,则有六种可能的试验结果。两个骰子点数之和总共有数之和总共

10、有2至至12等等11种可能,即有种可能,即有11种可能的事件,而这种可能的事件,而这11种事件相应于上面所说的种事件相应于上面所说的36种可能的试验结果的一些集合。这些事件和试验结果的集合归纳在下面表中:种可能的试验结果的一些集合。这些事件和试验结果的集合归纳在下面表中:4.2 概率的运算概率的运算: 1.互补事件的概率互补事件的概率如如果果今今天天下下雨雨的的概概率率是是10,则则今天不下雨的概率就是今天不下雨的概率就是90。如如果果你你中中奖奖的的概概率率是是0.0001,那那么么不不 中中 奖奖 的的 概概 率率 就就 是是 10.0001=0.9999。这这种种如如果果一一个个不不出出

11、现现,则则另另一一个个肯肯定定出出现现的的两两个个事事件件称称为为互互补补事事件件(complementary events,或或者者互余事件互余事件或或对立事件对立事件)。)。4.2 概率的运算概率的运算: 1.互补事件的概率互补事件的概率按按照照集集合合的的记记号号,如如果果一一个个事事件件记记为为A,那那么么另另一一个个记记为为AC(称称为为A的的余集或补集)。余集或补集)。显显然然互互补补事事件件的的概概率率之之和和为为1,即即P(A)+P(AC)=1,或者,或者P(AC)1P(A)。在在西西方方赌赌博博时时常常常常爱爱用用优优势势或或赔赔率率(odds)来形容输赢的可能。来形容输赢的

12、可能。它它 是是 互互 补补 事事 件件 概概 率率 之之 比比 , 即即P(A)/P(AC)P(A)/1-P(A)来表示。来表示。4.2 概率的运算概率的运算: 2.概率的加法概率的加法如如果果两两个个事事件件不不可可能能同同时时发发生生,那那么么至至少少其其中中之之一一发发生生的的概概率率为为这两个概率的和。这两个概率的和。比比如如“掷掷一一次次骰骰子子得得到到3或或者者6点点”的的概概率率是是“得得到到3点点”的的概概率率与与“得得到到6点点”的的概概率率之之和和,即即1/6+1/6=1/3。但但是是如如果果两两个个事事件件可可能能同同时时发发生生时这样做就不对了。时这样做就不对了。4.

13、2 概率的运算概率的运算: 2.概率的加法概率的加法假假定定掷掷骰骰子子时时,一一个个事事件件A为为“得得到到偶偶数数点点”(有有3种种可可能能:2、4、6点点),另另一一个个事事件件B为为“得得到到大大于于或或等等于于3点点”(有(有4种可能:种可能:3、4、5、6点);点);这这样样,事事件件A的的概概率率显显然然等等于于3/6=1/2,即即P(A)=1/2。而而事事件件B的的概概率率为为P(B)=4/6=2/3。但但是是,“得得到到大大于于或或等等于于3点点或或者者偶偶数数 点点 ”的的 事事 件件 的的 概概 率率 就就 不不 是是P(A)+P(B)=1/2+2/3=7/6了;了;4.

14、2 概率的运算概率的运算: 2.概率的加法概率的加法这这显显然然多多出出来来了了。概概率率怎怎么么能能够够大大于于1呢?呢?按按照照中中学学时时关关于于集集合合的的记记号号,该该事事件件称称为为A和和B的的并并,记记为为AB。刚刚才才多多出出来来的的部部分分就就是是A和和B的的共共同同部部分分AB(称称为为A和和B的的交交)的的概概率率(这这个概率算了两遍);个概率算了两遍);它它为为“得得到到既既是是偶偶数数,又又大大于于等等于于3”的的部部分分,即即4和和6两两点点。出出现现事事件件4或或者者6的概率为的概率为1/6+1/6=1/3。4.2 概率的运算概率的运算: 2.概率的加法概率的加法

15、于于是是应应该该把把算算重重了了的的概概率率减减去去。这这样样“得得到到大大于于或或等等于于3点点或或者者偶偶数数点点”的的事事件件AB的的概概率率就就是是P(AB)P(A)+P(B)-P(AB)= 1/2+2/3-1/35/6。这这种种P(AB)P(A)+P(B)-P(AB)的的公公式式也也适适用用于于两两个个不不可可能能同同时时发发生生的的事事件件;但但因因为为那那时时P(AB)=0,所所以以只剩下只剩下P(AB)P(A)+P(B)了。了。4.2 概率的运算概率的运算: 2.概率的加法概率的加法这这种种交交等等于于空空集集(AB=F F,这这里里F F表表示示空空集集或或空空事事件件)的的

16、事事件件为为两两个个不不可可能能同同时时发发生生的的事事件件,称称为为互互不不相相 容容 事事 件件 ( mutually exclusive events)。4.2 概率的运算概率的运算: 3.概率的乘法概率的乘法如如果果你你有有一一个个固固定定电电话话和和一一个个手手机机,假假定定固固定定电电话话出出毛毛病病的的概概率率为为0.01,而手机出问题的概率为而手机出问题的概率为0.05,那那么么,两两个个电电话话同同时时出出毛毛病病的的概概率率是多少呢?是多少呢?聪聪 明明 的的 读读 者者 马马 上上 会会 猜猜 出出 , 是是0.010.05=0.0005。但但是是这这种种乘乘法法法法则则

17、,即即P(AB)P(A)P(B),仅仅仅仅在在两两个个事事件件独独立立(independent)时才成立。时才成立。4.2 概率的运算概率的运算: 3.概率的乘法概率的乘法如如果果事事件件不不独独立立则则需需要要引引进进条条件件概概率率(conditional probability)。比比如如三三个个人人抽抽签签,而而只只有有一一个个人人能能够够抽抽中中,因因此此每每个个人人抽抽中中的的机机会会是是1/3。假假定定用用A1、A2和和A3分分别别代代表表这这三三个个人人抽抽中中的的事事件件,那那么么,P(A1)=P(A2)=P(A3)=1/3。4.2 概率的运算概率的运算: 3.概率的乘法概率

18、的乘法但但是是由由于于一一个个人人抽抽中中,其其他他人人就就不不可能抽中,可能抽中,所所以以,这这三三个个事事件件不不独独立立。刚刚才才的的乘法规则不成立;乘法规则不成立;这这 时时 , P(A1A3) P(A1A2)P(A2A3)0;如如错错误误照照搬搬乘乘法法规规则则会得到错误的会得到错误的(1/3)2=1/9。4.2 概率的运算概率的运算: 3.概率的乘法概率的乘法但但是是可可以以计计算算条条件件概概率率,比比如如第第一一个个人人抽抽到到(事事件件A1),则则在在这这个个条条件件下下其其他他两两个个人人抽抽到到的的概概率率都都为为0;记为记为P(A2|A1)=P(A3|A1)=0。如如第

19、第一一个个人人没没有有抽抽到到(事事件件A1C),那那么么其其他他两两人人抽抽到到的的概概率率均均为为1/2,记为记为P(A2|A1C)=P(A3|A1C )=1/2。4.2 概率的运算概率的运算: 3.概率的乘法概率的乘法一一般般地地,在在一一个个事事件件B已已经经发发生生的的情情况况下下,事事件件A发发生生的的条条件件概概率率定定义义为为(贝叶斯公式)(贝叶斯公式)分布分布随随机机变变量量取取一一切切可可能能值值或或范范围围的的概概率率或或概概率率的的规规律律称称为为概概率率分分布布(probability distribution,简简称分布称分布)。概概率率分分布布可可以以用用各各种种

20、图图或或表表来来表表示;一些可以用公式来表示。示;一些可以用公式来表示。概概率率分分布布是是关关于于总总体体的的概概念念。有有了概率分布就等于知道了总体。了概率分布就等于知道了总体。分布分布前前面面介介绍绍过过的的样样本本均均值值、样样本本标标准准差差和和样样本本方方差差等等样样本本特特征征的的概概念念是是相应的总体特征的反映。相应的总体特征的反映。我我们们也也有有描描述述变变量量“位位置置”的的总总体体均均值值、总总体体中中位位数数、总总体体百百分分位位数数以以及及描描述述变变量量分分散散(集集中中)程程度度的的总总体体标标准准差差和和总总体体方方差差等等概概念念。具具体公式见本章后面小结体

21、公式见本章后面小结4.3 离散变量的分布离散变量的分布离离散散变变量量只只取取离离散散的的值值,比比如如骰骰子子的的点点数数、网网站站点点击击数数、顾顾客客人人数数等等等等。每每一一种种取取值值都都有有某某种种概概率率。各各种种取取值值点点的的概概率总和应该是率总和应该是1。当然离散变量不仅仅限于取非负整数值。当然离散变量不仅仅限于取非负整数值。一一般般来来说说,某某离离散散随随机机变变量量的的每每一一个个可可能能取取值值xi都都相相应应于于取取该该值值的的概概率率p(xi),这些概率应该满足关系这些概率应该满足关系4.3.1 二项分布二项分布最最简简单单的的离离散散分分布布应应该该是是基基于

22、于可可重重复复的的有有两两结结果果(比比如如成成功功和和失失败败)的的相相同同独独立立试试验验(每每次次试试验验成成功功概概率相同)的分布,例如抛硬币。率相同)的分布,例如抛硬币。比比如如用用p代代表表得得到到硬硬币币正正面面的的概概率率,那么那么1p则是得到反面的概率。则是得到反面的概率。如如果果知知道道p,这这个个抛抛硬硬币币的的试试验验的的概概率分布也就都知道了。率分布也就都知道了。4.3.1 二项分布二项分布这这种种有有两两个个可可能能结结果果的的试试验验有有两两个个特点:特点:一是各次试验互相独立,一是各次试验互相独立,二二是是每每次次试试验验得得到到一一种种结结果果的的概概率率不不

23、变变(这这里里是是得得到到正正面面的的概概率率总总是是p)。)。类类似似于于抛抛硬硬币币的的仅仅有有两两种种结结果果的的重重复复独独立立试试验验被被称称为为Bernoulli试试验验(Bernoulli trials)。)。4.3.1 二项分布二项分布下面试验可看成为下面试验可看成为Bernoulli试验:试验:每每一一个个进进入入某某商商场场的的顾顾客客是是否否购购买买某商品某商品每个被调查者是否认可某种产品每个被调查者是否认可某种产品每一个新出婴儿的性别。每一个新出婴儿的性别。根根据据这这种种简简单单试试验验的的分分布布,可可以以得得到到基基于于这这个个试试验验的的更更加加复复杂杂事事件件

24、的的概率。概率。4.3.1 二项分布二项分布为为了了方方便便,人人们们通通常常称称Bernoulli试试验验的的两两种种结结果果为为“成成功功”和和“失失败败”。和和Bernoulli试试验验相相关关的的最最常常见见的的问问题题是是:如如果果进进行行n次次Bernoulli试试验验,每每次次成成功功的的概概率率为为p,那那么么成成功功k次次的概率是多少?的概率是多少?这这个个概概率率的的分分布布就就是是所所谓谓的的二二项项分分布布(binomial distribution)。4.3.1 二项分布二项分布这这个个分分布布有有两两个个参参数数,一一个个是是试试验验次次数数n,另另一一个个是是每每

25、次次试试验验成成功功的的概概率率p。基基于于此此,二二项项分分布布用用符符号号B(n,p)或或Bin(n,p)表示。表示。由由于于n和和p可可以以根根据据实实际际情情况况取取各各种种不不同同的的值值,因因此此二二项项分分布布是是一一族族分分布,布,族内的分布以这两个参数来区分。族内的分布以这两个参数来区分。4.3.1 二项分布二项分布二二项项分分布布的的概概率率通通常常用用二二项项分分布布表表来来查查出出。但但一一般般统统计计软软件件可可以以很很容容易得到这个概率。易得到这个概率。在在目目前前统统计计软软件件发发达达的的情情况况下下,涉涉及及的的二二项项分分布布一一般般都都自自动动处处理理了了

26、;在在处处理理实实际际问问题题中中很很少少会会遇遇到到直直接接计算二项分布概率的情况。计算二项分布概率的情况。4.3.1 二项分布二项分布但但这这里里还还是是给给出出其其一一般般公公式式。下下面面p(k)代代表表在在n次次Bernoulli试试验验中中成成功功的的次次数数的的概概率率,p为为每每次次试试验验成成功功的的概率。有概率。有这里为二项式系数,或记为图图4.1 九个二项分布九个二项分布B(5,p) (p0.1到到0.9)的概率分布图的概率分布图4.3.2 多项分布多项分布和和二二项项分分布布最最类类似似的的是是多多项项分分布布(multinomial distribution)。二二项

27、项分分布布的的每每次次试试验验中中只只有有两两种种可可能能的的结结果果,而而多多项项分分布布则则在在每每次次试试验中有多种可能的结果。验中有多种可能的结果。4.3.2 多项分布多项分布比比如如在在调调查查顾顾客客对对5个个品品牌牌的的饮饮料料的的选选择择中中,每每种种品品牌牌都都会会以以一一定定的的概概率率中中选选,假假定定这这些些概概率率为为p1,p2,p3,p4,p5。每每次次试试验验的的结结果果只只可可能能有有一一个个,因因此此这这些些概率的和为概率的和为1,即,即p1+p2+p3+p4+p5=1。在在多多项项分分布布问问题题中中(用用上上面面5个个品品牌牌的的例例子子说说明明),所所关

28、关心心的的是是在在n次次试试验验中中(这这里里是是调调查查),选选择择5个个品品牌牌的的人人数数分分别别为为m1, m2, m3, m4, m5的的 概概 率率 。 自自 然然m1+m2+m3+m4+m5n。4.3.2 多项分布多项分布类类似似于于二二项项分分布布,多多项项分分布布的的符符号号可可以以为为M(n;p1,p2,p3,p4,p5),也有用也有用“MN”或或“Multi”来表示;来表示;4.3.3 Poisson分布分布另另一一个个常常用用离离散散分分布布是是Poisson分分布布(翻翻译译成成“泊泊松松分分布布”或或“普普阿阿松松分布分布”)。)。它它可可以以认认为为是是衡衡量量某

29、某种种事事件件在在一一定定期间出现的数目的概率。期间出现的数目的概率。比比如如说说在在一一定定时时间间内内顾顾客客的的人人数数、打打入入电电话话总总机机电电话话的的个个数数、放放射射性性物物质质放放射射出出来来并并到到达达某某区区域域的的粒粒子子数等等。数等等。4.3.3 Poisson分布分布在在不不同同条条件件下下,同同样样事事件件在在单单位位时时间中出现同等数目的概率不尽相同。间中出现同等数目的概率不尽相同。比比如如中中午午和和晚晚上上某某商商店店在在10分分钟钟内内出现出现5个顾客的概率就不一定相同。个顾客的概率就不一定相同。因因此此,Poisson分分布布也也是是一一个个分分布布族族

30、。族族中中不不同同成成员员的的区区别别在在于于事事件件出出现现数目的均值数目的均值l l不一样。不一样。4.3.3 Poisson分布分布参数为参数为l l的的Poisson分布变量的概率分分布变量的概率分布为(布为(p(k)表示表示Poisson变量等于变量等于k的的概率)概率)参数为参数为3、6、10的的Poisson分布分布(只标出了(只标出了20之内的部分)之内的部分)这里点间的连线没有意义,仅仅为读者容易这里点间的连线没有意义,仅仅为读者容易识别而画,因为识别而画,因为Poisson变量仅取非负整数值变量仅取非负整数值4.3.4 超几何分布超几何分布假假定定有有一一批批500个个产产

31、品品,而而其其中中有有5个个次次品品。假假定定该该产产品品的的质质量量检检查查采采取取随随机机抽抽取取20个个产产品品进进行行检检查查。如如果果抽抽到到的的20个个产产品品中中含含有有2个个或或更更多多不不合合格格产产品品,则则整整个个500个个产产品品将将会会被退回。被退回。这这时时,人人们们想想知知道道,该该批批产产品品被被退退回回的的概概率率是是多多少少?这这种种概概率率就就满满足足超超 几几 何何 分分 布布 ( hypergeometric distribution)。4.3.4 超几何分布超几何分布这这是是一一种种所所谓谓的的“不不放放回回抽抽样样”,也也就就是是说说,一一次次抽抽

32、取取若若干干物物品品,每每检查一个之后并不放回;检查一个之后并不放回;超超几几何何分分布布族族的的成成员员被被三三个个参参数数决决定定,这这里里相相应应于于产产品品总总个个数数n,其其中中不不合合格格产产品品数数目目m,不不放放回回抽抽样样的的数数目目t;而而样样本本中中有有x个个不不合合格格产产品品的的概概率为率为4.4 连续变量的分布连续变量的分布取取连连续续值值的的变变量量,如如高高度度、长长度度、重重量量、时时间间、距距离离等等等等;它它们们被被称称为连续变量为连续变量(continuous variable)。换换言言之之,一一个个随随机机变变量量如如果果能能够够在在一一区区间间(无

33、无论论这这个个区区间间多多么么小小)内内取取任任何何值值,则则该该变变量量称称为为在在此此区区间间内内是是连连续续的的,其其分分布布称称为为连连续续型型概概率分布。率分布。它它们们的的概概率率分分布布很很难难准准确确地地用用离离散散变量概率的条形图表示。变量概率的条形图表示。4.4 连续变量的分布连续变量的分布想想象象连连续续变变量量观观测测值值的的直直方方图图;如如果果其其纵纵坐坐标标为为相相对对频频数数,那那么么所所有有这这些些矩矩形形条条的的高高度度和和为为1;完完全全可可以以重重新新设设置置量量纲纲,使得这些矩形条的面积和为使得这些矩形条的面积和为1。不不断断增增加加观观测测值值及及直

34、直方方图图的的矩矩形形条条的的数数目目,直直方方图图就就会会越越来来越越像像一一条条光光滑滑曲曲线线,其下面的面积和为其下面的面积和为1。该该 曲曲 线线 即即 所所 谓谓 概概 率率 密密 度度 函函 数数(probability density function,pdf),简简称称密密度度函函数数或或密密度度。下下图图为为这这样样形形成成的密度曲线。的密度曲线。逐渐增加矩形条数目的直方图和一个逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。形状类似的密度曲线。 4.4 连续变量的分布连续变量的分布连连续续变变量量落落入入某某个个区区间间的的概概率率就就是是概概率率密密度度函函数数的的曲

35、曲线线在在这这个个区区间间上上所所覆覆盖盖的的面面积积;因因此此,理理论论上上,这这个个概概率率就就是是密密度函数在这个区间上的积分。度函数在这个区间上的积分。对对于于连连续续变变量量,取取某某个个特特定定值值的的概概率率都都是是零零,而而只只有有变变量量取取值值于于某某个个(或或若若干干个)区间的概率才可能大于个)区间的概率才可能大于0。连连续续变变量量密密度度函函数数曲曲线线(这这里里用用f表表示示)下面覆盖的总面积为下面覆盖的总面积为1,即,即4.4.1 正态分布正态分布在在北北京京市市场场上上的的精精制制盐盐很很多多是是一一公公斤斤袋袋装装,上上面面标标有有“净净含含量量1kg”的的字

36、字样样。但但当当你你用用稍稍微微精精确确一一些些的的天天平平称称那那些些袋袋装装盐盐的的重重量量时时,会会发发现现有有些些可可能能会会重重些些,有有些些可可能能会会轻轻些些;但但都都是是在在1kg左左右右。多多数数离离1kg不不远远,离离1kg越越近近就就越越可可能能出出现现,离离1kg越远就越不可能。越远就越不可能。一一般般认认为为这这种种重重量量分分布布近近似似地地服服从从最最常常用用的的正正态态分分布布(normal distribution,又又叫叫高斯分布,高斯分布,Gaussian distribution)。4.4.1 正态分布正态分布近近似似地地服服从从正正态态分分布布的的变变

37、量量很很常常见见,象象测测量量误误差差、商商品品的的重重量量或或尺尺寸寸、某某年年龄龄人人群群的的身身高高和和体体重重等等。等等。在在一一定定条条件件下下,许许多多不不是是正正态态分分布布的的样样本本均均值值在在样样本本量量很很大大时时,也可用正态分布来近似。也可用正态分布来近似。4.4.1 正态分布正态分布正正态态分分布布的的密密度度曲曲线线是是一一个个对对称称的的钟钟型型曲曲线线(最最高高点点在在均均值值处处)。正正态态分分布布也也是是一一族族分分布布,各各种种正正态态分分布布根根据据它它们们的的均均值值和和标标准准差差不不同同而而有区别。有区别。一一个个正正态态分分布布用用N(m m,s

38、 s)表表示示;其其中中m m为为均均值值,而而s s为为标标准准差差。也也常常用用N(m m,s s2 2)来来表表示示,这这里里s s2 2为为方方差差(标标准差的平方)。准差的平方)。4.4.1 正态分布正态分布标标准准差差为为1的的正正态态分分布布N(0, 1)称称为为标标准准正正态分布态分布(standard normal distribution)。标准正态分布的密度函数用标准正态分布的密度函数用f f(x)表示。表示。任任何何具具有有正正态态分分布布N(m m,s s)的的随随机机变变量量X都都可可以以用用简简单单的的变变换换(减减去去其其均均值值m m,再再除除以以标标准准差差

39、s s):Z=(X-m)/sm)/s,而而成成为为标标准准正正态态随随机机变变量量。这这种种变变换换和和标标准准得得分分的意义类似。的意义类似。两条正态分布的密度曲线。左边是两条正态分布的密度曲线。左边是N(-2,0.5)分布,右边是分布,右边是N(0, 1)分布分布 4.4.1 正态分布正态分布当当然然,和和所所有有连连续续变变量量一一样样,正正态态变变量量落落在在某某个个区区间间的的概概率率就就等等于于在在这这个个区区间间上上,密密度度曲线下面的面积。曲线下面的面积。比比 如如 , 标标 准准 正正 态态 分分 布布 变变 量量 落落 在在 区区 间间(0.51,1.57)中中的的概概率率

40、,就就是是在在标标准准正正态态密密度度曲线下面在曲线下面在0.51和和1.57之间的面积。之间的面积。很很容容易易得得到到这这个个面面积积等等于于0.24682;也也就就是是说说,标标准准正正态态变变量量在在区区间间(0.51,1.57)中中的的概概率率等等于于0.24682。如如果果密密度度函函数数为为f f(x),那那么么这这个个面积为积分面积为积分标准正态变量在区间标准正态变量在区间(0.51, 1.57)中中的概率的概率4.4.1 正态分布正态分布我我们们有有必必要要引引进进总总体体的的下下侧侧分分位位数数、上上侧分位数以及相应的尾概率的概念。侧分位数以及相应的尾概率的概念。对对于于连

41、连续续型型随随机机变变量量X,a a下下侧侧分分位位数数(又又称称为为a a分分位位数数,a a-quantile)定定义义为为数数xa a,它满足关系,它满足关系这里的这里的a a又又称为下(左)侧尾概率称为下(左)侧尾概率(lower/left tail probability)4.4.1 正态分布正态分布而而a a上上侧侧分分位位数数(又又称称a a上上分分位位数数,a a-upper quantile)定定义义为为数数xa a,它它满足关系满足关系这里的这里的a a也也称为上(右)侧尾概率称为上(右)侧尾概率(upper/right tail probability)。)。4.4.1

42、正态分布正态分布对对于于非非连连续续型型的的分分布布,分分位位数数的的定义稍微复杂一些;定义稍微复杂一些;显显然然,对对于于连连续续分分布布,a a上上侧侧分分位位数数等等于于(1a)a)下下侧侧分分位位数数,而而(1a)a)下下侧侧分分位位数数等等于于a a上上侧侧分分位数。位数。4.4.1 正态分布正态分布通通常常用用za a表表示示标标准准正正态态分分布布的的a a上上侧侧分分位位数数,即即对对于于标标准准正正态态分分布变量布变量Z,有,有P(Zza a)=a a。图图 4.64.6表表 示示 了了 0.050.05上上 侧侧 分分 位位 数数za a=z0.050.05及及 相相 应应

43、 的的 尾尾 概概 率率(a=0.05a=0.05)。有有些些书书用用符符号号z1 1a a而而不不是是za a;因因此此在在看看参参考考文文献献时时要注意符号的定义。要注意符号的定义。N(0,1)分布右侧尾概率分布右侧尾概率P(zza a)=a a的示意的示意图图4.4.2 c c2-分布分布一一个个由由正正态态变变量量导导出出的的分分布布是是c c2-分分布布(chi-square distribution,也也翻翻译译为为卡卡方方分分布布)。该该分分布布在在一一些些检检验验中中会用到。会用到。n个个独独立立正正态态变变量量平平方方和和称称为为有有n个个自自由由度度的的c c2-分分布布,

44、记记为为c c2(n)。c c2-分分布为一族分布布为一族分布, 成员由自由度区分。成员由自由度区分。由由于于c c2-分分布布变变量量为为正正态态变变量量的的平平方方和,它不会取负值。和,它不会取负值。自由度为自由度为2、3、5的的c c2-分布密度曲线图分布密度曲线图4.4.3 t-分布分布正正态态变变量量的的样样本本均均值值也也是是正正态态变变量量,能能利利用用减减去去其其均均值值再再除除以以其其(总总体体)标准差来得到标准正态变量。标准差来得到标准正态变量。但但用用样样本本标标准准差差来来代代替替未未知知的的总总体体标标准准差差时时,得得到到的的结结果果分分布布就就不不再再是是标标准准

45、正正态态分分布布了了。它它的的密密度度曲曲线线看看上上去去有有些些象象标标准准正正态态分分布布,但但是是中中间间瘦瘦一一些些,而而且且尾尾巴巴长长一一些些。这这种种分分布布称称为为t-分分布布(t-distribution,或或学生分布,学生分布,Students t)。4.4.3 t-分布分布不不同同的的样样本本量量通通过过标标准准化化所所产产生生的的t分布也不同分布也不同, 这样就形成一族分布。这样就形成一族分布。t分分布布族族中中的的成成员员是是以以自自由由度度来来区区分分的的。这这里里的的自自由由度度等等于于样样本本量量减减去去1(如如果果样样本本量量为为n,刚刚才才定定义义的的t分分

46、布的自由度为布的自由度为n-1)。)。由由于于产产生生t分分布布的的方方式式很很多多,简简单单说说自自由由度度就就是是样样本本量量减减1是是不不准准确确的的。自由度甚至不一定是整数。自由度甚至不一定是整数。标准正态分布和标准正态分布和t(1)分布的密度图分布的密度图 4.4.3 t-分布分布通通常常用用ta a表表示示t分分布布相相应应于于右右侧侧尾尾概概率率a a的的t变变量量的的a a上上侧侧分分位位数数,即即 对对 于于 t分分 布布 变变 量量 T, 有有P(Tta a)=a a。在在突突出出自自由由度度时时,也也用用tn,a a,也也有有用用t1 1a a或或tn,1 1a a表表示

47、的。示的。图图4.94.9表表示示了了自自由由度度为为2的的t(2)分分布布右边的尾概率(右边的尾概率(a=0.05a=0.05)。t(2)分布右侧尾概率分布右侧尾概率P(tta a)=a a的示意图的示意图4.4.4 F-分布分布F-分分布布变变量量为为两两个个c c2-分分布布变变量量(在在除除以以它它们们各各自自自自由由度度之之后后)的比;的比;而而两两个个c c2-分分布布的的自自由由度度则则为为F-分分布布的的自自由由度度,因因此此,F-分分布布有有两两个个自自由由度度;第第一一个个自自由由度度等等于于在在分分子子上上的的c c2-分分布布的的自自由由度度,第第二二个个自自由由度度等

48、等于于在在分分母母的的c c2-分分布的自由度。布的自由度。自由度为(自由度为(3,20)和()和(50,20)的的F-分布密度曲线图分布密度曲线图 4.4.5 累积分布函数累积分布函数在在前前面面离离散散分分布布的的情情况况可可以以用用p(x)表表示示该该变变量量取取值值x的的概概率率,如如果果用用大大写写英英文文字字母母X表表示示相相应应的的随随机机变变量,那么概率量,那么概率P(X=x)= p(x)。而。而4.4.5 累积分布函数累积分布函数在在连连续续分分布布的的情情况况,可可以以用用f(x)表表示示密密度度函函数数,则则概概率率(注注意意在在连连续续分分布布中中,某某单单独独点点的的

49、概概率率为为0,因因此此下下式式中中的的不不等等式式中中的的等等式可以去掉)式可以去掉)4.4.5 累积分布函数累积分布函数为为了了计计算算概概率率,只只知知道道密密度度函函数数对对于于查查表表或或应应用用软软件件来来得得到到已已知知分分布布的的概概率率是是不不方方便便的的,最最好好能能够够知知道道随随机机变变量量小小于于或或等等于于某某值值的的概概率率。在在上上面面公公式式中中,如如果果知知道道了了下下面面的的值值就就可可以以计计算算所所需需的的概概率率了了(统统计计书书中中的的多多数数分分布布表表的的概概率率是是以以下下面面累积分布函数累积分布函数的形式给出的):的形式给出的):4.4.5

50、 累积分布函数累积分布函数随随机机变变量量小小于于或或等等于于某某个个数数值值的的概概率率就就称称为为累累积积分分布布函函数数(cumulative distribution function,简称,简称cdf)或或分布函数分布函数。累累积积分分布布函函数数概概念念的的引引进进,对对于于查查表表或或使使用用软软件件得得到到概概率率(根根据据上上面面两两个个公公式式)是是很很方方便便的的。多多数数概概率率分分布布表表都都是是以以累累积积分分布函数的形式出现的。布函数的形式出现的。在在后后面面介介绍绍软软件件时时,还还要要举举例例说说明明如如何何利利用累积分布函数。用累积分布函数。4.5 抽样分布

51、、中心极限定理抽样分布、中心极限定理我们希望利用样本,特别是通过作为样本我们希望利用样本,特别是通过作为样本函数的样本统计量来了解总体,来对总体函数的样本统计量来了解总体,来对总体参数进行推断。这些样本统计量包括前面参数进行推断。这些样本统计量包括前面提到过的样本均值、样本中位数、样本标提到过的样本均值、样本中位数、样本标准差以及由它们组成的函数。这些样本统准差以及由它们组成的函数。这些样本统计量对于不同的样本(但有相同的样本量)计量对于不同的样本(但有相同的样本量)会取不同的值;也就是说,相同样本量的会取不同的值;也就是说,相同样本量的样本统计量作为随机样本的函数也是随机样本统计量作为随机样

52、本的函数也是随机的的 ,也有自己的分布。这些分布就称为抽,也有自己的分布。这些分布就称为抽样分布(样分布(sampling distribution).X1X2X3X4X5456424.2136633.8114262.8265123.2622333.2412152.6334143.0514513.0164564.8每次掷每次掷5次公平骰子的试验(样本量次公平骰子的试验(样本量n=5),来看样本均值的变),来看样本均值的变化。共化。共15个样本,本表省略。个样本,本表省略。这些样本均值都和真正的总体均值这些样本均值都和真正的总体均值(1+2+3+4+5+6)/6=3.5有些差别有些差别这这15个

53、样本均值的平均为个样本均值的平均为3.453333,比那一个都接近总体均值。,比那一个都接近总体均值。样本均值作为随机变量有如下的性质:1、样本均值 的抽样分布的总体均值等于 。2、样本均值 的抽样分布的总体标准差等于 ;样本量越大, 的集中程度越大。3、即使 的分布不是正态,那么在很一般的条件下,当样本量增加时, 的分布趋近于正态分布 。这就是所谓的中心极限定理。4.6 用小概率事件进行判断用小概率事件进行判断判判明明一一个个事事情情的的真真伪伪,需需要要用用事事实实说说话话。在统计中事实总是来源于数据。在统计中事实总是来源于数据。假假定定某某药药厂厂声声称称该该厂厂生生产产的的某某种种药药

54、品品有有60的的疗疗效效。但但是是当当实实际际调调查查了了100名名使使用用该该药药物物的的患患者者之之后后,发发现现有有40名名患患者者服后有效。服后有效。这这个个数数据据是是否否支支持持药药厂厂的的说说法法呢呢?药药厂厂所所支支持持的的模模型型实实际际上上是是一一个个参参数数为为0.6的的Bernoulli试试验验模模型型。100名名患患者者的的服服药药,实实际际上上等等于于进进行行了了100次次试试验验。这这就就是是二二项分布项分布B(100,0.6)模型。模型。4.6 用小概率事件进行判断用小概率事件进行判断由由于于使使用用了了药药厂厂的的0.6成成功功概概率率。这这个个模模型是基于药

55、厂的观点的。型是基于药厂的观点的。可可以以基基于于这这个个模模型型计计算算100名名患患者者中中有有少少于或等于于或等于40名患者治疗有效的概率。名患者治疗有效的概率。通通过过计计算算(或或查查表表,后后面面会会详详细细描描述述)易易得得,在在药药厂厂观观点点正正确确的的假假定定下下,这这个个概概率率为为0.000042。这这说说明明,如如果果药药厂厂正正确确,那那么么只只有有40名名患患者者有有效效这这个个事事实实是是个个小小概概率率事事件件,即即“少少于于或或等等于于40名名患患者有效者有效”的可能性只有大约十万分之四。的可能性只有大约十万分之四。4.6 用小概率事件进行判断用小概率事件进行判断这这样样在在药药厂厂的的观观点点和和事事实实之之间间有有了了矛矛盾盾。是是事事实实准准确确还还是是药药厂厂准准确呢?确呢?显显然然人人们们一一般般不不会会认认为为药药厂厂的的说说法法可可以以接接受受。这这样样,就就利利用用小小概概率事件来拒绝了药厂的说法。率事件来拒绝了药厂的说法。 这这种种用用小小概概率率事事件件对对假假定定的的模模型型进进行行判判断断是是后后面面要要介介绍绍的的假假设设检检验的基础。验的基础。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号