吴喜之-统计学基本概念和方法-概率和分布

上传人:宝路 文档编号:47963088 上传时间:2018-07-07 格式:PPT 页数:54 大小:980.16KB
返回 下载 相关 举报
吴喜之-统计学基本概念和方法-概率和分布_第1页
第1页 / 共54页
吴喜之-统计学基本概念和方法-概率和分布_第2页
第2页 / 共54页
吴喜之-统计学基本概念和方法-概率和分布_第3页
第3页 / 共54页
吴喜之-统计学基本概念和方法-概率和分布_第4页
第4页 / 共54页
吴喜之-统计学基本概念和方法-概率和分布_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《吴喜之-统计学基本概念和方法-概率和分布》由会员分享,可在线阅读,更多相关《吴喜之-统计学基本概念和方法-概率和分布(54页珍藏版)》请在金锄头文库上搜索。

1、第四章 概率和分布4.1 得到概率的几种途径1利用等可能事件 如果一个骰子是公平的 ,那么掷一次骰子会以 等可能(概率1/6,6种可能之一)得到1至6点的中 的每一个点 抛一个公平的硬币,则以等可能(概率1/2)出现 正面或反面4.1 得到概率的几种途径2根据长期相对频数 事件并不一定是等可能的,或者人们对于其出现的可能 性一无所知 这时就要靠观察它在大量重复试验中出现的频率来估计 它出现的概率。 它约等于事件出现的频数k除以重复试验的次数n,该比 值k/n称为相对频数(relative frequency)或频率。4.1 得到概率的几种途径3主观概率 一些概率既不能由等可能性来计算,也不可能

2、从 试验得出。比如,你今年想学开车概率、你五年 内去欧洲旅游的概率等 这种概率称为主观概率(subjective probability) 可以说,主观概率是一次事件的概率。或为基于 所掌握的信息,某人对某事件发生的自信程度4.2 概率的运算 4.2 概率的运算 如所关心的是两骰子点数之和,则下表包含了 所有36种可能试验结果的搭配和相应的点数和 。可以看出,如果我们考虑点数和等于2的事件,则仅有一种可能的试验结果(两个骰子均 为一点);而如果我们考虑点数和等于7的事件,则有六种可能的试验结果。两个骰子点 数之和总共有2至12等11种可能,即有11种可能的事件,而这11种事件相应于上面所说的

3、36种可能的试验结果的一些集合。这些事件和试验结果的集合归纳在下面表中:4.2 概率的运算:概率的加法 P(AB)P(A)+P(B)-P(AB)4.2 概率的运算: 2.概率的加法例题 假定掷骰子时,一个事件A为“得到偶数点”( 有3种可能:2、4、6点),另一个事件B为“得 到大于或等于3点”(有4种可能:3、4、5、6点 ) 那么得到大于或等于3点或者偶数点事件概率是 多少?4.2 概率的运算: 2.概率的加法若AB=F则称为互不相容事件(mutually exclusive events)。比如“掷一次骰子得到3或者6点”的概率是“得到 3点”的概率与“得到6点”的概率之和,即 1/6+

4、1/6=1/3。如果两个事件不可能同时发生,那么至少其中 之一发生的概率为这两个概率的和。4.2 概率的运算: 3.概率的乘法P(AB)P(A)P(B) 仅仅在两个事件独立(independent)时才成立若事件不独立则需要引进条件概率(conditional probability)4.2 概率的运算: 3.概率的乘法一般地,在一个事件B已经发生的情况下,事 件A发生的条件概率定义为(贝叶斯公式)概率分布 随机变量取一切可能值或范围的概率或概率的 规律称为概率分布(probability distribution,简称分布)。 概率分布是关于总体的概念。有了概率分布就 等于知道了总体。4.3

5、 离散变量的分布离散变量只取离散的值,比如骰子的点数、网 站点击数、顾客人数等等。每一种取值都有某 种概率。各种取值点的概率总和应该是1。 一般来说,某离散随机变量的每一个可能取值 xi都相应于取该值的概率p(xi),这些概率应该 满足关系4.3.1 二项分布二项分布的试验有两个特点: 一是各次试验互相独立, 二是每次试验得到一种结果的概率不变(这里 是得到正面的概率总是p)。 类似于抛硬币的仅有两种结果的重复独立试验 被称为Bernoulli试验(Bernoulli trials)。4.3.1 二项分布和Bernoulli试验相关的最常见的问题是:如果 进行n次Bernoulli试验,每次成

6、功的概率为p, 那么成功k次的概率是多少?这里图4.1 九个二项分布B(5,p) (p0.1到0.9)的概率分布图4.3.3 Poisson分布泊松分布可以认为是衡量某种事件在一定期间 出现的数目的概率。 在一定时间内顾客的人数、打入电话总机电话 的个数、放射性物质放射出来并到达某区域的 粒子数等等。4.3.3 Poisson分布参数为l的Poisson分布变量的概率分 布为(p(k)表示Poisson变量等于k的概 率)参数为3、6、10的Poisson分布4.3.4 超几何分布假定有一批500个产品,而其中有5个次品。假 定该产品的质量检查采取随机抽取20个产品进 行检查。如果抽到的20个

7、产品中含有2个或更 多不合格产品,则整个500个产品将会被退回 。 这时,人们想知道,该批产品被退回的概率是 多少?这种概率就满足超几何分布( hypergeometric distribution)。4.3.4 超几何分布这是 “不放回抽样” 超几何分布族的成员被三个参数决定,这里相 应于产品总个数n,其中不合格产品数目m,不 放回抽样的数目t;而样本中有x个不合格产品 的概率为离散型随机变量的数学期望和方差离散型随机变量的数学期望 (expected value)1.离散型随机变量X的所有可能取值xi与其取相对 应的概率pi乘积之和 2.描述离散型随机变量取值的集中程度 3.记为 或E(X

8、)离散型随机变量的方差 (variance)1.随机变量X的每一个取值与期望值的离差平方 和的数学期望,记为 2 或D(X) 2.描述离散型随机变量取值的分散程度3.方差的平方根称为标准差,记为 或离散型数学期望和方差【例】一家电脑配件供应商声称,他所提供的配 件100个中拥有次品的个数及概率如下表 次品数X = xi0123 概率P(X=xi)pi0.750.120.080.05每100个配件中的次品数及概率分布 求该供应商次品数的数学期望和标准差 4.4 连续变量的分布取连续值的变量,如高度、长度、重量、时间、距离 等等;它们被称为连续变量(continuous variable)。 换言

9、之,一个随机变量如果能够在一区间(无论这个 区间多么小)内取任何值,则该变量称为在此区间内 是连续的,其分布称为连续型概率分布。 它们的概率分布很难准确地用离散变量概率的条形图 表示。连续变量的分布4.4 连续变量的分布连续变量落入某个区间的概率就是概率密度函数的曲 线在这个区间上所覆盖的面积;因此,理论上,这个 概率就是密度函数在这个区间上的积分。 对于连续变量,取某个特定值的概率都是零,而只有 变量取值于某个(或若干个)区间的概率才可能大于 0。 连续变量密度函数曲线(这里用f表示)下面覆盖的总 面积为1,即4.4.1 正态分布一个正态分布用N(m,s)表示;其中m为均值, 而s为标准差。

10、也常用N(m,s2)来表示,这里s2 为方差(标准差的平方)。 标准差为1的正态分布N(0, 1)称为标准正态分 布(standard normal distribution)。 任何具有正态分布N(m,s)的随机变量X都可以 用简单的变换(减去其均值m,再除以标准 差s):Z=(X-m)/s,而成为标准正态随机变量 。这种变换和标准得分的意义类似。两条正态分布的密度曲线标准正态变量在区间(0.51, 1.57)中的 概率4.4.1 正态分布对于连续型随机变量X,a下侧分位数( 又称为a分位数,a-quantile)定义为数xa ,它满足关系这里的a又称为下(左)侧尾概率( lower/lef

11、t tail probability)4.4.1 正态分布而a上侧分位数(又称a上分位数,a- upper quantile)定义为数xa,它满足 关系这里的a也称为上(右)侧尾概 率(upper/right tail probability) 。N(0,1)分布右侧尾概率P(zza)=a的示意 图4.4.2 c2-分布一个由正态变量导出的分布是c2-分布(chi- square distribution)。 n个独立正态变量平方和称为有n个自由度 的c2-分布,记为c2(n)。c2-分布为一族分布, 成员由自由度区分。 由于c2-分布变量为正态变量的平方和, 它不会取负值。自由度为2、3、5

12、的c2-分布密度曲线图4.4.3 t-分布正态变量的样本均值也是正态变量,能利用减去其均 值再除以其(总体)标准差来得到标准正态变量。 但用样本标准差来代替未知的总体标准差时,得到的 结果分布就不再是标准正态分布了。它的密度曲线看 上去有些象标准正态分布,但是中间瘦一些,而且尾 巴长一些。这种分布称为t-分布(t-distribution,或学生 分布,Students t)。标准正态分布和t(1)分布的密度图 4.4.3 t-分布 通常用ta表示t分布相应于右侧尾概率a的t 变量的a上侧分位数,即对于t分布变量T ,有P(Tta)=a。在突出自由度时,也用tn,a,也有用t1a或tn,1a表

13、示的。t(2)分布右侧尾概率P(tta)=a的示意图4.4.4 F-分布 F-分布变量为两个c2-分布变量( 在除以它们各自自由度之后)的 比 而两个c2-分布的自由度则为F-分 布的自由度,因此,F-分布有两 个自由度;第一个自由度等于在 分子上的c2-分布的自由度,第二 个自由度等于在分母的c2-分布的 自由度。自由度为(3,20)和(50,20) 的F-分布密度曲线图 4.5 累积分布函数离散分布的累积分布函数连续情况下的累积分布函数4.5 累积分布函数随机变量小于或等于某个数值的概率就称 为累积分布函数(cumulative distribution function,简称cdf)或分

14、布函数。累积分布函数概念的引进,对于查表或使 用软件得到概率(根据上面两个公式)是 很方便的。多数概率分布表都是以累积分 布函数的形式出现的。4.6 用小概率事件进行判断 假定某药厂声称该厂生产的某种药品有60 的疗效。但是当实际调查了100名使用 该药物的患者之后,发现有40名患者服后 有效。 这个数据是否支持药厂的说法呢?药厂所 支持的模型实际上是一个参数为0.6的 Bernoulli试验模型。100名患者的服药, 实际上等于进行了100次试验。这就是二 项分布B(100,0.6)模型。4.6 大数定律与中心极限定理大数定律与中心极限定理一、大数定律:阐述大量随机变量的平 均结果具有稳定性

15、的一系列定律的总称 。独立同分布大数定律:提供了用样本平均数估 计总体平均数的理论依据贝努力大数定律贝努力大数定律:提供了用频率代替概率的理 论依据中心极限定理 二、中心极限定理:阐述大量随机变量 之和的极限分布是正态分布的一系列定 理的总称。独立同分布的中心极限定理 不论总体服从何种分布,只要它的数学期 望和方差存在,从中抽取容量为n的样本, 当n充分大时,则这个样本的总和或平均数 是服从正态分布的随机变量。德莫佛拉普拉斯中心极限定理该定理提供了用正态分布近似计算 二项分布概率的方法。例:对于一个学生而言,来参加家长会的家长人数是一个随机 变量,设一个学生无家长、1名家长、2名家长来参加会议的概 率分别为0.05、0.8、0.15。若学校共有400名学生,设各学生参 加会议的家长数相互独立,且服从同一分布。(1)求参加会 议的家长数X超过450的概率;(2)求有1名家长来参加会议的 学生数不多于340的概率。解(1)以Xk(k=1,2,400)记第k个学生来参加会议的家 长数,则Xk的分布律为Xk012pk0.050.80.15易知E(Xk)=1.1,D(Xk)=0.19 k=1,2,400,而(2)以Y记有一名家长来参加会议的学生 人数,则Yb(400,0.8),由中心极限定 理得

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号