概率与抽样分布

上传人:tia****nde 文档编号:67701854 上传时间:2019-01-08 格式:PPT 页数:57 大小:522.50KB
返回 下载 相关 举报
概率与抽样分布_第1页
第1页 / 共57页
概率与抽样分布_第2页
第2页 / 共57页
概率与抽样分布_第3页
第3页 / 共57页
概率与抽样分布_第4页
第4页 / 共57页
概率与抽样分布_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《概率与抽样分布》由会员分享,可在线阅读,更多相关《概率与抽样分布(57页珍藏版)》请在金锄头文库上搜索。

1、第3章 概率与抽样分布,Probability and Sampling Distributions,Section 3.1 Random Variables 随机变量,事件的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。 概率:随机事件发生的可能性大小,用大写的P 表示;取值0,1。,一、频率与概率frequency and probability,1. 样本频率总是围绕概率上下波动 2. 样本含量n越大,波动幅度越小,频率越接近概率。,频率与概率的关系:,表 在相同条件下盲蝽象在某棉田危害程度的调查结果,一、频率与概率frequen

2、cy and probability,一、频率与概率frequency and probability,小概率原理 若事件A发生的概率较小,如小于0.05或0.01,则认为事件A在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。这里的0.05或0.01称为小概率标准,农业试验研究中通常使用这两个小概率标准。,二、随机变量,用以记录随机试验结果(outcome)的变量,称为随机变量(random variable),用大写英文字母X, Y 等代表。 随机变量X的概率分布,表达 X 的可能取值和取这些值的概率规则。,离散型和连续型随机变量,随机变量的可能取值是离散的数字,

3、如计数型或分类型等,称为离散型随机变量(discrete random variable)。 0, 1, 9 。 20次实验中成功的次数, 二项式分布。 随机变量的可能取值是某一实数的区间,如“大于0”或“-22之间”等,称为连续型随机变量(continuous random variable)。 正态随机变量,二、随机变量,三、离散型随机变量的概率分布,列出离散型随机变量X的所有可能取值 列出随机变量取这些值的概率 通常用下面的表格来表示 P(X =xi)=pi称为离散型随机变量的概率函数,四、连续型随机变量的概率密度,若观察资料数量够大,则直方图(组数适当增加)的整体形态可用一近似的平滑曲

4、线显示。 直方图中纵轴改为次数比例,则该平滑曲线称为密度曲线(density curve)。,概率密度曲线,密度曲线的性质,曲线都在水平线上 (密度函数=0)。 曲线下所涵盖的全部面积正好为1(所有可能性为1)。 曲线下任何范围所涵盖的面积,为观察值落在该范围的比例(概率)。 密度曲线可视为是观察变量的理论分布图形。,四、连续型随机变量的概率密度,随机变量X的一切可能取值的完备组中,各可能取值xi与其相对应的概率pi乘积之和 描述随机变量取值的集中程度 计算公式为,五、随机变量的数学期望,随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X) 描述离散型随机变量取值的分散程度 计算

5、公式为,六、随机变量的方差,Section 3.2 The Binomial Distributions 二项分布,一、二项分布设定 The Binomial Setting,固定的观察次数 n。 n 次的观察都独立,每次的观察都不会对其他观察提供任何信息。 每次的观察都只有两种可能的结果,多假设为“成功”或“失败”两种。 每次的观察“成功”的概率都一样,设定为 p。,二、二项分布 Binomial Distribution,满足二项分布设定的试验,以 X 记录 n次观察中“成功”的次数,则称 X 的分布为参数为 n 与 p 的二项分布(binomial),记为B(n, p)。 X 的所有可能

6、取值为0, 1, , n。 对应的概率函数为 P(X = x) = P(x)。,例1 某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治疗试验,每次抽样10头作为一组治疗。试问如新药无疗效,则在10头中死3头、2头、1头,以及全部愈好的概率为多少?,按上述二项分布概率函数式计算,7头愈好,3头死去概率: 8头愈好,2头死去概率: 9头愈好,1头死去概率: 10头全部愈好的概率:,三、示例,若问10头中不超过2头死去的概率为多少?则应该应用累积函数,即,三、示例,四、二项分布的期望值与标准差,期望值: E(X) = np 方差: Var(X) = np(1-p) 标准差

7、:,Section 3.3 Normal Distributions 正态分布,一、特点,正态曲线 所有正态曲线都有相同的外型 具有对称、单峰及钟形的特性。 正态曲线所代表的分布即为正态分布(normal distribution) 每一正态分布都有其平均值 与标准差,m,s,一、特点,正态曲线较大,m,s,一、特点,正态曲线的拐点,拐点落在一个处,拐点落在-处,一、特点,二、为什么这么重要,Good descriptions for some distributions of real data 身高, 体重, 考试成绩 Good approximations to the results

8、of many kinds of chance outcomes Tossing a coin many times Many statistical inference procedures are based on normal distributions,三、68-95-99.7规则,正态分布有其特定的数据分布规则: 平均值为 , 标准差为 的正态分布 68%的观察资料落在m 的 1 之内 95%的观察资料落在m 的 2 之内 99.7%的观察资料落在m 的 3 之内,0,1,2,3,-1,-2,-3,m,m+s,m+2s,m+3s,m-s,m-2s,m-3s,68% 的资料,95% 的

9、资料,99.7% 的资料,三、68-95-99.7规则,四、变量标准化(Standardization),令观察值 x 服从平均值为 ,标准差为 的分布,则 x 的标准化值(standardized value)定义为 标准化值又称为 z-值(z-score)。,标准化变量 可以证明 z的平均值为0 z的标准差为1,四、变量标准化(Standardization),五、标准正态分布,变量 X 服从平均值为 ,标准差为 的正态分布,简记为 X N(, 2)。 X 经过标准化后为 Z (=(X-)/ s ),则 Z 也服从正态分布,并且平均值为 0 ,标准差为 1,即Z N(0, 1)。我们称 Z

10、 服从标准正态(standard normal)。,六、标准正态表,z,表列数字是z左边的面积,z = - 0.44,z左边的面积为0.33,- 0.44,0.33,z,表列数字是z左边的面积,z = 0.44,z左边的面积为0.67,六、标准正态表,七、双侧临界值,在标准正态曲线图下, 右方与 左方的面积和为 a ,则称 为标准正态分布概率为 a 的双侧临界值。可查表。,m = 0,面积为a/2,面积为a/2,八、单侧临界值,在标准正态曲线图下, 右方的面积为 a ,则称 为标准正态分布概率为 a 的单侧临界值。可查表。,m = 0,面积为a,例2 假定y是一随机变数具有正态分布,平均数 =

11、30,标准差 =5,试计算小于26,小于40的概率,介乎26和40区间的概率以及大于40的概率。,首先计算:,先将x转换为u值,九、计算,同理可得: FN(40)=0.9773,所以:P(26x40)=FN(40)FN(26)=0.97730.2119 = 0.7654,P(x40)=1P(x40)=10.9773 =0.0227,查附表,当u=0.8时,FN(26)=0.2119,说明这一分布从到26范围内的变量数占全部变量数的21.19%,或者说,x26概率为0.2119.,九、计算,例3 在应用正态分布时,经常要讨论随机变数x离其平均数的差数大于或小于若干个值的概率。例如计算离均差绝对值

12、等于小于和等于大于1 的概率为:,也可以简写为,九、计算,相应地,离均差绝对值等于小于2 、等于大于2 、等于小于3 和等于大于3 的概率值为:,九、计算,例4 计算正态分布曲线的中间概率为0.99时,其y或u值应等于多少?,因为正态分布是对称的,故在曲线左边从到 u的概率和在曲线右边从u到的概率都应等于 1/2(10.99)=0.005。 查表,u=2.58时, fN(x) =0.004940.005。 于是知,当 2.58时,在其范围内包括99%的变量,仅有1%变量在此范围之外。上述结果写作:,九、计算,同理可求得:,九、计算,同理, 亦可写成:,以上 乃正态曲线下左边一尾x从到 上的面积

13、和右边一尾y从 到上的面积之和,亦可写成:,九、计算,Section 3.4 Sampling Distributions 抽样分布,一、总体与样本 population and sample,总体:根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体,样本:从总体中随机抽取的部分研究对象,二、总体容量与样本容量 population size and sample size,总体容量(N):总体中所包含的个体数目。根据N大小,总体分有限总体和无限总体,样本(n):从总体中随机抽取的部分研究对象,三、随机抽样 random sampling,为了保证样本的可靠性和代表性,需要采用

14、随机的方法抽取样本(在总体中每个个体具有相同的机会被抽到)。,四、参数与统计量 parameter and statistic,参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为、。固定的常数,推断inference,统计量:样本的统计指标,如样本均数、标准差,采用英文字母分别记为 。 参数附近波动的随机变量 。,五、总体均值、方差与标准差,总体均值 总体方差 总体标准差,六、样本均值、方差与标准差,总体均值 总体方差 总体标准差,七、样本的概率分布,统计量(为样本的函数),亦为随机变量,其概率分布称为抽样分布(sampling distribution)。 一般统计量的抽样分布,

15、则多根据重复抽样(实验)结果来了解其概率分布。 的抽样分布 大数法则,中心极限定理,八、大数法则,由具有有限(finite)平均数 m 的总体随机抽样,随着样本容量的增加,样本平均数 越接近总体的均数 m 。 样本平均数的这种行为称为大数法则(law of large numbers)。,以 代表样本容量为 n 的资料平均数,逐渐增加样本容量,将 n 及对应的 图示如后。,八、大数法则,Number of observations, n,前 n个样本的均数,22,23,24,25,26,27,28,29,30,31,32,33,1,5,10,50,100,500,1000,5000,10000,八、大数法则,九、样本平均数的均数与标准差,令 为样本容量为 n 的一组SRS的平均数,其总体平均数为 m 与标准差为 s。则 的分布平均数为 m 与标准差为 。 因为 的分布平均数也是 m,故 又称为 m 的不偏估计。 样本容量越大,则样本平均数 的变异越小。,十、正态的样本平均数的分布,若总体服从正态 N(m, s2) ,则SRS的平均数 也服从正态 N(m, )。,十一、中心极限定理(C

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号