概率论与数理统计浙江大学盛骤完整版

上传人:壹****1 文档编号:568317629 上传时间:2024-07-24 格式:PPT 页数:442 大小:17.15MB
返回 下载 相关 举报
概率论与数理统计浙江大学盛骤完整版_第1页
第1页 / 共442页
概率论与数理统计浙江大学盛骤完整版_第2页
第2页 / 共442页
概率论与数理统计浙江大学盛骤完整版_第3页
第3页 / 共442页
概率论与数理统计浙江大学盛骤完整版_第4页
第4页 / 共442页
概率论与数理统计浙江大学盛骤完整版_第5页
第5页 / 共442页
点击查看更多>>
资源描述

《概率论与数理统计浙江大学盛骤完整版》由会员分享,可在线阅读,更多相关《概率论与数理统计浙江大学盛骤完整版(442页珍藏版)》请在金锄头文库上搜索。

1、2024/7/241概率论与数理统计2概率论与数理统计是研究随机现象数量规律的一门学科。3概率统计概率统计概率统计概率统计是高等院校理工类的重要课程之一。是高等院校理工类的重要课程之一。是高等院校理工类的重要课程之一。是高等院校理工类的重要课程之一。在考研数学中的比重大约占在考研数学中的比重大约占在考研数学中的比重大约占在考研数学中的比重大约占22%22%左右。左右。左右。左右。 n n概率论与数理统计是数学的一个有特色且又十分活跃的分支,一方面,它有别开生面的研究课题,有自己独特的概念和方法,内容丰富,结果深刻;另一方面,它与其他学科又有紧密的联系,是近代数学的重要组成部分。由于它近年来突飞

2、猛进的发展与应用的广泛性,目前已发展成为一门独立的一级学科。4概率论学科历史概率论学科历史 n n概率,指一种不确定的情况出现可能性的大小概率,指一种不确定的情况出现可能性的大小 . .起源于中起源于中世纪以来的欧洲流行的用骰子赌博世纪以来的欧洲流行的用骰子赌博. . n n分赌本问题分赌本问题 : :甲、乙二人赌博,各出赌注甲、乙二人赌博,各出赌注3030元,共元,共6060元,元,每局甲、乙胜的机会均等,都是每局甲、乙胜的机会均等,都是1/21/2。约定:谁先胜满。约定:谁先胜满3 3局局则他赢得全部赌注则他赢得全部赌注6060元,现已赌完元,现已赌完3 3局,甲局,甲2 2胜胜1 1负,

3、而因负,而因故中断赌情,问这故中断赌情,问这6060元赌注该如何分给元赌注该如何分给2 2人,才算公平人,才算公平 ? ?n n帕斯卡和费尔马建立了概率论的一个基本概念帕斯卡和费尔马建立了概率论的一个基本概念数学期数学期望,惠更斯望,惠更斯16571657年将自己的研究成果写成了专著年将自己的研究成果写成了专著论掷骰论掷骰子游戏中的计算子游戏中的计算 . .n n在他们之后,对概率论这一学科做出贡献的是瑞士数学家在他们之后,对概率论这一学科做出贡献的是瑞士数学家族族贝努利家族的几位成员贝努利家族的几位成员. .雅可布雅可布 贝努利在前人研究贝努利在前人研究的基础上,证明了被称为的基础上,证明了

4、被称为“ “大数定律大数定律” ”的一个定理,这是的一个定理,这是研究等可能性事件的古典概率论中的极其重要的结果。研究等可能性事件的古典概率论中的极其重要的结果。 5n n随着随着1818、1919世纪科学的发展,人们注意到某些生物、物理世纪科学的发展,人们注意到某些生物、物理和社会现象与机会游戏相似,从而由机会游戏起源的概率和社会现象与机会游戏相似,从而由机会游戏起源的概率论被应用到这些领域中,同时也大大推动了概率论本身的论被应用到这些领域中,同时也大大推动了概率论本身的发展。发展。 n n法国数学家拉普拉斯将古典概率论向近代概率论进行推进,法国数学家拉普拉斯将古典概率论向近代概率论进行推进

5、,他首先明确给出了概率的古典定义,并在概率论中引入了他首先明确给出了概率的古典定义,并在概率论中引入了更有力的数学分析工具,将概率论推向一个新的发展阶段。更有力的数学分析工具,将概率论推向一个新的发展阶段。他还证明了他还证明了“ “煤莫弗煤莫弗拉普拉斯定理拉普拉斯定理” ”. .拉普拉斯于拉普拉斯于18121812年出版了他的著作年出版了他的著作分析的概率理论分析的概率理论,这是一部继,这是一部继往开来的作品。这时候人们最想知道的就是概率论是否会往开来的作品。这时候人们最想知道的就是概率论是否会有更大的应用价值?是否能有更大的发展成为严谨的学科有更大的应用价值?是否能有更大的发展成为严谨的学科

6、n n概率论在概率论在2020世纪再度迅速地发展起来,则是由于科学技术世纪再度迅速地发展起来,则是由于科学技术发展的迫切需要而产生的。发展的迫切需要而产生的。19061906年,俄国数学家马尔科夫年,俄国数学家马尔科夫提出了所谓提出了所谓“ “马尔科夫链马尔科夫链” ”的数学模型。的数学模型。19341934年,前苏联年,前苏联数学家辛钦又提出一种在时间中均匀进行着的平稳过程理数学家辛钦又提出一种在时间中均匀进行着的平稳过程理论。论。 6n n2020世纪初完成的勒贝格测度与积分理论及随后发展的抽象世纪初完成的勒贝格测度与积分理论及随后发展的抽象测度和积分理论,为概率公理体系的建立奠定了基础。

7、在测度和积分理论,为概率公理体系的建立奠定了基础。在这种背景下柯尔莫哥洛夫这种背景下柯尔莫哥洛夫19331933年在他的年在他的概率论基础概率论基础一一书中首次给出了概率的测度论式定义和一套严密的公理体书中首次给出了概率的测度论式定义和一套严密的公理体系。他的公理化方法成为现代概率论的基础,使概率论成系。他的公理化方法成为现代概率论的基础,使概率论成为严谨的数学分支。为严谨的数学分支。 7数理统计学科历史数理统计学科历史n n统计学起源于收集数据的活动,现今各国都设有统计学起源于收集数据的活动,现今各国都设有统计局或相当的机构。当然,单是收集、记录数统计局或相当的机构。当然,单是收集、记录数据

8、这种活动本身并不能等同于统计学这门科学的据这种活动本身并不能等同于统计学这门科学的建立,需要对收集来的数据进行排比、整理,用建立,需要对收集来的数据进行排比、整理,用精炼和醒目的形式表达,在这个基础上对所研究精炼和醒目的形式表达,在这个基础上对所研究的事物进行定量或定性估计、描述和解释,并预的事物进行定量或定性估计、描述和解释,并预测其在未来可能的发展状况。例如根据人口普查测其在未来可能的发展状况。例如根据人口普查或抽样调查的资料对我国人口状况进行描述,根或抽样调查的资料对我国人口状况进行描述,根据适当的抽样调查结果,对受教育年限与收入的据适当的抽样调查结果,对受教育年限与收入的关系,对某种生

9、活习惯与嗜好(如吸烟)与健康关系,对某种生活习惯与嗜好(如吸烟)与健康的关系作定量的评估。根据以往一般时间某项或的关系作定量的评估。根据以往一般时间某项或某些经济指标的变化情况,预测其在未来一般时某些经济指标的变化情况,预测其在未来一般时间的走向等,做这些事情的理论与方法,才能构间的走向等,做这些事情的理论与方法,才能构成一门学问成一门学问数理统计学的内容。数理统计学的内容。 8n n一种受到某些著名学者支持的观点认为,英国学者葛朗特一种受到某些著名学者支持的观点认为,英国学者葛朗特在在16621662年发表的著作年发表的著作关于死亡公报的自然和政治观察关于死亡公报的自然和政治观察,标志着这门

10、学科的诞生。标志着这门学科的诞生。 n n数理统计学的另一个重要源头来自天文和测地学中的误差数理统计学的另一个重要源头来自天文和测地学中的误差分析问题。人们希望通过多次量测获取更多的数据,以便分析问题。人们希望通过多次量测获取更多的数据,以便得到对量测对象的精度更高的估计值。量测误差有随机性,得到对量测对象的精度更高的估计值。量测误差有随机性,适合于用概率论即统计的方法处理,远至伽利略就做过这适合于用概率论即统计的方法处理,远至伽利略就做过这方面的工作,他对测量误差的性态作了一般性的描述,法方面的工作,他对测量误差的性态作了一般性的描述,法国大数学家拉普拉斯曾对这个问题进行了长时间的研究,国大

11、数学家拉普拉斯曾对这个问题进行了长时间的研究,现今概率论中著名的现今概率论中著名的“ “拉普拉斯分布拉普拉斯分布” ”,即是他在这研究,即是他在这研究中的一个产物。这方面最著名且影响深远的研究成果有二:中的一个产物。这方面最著名且影响深远的研究成果有二:一是法国数学家兼天文家勒让德一是法国数学家兼天文家勒让德1919世纪初(世纪初(18051805) 与德与德国大学者高斯发明的国大学者高斯发明的“ “最小二乘法最小二乘法” ”,另外一个重要成果,另外一个重要成果是高斯是高斯18091809年在研究行星绕日运动时提出用正态分布刻画年在研究行星绕日运动时提出用正态分布刻画测量误差的分布。正态分布也

12、常称为高斯分布。测量误差的分布。正态分布也常称为高斯分布。9n n正态分布在数理统计学中占有极重要的地位,现正态分布在数理统计学中占有极重要的地位,现今仍在常用的许多统计方法,就是建立在今仍在常用的许多统计方法,就是建立在“ “所研所研究的量具有或近似地具有正态分布究的量具有或近似地具有正态分布” ”这个假定的这个假定的基础上,而经验和理论(概率论中所谓基础上,而经验和理论(概率论中所谓“ “中心极中心极限定理限定理” ”)都表明这个假定的现实性,现实世界)都表明这个假定的现实性,现实世界许多现象看来是杂乱无章的,如不同的人有不同许多现象看来是杂乱无章的,如不同的人有不同的身高、体重。大批生产

13、的产品,其质量指标各的身高、体重。大批生产的产品,其质量指标各有差异有差异 。看来毫无规则,但它们在总体上服从正。看来毫无规则,但它们在总体上服从正态分布。这一点,显示在纷乱中有一种秩序存在,态分布。这一点,显示在纷乱中有一种秩序存在,提出正态分布的高斯,一生在多个领域里面有不提出正态分布的高斯,一生在多个领域里面有不少重大的贡献,但在德国少重大的贡献,但在德国1010马克的有高斯图像的马克的有高斯图像的钞票上,单只画出了正态曲线,以此可以看出人钞票上,单只画出了正态曲线,以此可以看出人们对他这一贡献评价之高。们对他这一贡献评价之高。 10n n2020世纪以前数理统计学发展的一个重要成果,世

14、纪以前数理统计学发展的一个重要成果,是是1919世纪后期由英国遗传学家兼统计学家高尔顿世纪后期由英国遗传学家兼统计学家高尔顿发起,并经现代统计学的奠基人之一发起,并经现代统计学的奠基人之一K K 皮尔逊和皮尔逊和其他一些英国学者所发展的统计相关与回归理论。其他一些英国学者所发展的统计相关与回归理论。所谓统计相关,是指一种非决定性的关系如人的所谓统计相关,是指一种非决定性的关系如人的身高身高X X与体重与体重Y Y,存在一种大致的关系,表现在,存在一种大致的关系,表现在X X大(小)时,大(小)时,Y Y也倾向于大(小),但非决定性的:也倾向于大(小),但非决定性的:由由X X并不能决定并不能决

15、定Y Y。现实生活中和各种科技领域中,。现实生活中和各种科技领域中,这种例子很多,如受教育年限与收入的关系,经这种例子很多,如受教育年限与收入的关系,经济发展水平与人口增长速度的关系等,都是属于济发展水平与人口增长速度的关系等,都是属于这种性质,统计相关的理论把这种关系的程度加这种性质,统计相关的理论把这种关系的程度加以量化,而统计回归则是把有统计相关的变量,以量化,而统计回归则是把有统计相关的变量,如上文的身高如上文的身高X X和体重和体重Y Y的关系的形式作近似的估的关系的形式作近似的估计,称为回归方程,现实世界中的现象往往涉及计,称为回归方程,现实世界中的现象往往涉及众多变量,它们之间有

16、错综复杂的关系,且许多众多变量,它们之间有错综复杂的关系,且许多属于非决定性质,相关回归理论的发明,提供了属于非决定性质,相关回归理论的发明,提供了一种通过实际观察去对这种关系进行定量研究的一种通过实际观察去对这种关系进行定量研究的工具,有着重大的认识和实用意义。工具,有着重大的认识和实用意义。 11n n这门学科的理论框架在这门学科的理论框架在2020世纪上半叶得以完成,狭义一世纪上半叶得以完成,狭义一点说可界定在点说可界定在1921192119381938年,起主要作用的是几位大师年,起主要作用的是几位大师级的人物,特别是英国的费歇尔级的人物,特别是英国的费歇尔K K皮尔逊,发展统计皮尔逊

17、,发展统计假设检验理论的奈曼与假设检验理论的奈曼与E E皮尔逊和提出统计决策函数理皮尔逊和提出统计决策函数理论的瓦尔德等。我国已故著名统计学家许宝(论的瓦尔德等。我国已故著名统计学家许宝(1910191019701970)在这项工作中也卓有建树。)在这项工作中也卓有建树。n n自二战结束迄今,数理统计学有了迅猛的发展,主要有以自二战结束迄今,数理统计学有了迅猛的发展,主要有以下三方面的原因:一是数理统计学理论框架的建立以及概下三方面的原因:一是数理统计学理论框架的建立以及概率论和数学工具的进展,为统计理论的发展打开了门径和率论和数学工具的进展,为统计理论的发展打开了门径和提供了手段,许多理论和

18、方法得到了完善与深入,并不断提供了手段,许多理论和方法得到了完善与深入,并不断提出新的研究课题;二是实用上的需要,不断提出了复杂提出新的研究课题;二是实用上的需要,不断提出了复杂的问题与模型,吸引了学者们的研究兴趣;三是电子计算的问题与模型,吸引了学者们的研究兴趣;三是电子计算机的发明与普及应用,一方面提供了必要的计算工具机的发明与普及应用,一方面提供了必要的计算工具统计方法的实施往往涉及大量数据的处理与运算,用人力统计方法的实施往往涉及大量数据的处理与运算,用人力无法在合理的时间内完成,所以在早年,一些统计方法人无法在合理的时间内完成,所以在早年,一些统计方法人们虽然知道,但很少付诸实用,就

19、因为是人力所难及。计们虽然知道,但很少付诸实用,就因为是人力所难及。计算机的出现解决了这个问题。同时,计算机对促进统计理算机的出现解决了这个问题。同时,计算机对促进统计理论研究也有助益,统计模拟是其表现之一论研究也有助益,统计模拟是其表现之一 。 12概率论与数理统计的应用概率论与数理统计的应用n n概率论与以它作为基础的数理统计学科一起,在概率论与以它作为基础的数理统计学科一起,在自然科学,社会科学,工程技术,军事科学及工自然科学,社会科学,工程技术,军事科学及工农业生产等诸多领域中都起着不可或缺的作用。农业生产等诸多领域中都起着不可或缺的作用。 n n直观地说,卫星上天,导弹巡航,飞机制造

20、,宇直观地说,卫星上天,导弹巡航,飞机制造,宇宙飞船遨游太空等都有概率论的一份功劳;及时宙飞船遨游太空等都有概率论的一份功劳;及时准确的天气预报,海洋探险,考古研究等更离不准确的天气预报,海洋探险,考古研究等更离不开概率论与数理统计;电子技术发展,影视文化开概率论与数理统计;电子技术发展,影视文化的进步,人口普查及教育等同概率论与数理统计的进步,人口普查及教育等同概率论与数理统计也是密不可分的。也是密不可分的。 n n根据概率论中用投针试验估计根据概率论中用投针试验估计 值的思想产生的蒙值的思想产生的蒙特卡罗方法,是一种建立在概率论与数理统计基特卡罗方法,是一种建立在概率论与数理统计基础上的计

21、算方法。借助于电子计算机这一工具,础上的计算方法。借助于电子计算机这一工具,使这种方法在核物理、表面物理、电子学、生物使这种方法在核物理、表面物理、电子学、生物学、高分子化学等学科的研究中起着重要的作用。学、高分子化学等学科的研究中起着重要的作用。 13怎样学怎样学“概率论与数理统计概率论与数理统计” n n学习过程中要抓住对概念的引入和背景的理解 .要紧扣它的实际背景,理解统计方法的直观含义. n n对于引入概念的内涵和相互间的联系和差异要仔细推敲 .n n在解题过程中不要为解题而解题,而应理解题目所涉及的概念及解题的目的 .而要把精力放在理解不同题型涉及的概念及解题的思路上去. 14 概

22、率 论15关键词:样本空间 随机事件频率和概率条件概率事件的独立性第一章概率论的基本概念161 随机试验确定性现象:结果确定不确定性现象:结果不确定确定性现象不确定性现象确定不确定不确定自然界与社会生活中的两类现象例: 向上抛出的物体会掉落到地上 明天天气状况 买了彩票会中奖17概率统计中研究的对象:随机现象的数量规律 对随机现象的观察、记录、试验统称为随机试验。随机试验。 它具有以下特性:1.可以在相同条件下重复进行2.事先知道可能出现的结果3.进行试验前并不知道哪个试验结果会发生 例: 抛一枚硬币,观察试验结果;对某路公交车某停靠站登记下车人数;对某批电子产品测试其输入电压;对听课人数进行

23、一次登记;182 样本空间随机事件( (一一) )样本空间样本空间 定义:随机试验E的所有结果构成的集合称为E的 样本空间样本空间,记为S=e, 称S中的元素e为基本事件基本事件或样本点样本点S=0,1,2,;S=正面,反面;S=(x,y)|T0yxT1;S= x|axb 记录一城市一日中发生交通事故次数 例:一枚硬币抛一次记录某地一昼夜最高温度x,最低温度y 记录一批产品的寿命x19(二) 随机事件随机事件 一般我们称S的子集A为E的随机事件随机事件A,当且仅当A所包含的一个样本点发生称事件A发生。S0,1,2,;记 A至少有10人候车10,11,12, S,A为随机事件,A可能发生,也可能

24、不发生。例:观察89路公交车浙大站候车人数, 如果将S亦视作事件,则每次试验S总是发生, 故又称S为必然事件必然事件。为方便起见,记为不可能事件不可能事件,不包含任何样本点。 20(三) 事件的关系及运算事件的关系及运算v事件的关系(包含、相等)例:记A=明天天晴,B=明天无雨记A=至少有10人候车,B=至少有5人候车一枚硬币抛两次,A=第一次是正面,B=至少有一次正面 SAB21v 事件的运算SBASABSBA A与B的和事件,记为 A与B的积事件,记为当AB=AB=时,称事件A A与B B不相容的,或互斥的。 22 “和”、“交”关系式SABS 例:设A A= 甲来听课 ,B B= 乙来听

25、课 ,则:甲、乙至少有一人来甲、乙都来甲、乙都不来甲、乙至少有一人不来233 频率与概率(一)频率 定义:记 其中 A发生的次数(频数);n总试验次 数。称 为A在这n次试验中发生的频率频率。例:中国国家足球队,“冲击亚洲”共进行了n次,其中成功了一次,则在这n次试验中“冲击亚洲”这事件发生的频率为某人一共听了17次“概率统计”课,其中有15次迟到,记A=听课迟到,则 # 频率 反映了事件A发生的频繁程度。试验序号n =5n =50n =500nHfn(H)nHfn(H)nHfn(H)1234567891023151242330.40.60.21.00.20.40.80.40.60.62225

26、21252421182427310.440.500.420.500.480.420.360.480.540.622512492562532512462442582622470.5020.4980.5120.5060.5020.4920.4880.5160.5240.494表表 1 1 例:抛硬币出现的正面的频率25实验者nnHfn(H)德摩根204810610.5181蒲丰404020480.5069K皮尔逊1200060190.5016K皮尔逊24000120120.5005表表 2 226* 频率的性质:且 随n的增大渐趋稳定,记稳定值为p27 (二) 概率 定义1: 的稳定值p定义为A的

27、概率,记为P(A)=p 定义2:将概率视为测度,且满足: 称P(A)为事件A的概率概率。28性质:294 等可能概型(古典概型)定义:若试验E满足:1.S中样本点有限(有限性)2.出现每一样本点的概率相等(等可能性)称这种试验为等可能概型等可能概型( (或古典概型或古典概型) )。30例1:一袋中有8个球,编号为18,其中13 号为红球,48号为黄球,设摸到每一 球的可能性相等,从中随机摸一球, 记A= 摸到红球 ,求P(A) 解: S=1,2,8 A=1,2,3 31例2:从上例的袋中不放回的摸两球, 记A=恰是一红一黄,求P(A) 解:(注:当Lm或L0,i=1,2,n;则称:为全概率公式

28、全概率公式B1B2BnSA证明:证明: 定理:接上定理条件, 称此式为BayesBayes公式。公式。44* 全概率公式可由以下框图表示:设 P(Bj)=pj, P(A|Bj)=qj, j=1,2,n易知:SP1P2Pn.B2B1Bn.q2q1qnA45例:一单位有甲、乙两人,已知甲近期出差的概率为80%,若甲出差,则乙出差的概率为20%;若甲不出差,则乙出差的概率为90%。(1)求近期乙出差的概率;(2)若已知乙近期出差在外,求甲出差的概率。 Bayes公式全概率公式解:设A=甲出差,B=乙出差46 例:根据以往的临床记录,某种诊断癌症的试验具有5%的假阳性及5%的假阴性:若设A=试验反应是

29、阳性,C=被诊断患有癌症 则有:已知某一群体P(C)=0.005,问这种方法能否用于普查?若P(C)较大,不妨设P(C)=0.8推出P(C|A)=0.987说明这种试验方法可在医院用解:考察P(C|A)的值若用于普查,100个阳性病人中被诊断患有癌症的大约有8.7个,所以不宜用于普查。476 独立性 例:有10件产品,其中8件为正品,2件为次品。从中取2 次,每次取1件,设Ai=第i次取到正品,i=1,2不放回抽样时,放回抽样时,即放回抽样时,A1的发生对A2的发生概率不影响 同样,A2的发生对A1的发生概率不影响定义:设A,B为两随机事件, 若P(B|A)=P(B), 即P(AB)=P(A)

30、*P(B) 即P(A|B)=P(A)时,称A,B相互独立相互独立。 48 注意:49 例:甲、乙两人同时向一目标射击,甲击中 率为0.8,乙击中率为0.7,求目标被击中的概率。 解:设 A=甲击中,B=乙击中C=目标被击中 甲、乙同时射击,其结果互不影响, A,B相互独立50 例:有4个独立元件构成的系统(如图),设每个元 件能正常运行的概率为p,求系统正常运行的 概率。 1432注意:这里系统的概念与电路 中的系统概念不同5152总结:53复习思考题复习思考题 1 11.“事件A不发生,则A=”,对吗?试举例证明之。2.“两事件A和B为互不相容,即AB=,则A和B互逆”,对吗? 反之成立吗?

31、试举例说明之。4. 甲、乙两人同时猜一谜,设A=甲猜中,B=乙猜中, 则AB=甲、乙两人至少有1人猜中。若P(A)=0.7,P(B)=0.8, 则“P(AB)=0.7+0.8=1.5”对吗?5. 满足什么条件的试验问题称为古典概型问题?547.如何理解样本点是两两互不相容的?8.设A和B为两随机事件,试举例说明P(AB)=P(B|A)表示不同的意义。10.什么条件下称两事件A和B相互独立?什么条件下称n个事件A1,A2,An相互独立?11.设A和B为两事件,且P(A)0,P(B)0,问A和B相互独立、A和B互不相容能否同时成立?试举例说明之。12.设A和B为两事件,且P(A)=a,P(B)=b

32、,问:(1) 当A和B独立时,P(AB)为何值?(2) 当A和B互不相容时, P(AB)为何值?5513.当满足什么条件时称事件组A1,A2,An为样为本空间的一个划分?14.设A,B,C为三随机事件,当AB,且P(A)0, P(B)0时,P(C|A)+P(C|B)有意义吗?试举例说明。15.设A,B,C为三随机事件,且P(C)0,问P(AB|C)=P(A|C)+P(B|C)P(AB|C)是否成立?若成立,与概率的加法公式比较之。56第二章随机变量及其分布关键词:随机变量 概率分布函数 离散型随机变量 连续型随机变量 随机变量的函数571 随机变量* * 常见的两类试验结果:示数的降雨量;候车

33、人数;发生交通事故的次数示性的明天天气(晴,多云);化验结果(阳性,阴性)esx离散型的连续型的X=f(e)为S上的单值函数,X为实数 * * 中心问题:将试验结果数量化* * 定义:随试验结果而变的量X为随机变量* * 常见的两类随机变量582 离散型随机变量及其分布 定义:取值可数的随机变量为离散量离散量离散量的概率分布(分布律)样本空间S X=x1,X=x2,X=xn, 由于样本点两两不相容1、写出可能取值即写出了样本点2、写出相应的概率即写出了每一个样本点出现的概率# # 概率分布59 例:某人骑自行车从学校到火车站,一路上要经 过3个独立的交通灯,设各灯工作独立,且设 各灯为红灯的概

34、率为p,0p1,以X表示首次 停车时所通过的交通灯数,求X的概率分布律。pX0123pp(1-p)(1-p)2p(1-p)3 解: 设Ai=第i个灯为红灯,则P(Ai)=p,i=1,2,3 且A1,A2,A3相互独立。60 例:从生产线上随机抽产品进行检测,设产品 的次品率为p,0p1,若查到一只次品就 得停机检修,设停机时已检测到X只产品, 试写出X的概率分布律。 解:设Ai=第i次抽到正品,i=1,2, 则A1,A2,相互独立。 亦称X为服从参数p的几何分布。几何分布。61三个主要的离散型随机变量 01(p) 分布二项分布Xpq01p样本空间中只有两个样本点即每次试验结果即每次试验结果互不

35、影响互不影响在相同条件下在相同条件下重复进行重复进行(p+q=1) * * n重贝努利试验:设试验E只有两个可能的结果: p(A)=p,0p1,将E独立地重复进行n次,则称这一串重复重复重复重复 的独立独立独立独立试验为n重贝努利试验贝努利试验。62例:1. 独立重复地抛n次硬币,每次只有两个可能的结果: 正面,反面,如果是不放回抽样呢? 2.将一颗骰子抛n次,设A=得到1点,则每次试验 只有两个结果: 3.从52张牌中有放回地取n次,设A=取到红牌,则 每次只有两个结果:63设A在n重贝努利试验中发生X次,则并称X服从参数为p的二项分布二项分布,记推导:设Ai i= 第i次A发生 ,先设n=

36、364例: 设有80台同类型设备,各台工作是相互独立的,发生故障的概率都是0.01,且一台设备的故障能有一个人处理。考虑两种配备维修工人的方法, 其一是由4个人维护,每人负责20台; 其二是由3个人共同维护80台。 试比较这两种方法在设备发生故障时不能及时维修的概率的大小。6566 例:某人骑了自行车从学校到火车站,一路上 要经过3个独立的交通灯,设各灯工作独 立,且设各灯为红灯的概率为p,0p1, 以Y表示一路上遇到红灯的次数。(1)求Y的概率分布律;(2)求恰好遇到2次红灯的概率。 解:这是三重贝努利试验 67 例:某人独立射击n次,设每次命中率为p, 0p0为常数,则称X服从参数为的指数

37、分布指数分布。记为 X具有如下的无记忆性:79 80正态分布定义:设X的概率密度为其中为常数,称X服从参数为的正态分布(Gauss分布),记为可以验算:81称为位置参数(决定对称轴位置) 为尺度参数(决定曲线分散性)82X的取值呈中间多,两头少,对称的特性。 当固定时,越大,曲线的峰越低,落在附近的概率越小,取值就越分散, 是反映X的取值分散性的一个指标。 在自然现象和社会现象中,大量随机变量服从或近似服从正态分布。8384例:查书后附表85 例:一批钢材(线材)长度(1)若=100,=2,求这批钢材长度小于97.8cm的概率;(2)若=100,要使这批钢材的长度至少有90%落在区间(97,1

38、03)内,问至多取何值?86例:设某地区男子身高(1)从该地区随机找一男子测身高,求他的身高大于175cm的概率;(2)若从中随机找5个男子测身高,问至少有一人身高大于175cm的概率是多少?恰有一人身高大于175cm的概率为多少?875 随机变量的函数分布问题:已知随机变量X的概率分布, 且已知Y=g(X),求Y的概率分布。Xpi i0.2-1010.50.3例如,若要测量一个圆的面积,总是测量其半径,半径的测量值可看作随机变量X,若 则Y服从什么分布?例:已知X具有概率分布 且设Y=X2,求Y的概率分布。解:Y的所有可能取值为0,1即找出(Y=0)的等价事件(X=0);(Y=1)的等价事件

39、(X=1)或(X=-1)88例:设随机变量X具有概率密度 求Y=X2的概率密度。 解:分别记X,Y的分布函数为Y在区间(0,16)上均匀分布。89一般,若已知X的概率分布,Y=g(X),求Y的 概率分布的过程为:关键是找出等价事件。90例:设 Y=2X,Z=X2,求Y,Z的概率分布。X-110pZ01pY-220p解:Y的可能取值为-2,0,2 Z的可能取值为0,1(Y=-2)的等价事件为(X=-1)(Z=1)的等价事件为(X=1)(X=-1)故得:91例: 92xh(y),yy0y=g(x)y9394例:解:例:解:9596复习思考题复习思考题 2 21.什么量被称为随机变量?它与样本空间的

40、关系如何?2.满足什么条件的试验称为“n重贝努里试验”?3.事件A在一次试验中发生的概率为p,0p1);(3)在Y=3的条件下,X的分布律。 解: (1)X, Y的联合分布律为126127 定义:条件分布函数128定义:条件概率密度129也就是,由事实上,130条件概率密度的直观意义:131 例4:设二维随机变量(X,Y)在区域 内均匀分布,求条件概率密度二维均匀分布的条件 分布仍为均匀分布 解: 根据题意,(X,Y) 的概率密度为: Y的边缘概率密度为: 于是给定y(-1y1),X的条件概率密度为:1321334 相互独立的随机变量134例1:1例2中X和Y是否相互独立?即(X,Y)具有概率

41、密度请问:连续型随机变量X,Y相互独立,其密度函数有何特征? 计算得,X和Y的边缘概率密度分别为:135XY01P(X=j)12P(Y=i)XY01P(X=j)12P(Y=i) ) 136 137138139140 一般一般n n维随机变量的一些概念和结果维随机变量的一些概念和结果 141 142边缘分布边缘分布 如:143 相互独立相互独立 144 定理1: 定理2:1455 两个随机变量的函数的分布146 147 148149例3:设X和Y是相互独立的标准正态随机变量,求 的概率密度。解:由卷积公式:一般:设一般:设X,YX,Y相互独立,相互独立,150 例4:X,Y相互独立,同时服从0,

42、1上的均匀分布,求 的概率密度。xx=zz120x=z-1 1 解:根据卷积公式:易知仅当参考图得:151 例5:设X,Y相互独立、服从相同的指数分布,概率密度为: 求 的概率密度。 解:根据卷积公式:152一般的,可以证明一般的,可以证明:若X,Y相互独立,且分别服从参数为X,Y的概率密度分别为证明:这是例3的推广,由卷积公式由此可知:153 154 推广推广到n个相互独立的随机变量的情况设X1,X2,Xn是n个相互独立的随机变量,它们的分布函数分别为: 则:155156 例7:设系统L由两个相互独立的子系统L1,L2联结而成,联结的方式分别为:(1)串联;(2)并联;(3)备用(当系统L1

43、损坏时,系统L2开始工作)。如图,设L1,L2的寿命分别为X,Y,已知它们的概率密度分别为:试分别就以上三种联结方式写出L的寿命Z的概率密度。XYL1L2XYL2L1XYL2L1157A.A.串联的情况串联的情况 由于当L1,L2中由一个损坏时,系统L就停止工作,所以L的寿命为Z=min(X,Y)Z=min(X,Y); 而X,Y的分布函数分别为:故Z的分布函数为:于是Z的概率密度为:即Z仍服从指数分布L1L2158B.B. 并联的情况并联的情况 由于当且仅当L1,L2都损坏时,系统L才停止工作,所以这时L的寿命为Z=max(X,Y),Z的分布函数为:于是Z的概率密度为:L1L2159C.C.

44、备用的情况备用的情况 由于这时当系统L1损坏时,系统L2才开始工作,因此整个系统L的寿命Z是L1,L2寿命之和,即Z=X+Y;因此:L1L2160复习思考题复习思考题 3 31.设(X,Y)为二维向量, 则Px1Xx2,y1Yy2=F(x2,y2)-F(x1, y1),对吗?2.设(X,Y)为二维连续量,则PX+Y =1=0,对吗?3.(X,Y)为二维连续型向量,f(x,y)为(X,Y)的联合概率密度,fX(x)和fY(y)分别为关于X和Y的边缘概率密度,若有一点(x0,y0)使f(x0,y0) fX(x0)fY(y0)则X和Y不独立,对吗?161关键词:数学期望方差协方差相关系数第四章随机变

45、量的数字特征162问题的提出:问题的提出:在一些实际问题中,我们需要了解随机变量在一些实际问题中,我们需要了解随机变量的分布函数外,更关心的是随机变量的某些特征。的分布函数外,更关心的是随机变量的某些特征。例:例: 在评定某地区粮食产量的水平时,最关心的在评定某地区粮食产量的水平时,最关心的是平均产量;是平均产量; 在检查一批棉花的质量时,既需要注意纤维的在检查一批棉花的质量时,既需要注意纤维的平均长度,又需要注意纤维长度与平均长度的平均长度,又需要注意纤维长度与平均长度的偏离程度;偏离程度;考察杭州市区居民的家庭收入情况,我们既知考察杭州市区居民的家庭收入情况,我们既知家庭的年平均收入,又要

46、研究贫富之间的差异家庭的年平均收入,又要研究贫富之间的差异程度。程度。163定义:定义:定义:定义:数学期望简称期望,又称均值。数学期望简称期望,又称均值。1 1 数学期望数学期望164 例例1 1:165 例例2 2:有:有2 2个相互独立工作的电子装置,它们的寿命个相互独立工作的电子装置,它们的寿命服从同一指数分布,其概率密度为:服从同一指数分布,其概率密度为: 若将这若将这2 2个电子装置串联联接个电子装置串联联接组成整机,求整机寿命组成整机,求整机寿命N(N(以小时计以小时计) )的数学期望。的数学期望。 解:解:是指数分布的密度函数问题:将2个电子装置并联联接组成整机, 整机寿命的期

47、望又是多少?只要求出一般指数分布的期望(即E(X1),就可得到E(N).166 例例3 3:设一台机器一天内发生故障的概率为:设一台机器一天内发生故障的概率为0.20.2,机器发生,机器发生 故障时全天停工。若一周故障时全天停工。若一周5 5个工作日里无故障,可获个工作日里无故障,可获 利利1010万元;发生一次故障获利万元;发生一次故障获利5 5万元;发生万元;发生2 2次故障次故障 获利获利0 0元,发生元,发生3 3次或以上故障亏损次或以上故障亏损2 2万元,求一周内万元,求一周内 期望利润是多少?期望利润是多少?解:设X表示一周5天内机器发生故障天数,设Y表示一周内所获利润,则Y-20

48、510P0.0570.2050.4100.328167 例例4 4:168例例5 5:169 170 171 例例6 6:172 例例7 7:设随机变量:设随机变量(X,Y)(X,Y)的概率密度为:的概率密度为: X=1173 174数学期望的特性:数学期望的特性: 这一性质可以推广到任意有限个随机变量线性组合的情况175证明:明:下面仅对连续型随机变量给予证明:176 例例9 9:一民航送客车载有:一民航送客车载有2020位旅客自机场出发,旅客有位旅客自机场出发,旅客有1010 个车站可以下车,如到达一个车站没有旅客下车就个车站可以下车,如到达一个车站没有旅客下车就 不停车,以不停车,以X

49、X表示停车的次数,求表示停车的次数,求 ( (设每位旅客在各个车站下车是等可能的,并设各旅设每位旅客在各个车站下车是等可能的,并设各旅 客是否下车相互独立客是否下车相互独立) )本题是将X分解成数个随机变量之和随机变量之和,然后利用随机变量和的数学期望等于随机变量数学期望之和来求数学期望,这种处理方法具有一定的普遍意义。 解:引入随机变量:177 例例1010:1782 2 方差方差设有一批灯泡寿命为:一半约设有一批灯泡寿命为:一半约950小时,另一半约小时,另一半约1050小时小时平均寿命为平均寿命为10001000小时;小时; 另一批灯泡寿命为:另一批灯泡寿命为: 一半约一半约1300小时

50、,另一半约小时,另一半约700小时小时平均寿命为平均寿命为10001000小时;小时;问题:哪批灯泡的质量更好?问题:哪批灯泡的质量更好? 单从平均寿命这一指标无法判断,进一步考察灯泡寿命X与均值1000小时的偏离程度。方差方差正是体现这种意义的数学特征。正是体现这种意义的数学特征。179定义:定义:180对于对于离散型随机变量随机变量X X,对于连续型连续型随机变量X,此外,利用数学期望的性质,可得方差的计算公式:181 例例1 1:设随机变量:设随机变量X X具有数学期望具有数学期望182 例例2 2:设随机变量:设随机变量X X具有具有0-10-1分布,其分布律为:分布,其分布律为: 解

51、:解:183 例例3 3: 解:解: 184 例例4 4:解:X的概率密度为:185 例例5 5:设随机变量:设随机变量X X服从指数分布,其概率密度为:服从指数分布,其概率密度为:即对指数分布而言,方差是均值的平方,而均值恰为参数即对指数分布而言,方差是均值的平方,而均值恰为参数186方差的性质:方差的性质: 187证明证明:188 例例6 6:Xkpk011-pp 例例7 7: 解:解:191例例8 8:设活塞的直径:设活塞的直径( (以以cmcm计计) ) 汽缸的直径汽缸的直径 X,YX,Y相互独相互独 立,任取一只活塞,任取一只汽缸,求活立,任取一只活塞,任取一只汽缸,求活 塞能装入汽

52、缸的概率。塞能装入汽缸的概率。192表表1 1 几种常见分布的均值与方差几种常见分布的均值与方差数学期望数学期望 方差方差分布率或密度函数分布01分布pp(1-p)二项分布b(n,p)npnp(1-p)泊松分布均匀分布U(a,b)指数分布正态分布1933 协方差及相关系数协方差及相关系数 对于二维随机变量对于二维随机变量(X,Y)(X,Y),除了讨论,除了讨论X X与与Y Y的数学期望和方差外,还需讨论描的数学期望和方差外,还需讨论描述述X X与与Y Y之间相互关系的数字特征。这就是本节的内容。之间相互关系的数字特征。这就是本节的内容。 定义:定义: 194协方差的性质:协方差的性质:思考题:

53、思考题:195 相关系数的性质:续196197198 例例1 1:设:设X,YX,Y服从同一分布,其分布律为:服从同一分布,其分布律为: X -1 0 1X -1 0 1 P 1/4 1/2 1/4 P 1/4 1/2 1/4 已知已知 , ,判断判断X X和和Y Y是否不相关?是否是否不相关?是否 不独立?不独立? 199200续201续202203 例例3 3:设:设X,YX,Y相互独立服从同一分布,方差存在,相互独立服从同一分布,方差存在, 记记U=X-Y,V=X+Y,U=X-Y,V=X+Y,则随机变量则随机变量U U与与V V是否一是否一 定不相关,是否一定独立?定不相关,是否一定独立

54、?2044 4 矩、协方差矩阵矩、协方差矩阵 205 利用协方差矩阵,可由二维正态变量的概率密度推广,得到利用协方差矩阵,可由二维正态变量的概率密度推广,得到n n维正态变量的概率密维正态变量的概率密度。度。208n维正态变量具有以下四条重要性质:维正态变量具有以下四条重要性质:209复习思考题复习思考题 4 41.叙述E(X)和D(X)的定义。2104.试述计算随机变量X的函数g(X)的数学期望Eg(X)的两种方法。5.设XN(,2),用如下两种方法求E(X2): (1)E(X2)=D(X)+E(X)2=2+2;(2)E(X2)=E(X.X)=E(X). E(X)=2;两种结果不一样,哪一种

55、错?为什么?6.设X和Y为两随机变量,且已知D(X)=6,D(Y)=7,则D(XY)=D(X)D(Y)=67=10,这与任意一个随机变量的方差都不小于零相矛盾,为什么?2117.考虑100包水泥的总重量Y用以下两种方式表示:(1)设第i袋水泥的重量为Xi , i=1,2,100, 由题意知, Xi N(50,2.52),Y=Xi , 则YN(100*50,100*2.52);(2)设一包水泥的重量为X,由题意知XN(50,2.52)。若将100包水泥的总重量看成是1包水泥的100倍,即Y=100X,Y是X的线性函数,则:E(Y)=100E(X)=100*50, D(Y)=1002D(X)=10

56、02*2.52YN(100*50,1002*2.52)这两种方法得到的总重量的分布不一样(因为方差不同,后者方差是前者的100倍),试问哪一种正确?8.试问D(X-Y)=D(X)+D(Y)-2cov(X,Y)对吗?212 数 理 统 计213第五章大数定律和中心极限定理 关键词:契比雪夫不等式大数定律中心极限定理2141 大数定律背景 本章的大数定律,对第一章中提出的 “频率稳定性”,给出理论上的论证为了证明大数定理,先介绍一个重要不等式215216 例1:在n重贝努里试验中,若已知每次试验事件A 出现的概率为0.75,试利用契比雪夫不等式估 计n,使A出现的频率在0.74至0.76之间的概率

57、不 小于0.90。217随机变量序列依概率收敛的定义218219大数定律的重要意义:贝努里大数定律建立了在大量重复独立试验中事件出现频率的稳定性,正因为这种稳定性,概率的概念才有客观意义,贝努里大数定律还提供了通过试验来确定事件概率的方法,既然频率nA/n与概率p有较大偏差的可能性很小,我们便可以通过做试验确定某事件发生的频率并把它作为相应的概率估计,这种方法即是在第7章将要介绍的参数估计法,参数估计的重要理论基础之一就是大数定理。2202 中心极限定理背景: 有许多随机变量,它们是由大量的相互独立 的随机变量的综合影响所形成的,而其中每 个个别的因素作用都很小,这种随机变量往 往服从或近似服

58、从正态分布,或者说它的极 限分布是正态分布,中心极限定理正是从数 学上论证了这一现象,它在长达两个世纪的 时期内曾是概率论研究的中心课题。 221222223 例2:设某种电器元件的寿命服从均值为100小时的指 数分布,现随机取得16只,设它们的寿命是相互 独立的,求这16只元件的寿命的总和大于1920小 时的概率。224 例3:某保险公司的老年人寿保险有1万人参加,每人每年交200元,若老人在该年内死亡,公司付给受益人1万元。设老年人死亡率为0.017,试求保险公司在一年内这项保险亏本的概率。225 例4:设某工厂有400台同类机器,各台机器发生故障的概 率都是0.02,各台机器工作是相互独

59、立的,试求机 器出故障的台数不小于2的概率。226第六章数理统计的基本概念关键词:总体个体样本统计量227引言:数理统计学数理统计学是一门关于数据收集、整理、分析 和推断的科学。在概率论中已经知道,由于大量的随机试验中各种结果的出现必然呈现它的规律性,因而从理论上讲只要对随机现象进行足够多次观察,各种结果的规律性一定能清楚地呈现,但是实际上所允许的观察永远是有限的,甚至是少量的。例如:若规定灯泡寿命低于1000小时者为次品,如何确定次品率?由于灯泡寿命试验是破坏性试验,不可能把整批灯泡逐一检测,只能抽取一部分灯泡作为样本进行检验,以样本的信息来推断总体的信息,这是数理统计学研究的问题之一。22

60、81 总体和样本总体:研究对象的全体。如一批灯泡。个体:组成总体的每个元素。如某个灯泡。抽样:从总体X中抽取有限个个体对总体进行观察的取值过程。随机样本:随机抽取的n个个体的集合(X1,X2,Xn), n为样本容量简单随机样本:满足以下两个条件的随机样本(X1,X2,Xn)称 为简单随机样本。1. 每个Xi与X同分布2. X1,X2,Xn是相互独立的随机变量说明:后面提到的样本均指简单随机样本,由概率论知,若总体X 具有概率密度f(x), 则样本(X1,X2,Xn)具有联合密度函数:229统计量:样本的不含任何未知参数的函数。常用统计量:设(X1,X2,Xn)为取自总体X的样本230 随机变量

61、独立性的两个定理2312 常用的分布232233 234235236237238 正态总体样本均值和方差的分布239240242复习思考题复习思考题 6 61.什么叫总体?什么叫简单随机样本?总体X的样本X1,X2,Xn有 哪两个主要性质?2.什么是统计量?什么是统计量的值?3.样本均值和样本方差如何计算?4.N(0,1)分布,t分布,2分布和F分布的双侧、下侧、上侧分位点是 如何定义的?怎样利用附表查这些分位点的值?5.对一个正态总体的三个常用统计量及其分布是什么?6.对两个正态总体的三个常用统计量及其分布是什么?243第七章参数估计关键词:矩估计法极大似然估计法置信区间置信度2442451

62、参数的点估计246247 248 249极大似然估计法极大似然估计法 极大似然估计的原理介绍极大似然估计的原理介绍考察以下例子: 假设在一个罐中放着许多白球和黑球,并假定已经知道两种球的数目之比是1:3,但不知道哪种颜色的球多。如果用返回抽样方法从罐中任取n个球,则其中黑球的个数为x的概率为:若取n=3,如何通过x来估计p值先计算抽样的可能结果x在这两种p值之下的概率:0 1 2 32 250251252 253 254255 256 257表表1 1 例例2 2,例,例4 4,例,例5 5中两种估计方法所得结果中两种估计方法所得结果例例 题题矩估计量矩估计量极大似然估计量极大似然估计量例 2

63、例 4 例 52582 估计量的评选标准 从表1看到,对总体的未知参数可用不同方法求得不同的估计量,如何评价好坏? 通常用三条标准检验:无偏性无偏性,有效性有效性,相合性相合性 无偏性无偏性259 260 261 纠偏方法262 有效性有效性263 264相合性相合性265 2663 区间估计267 268单侧置信区间269正态总体均值方差的区间估计270271272 273274区间短精度高区间长精度低275276 277278279280 例12:两台机床生产同一个型号的滚珠,从甲机床生产的滚 珠中抽取8个,从乙机床生产的滚珠中抽取9个,测得这 些滚珠得直径(毫米)如下: 甲机床 15.0

64、 14.8 15.2 15.4 14.9 15.1 15.2 14.8 乙机床 15.2 15.0 14.8 15.1 14.6 14.8 15.1 14.5 15.0281282说明 置信区间包含两方面含义 1.置信水平 2.区间长度置信水平越高,区间越大,但区间精确度差置信区间越小,精确度高,但置信水平差 待估 参数 其他 参数W 的 分 布置信区间单侧置信限 一个正态总体 两个正态总体正态总体均值、方差的置信区间与单侧置信限复习思考题复习思考题 7 71.总体未知参数矩估计的思想方法是什么?试写出0-1分布、 二项分布b(m,p)、泊松分布()、均匀分布U(a,b)、正态分布N(,2)中

65、有关参数的矩估计式2.极大似然估计的主要步骤是什么?3.未知参数的估计量与估计值有什么区别?5.估计量的三个基本评价标准是什么?你能理解它们的含义吗?6.求参数置信区间的一般方法是什么?对正态总体,试从有关 的统计量自行导出几类参数的置信区间?7.置信度的含义是什么?置信度、区间长度和样本容量的关系怎样?285复习思考题复习思考题 8 81.假设检验的基本思想是什么?其中使用了一条什么原理?2.检验的显著性水平的意义是什么?3.比较双边、左边和右边检验的拒绝域。4.使用U检验法可以进行哪些假设检验?5.使用t检验法可以进行哪些假设检验?6.使用2检验法可以进行哪些假设检验?7.使用F检验法可以

66、进行哪些假设检验?8.正态总体期望与方差的区间估计和假设检验两者之间有什么 相似之处?9.成对数据差的t检验适用于哪些特殊场合?10.分布拟合的2检验的基本步骤是什么?286 数 理 统 计287第八章假设检验 关键词:假设检验正态总体参数的假设检验分布拟合检验秩和检验2881 假设检验 统计推断的另一类重要问题是假设检验问题。它包括(1)已知总体分布的形式,但不知其参数的情况,提出参数的假设,并根据样本进行检验.(2)在总体的分布函数完全未知的情况下,提出总体服从某个已知分布的假设,并根据样本进行检验.289例1设某种清漆的9个样品,其干燥时间(以小时计)分别为:6.05.75.56.57.

67、05.85.26.15.0根据以往经验,干燥时间的总体服从正态分布N(6.0,0.36),现根据样本检验均值是否与以往有显著差异?例2一种摄影药品被其制造商声称其贮藏寿命是均值180天、标准差不多于10天的正态分布。某位使用者担心标准差可能超过10天。他随机选取12个样品并测试,得到样本标准差为14天。根据样本有充分证据证明标准差大于10天吗?例3孟德尔遗传理论断言,当两个品种的豆杂交时,圆的和黄的、起皱的和黄的、圆的和绿的、起皱的和绿的豆的频数将以比例9:3:3:1发生。在检验这个理论时,孟德尔分别得到频数315、101、108、32、这些数据提供充分证据拒绝该理论吗?290 参数的假设检验

68、问题处理步骤1. 根据实际问题的要求,提出原假设和备择假设;2. 根据样本X_i,确定检验统计量T(X_i)以及拒绝域(拒绝原假设的区域)的形式;3. 给定显著性水平,按照“在原假设H0成立时,拒绝原假设的概率不大于显著性水平”这一原则,确定拒绝域;4根据样本观测值作出决策,接受原假设还是拒绝原假设。291例1设某种清漆的9个样品,其干燥时间(以小时计)分别为:6.05.75.56.57.05.85.26.15.0根据以往经验,干燥时间的总体服从正态分布N(6.0,0.36),现根据样本检验均值是否与以往有显著差异?由于作出决策的依据是一个样本,因此,可能出现“实际上原假设成立,但根据样本作出

69、拒绝原假设”的决策。这种错误称为“第一类错误”,实际中常常将犯第一类错误的概率控制在一定限度内,即事先给定较小的数(01)(称为显著性水平),使得292上述检验法则符合实际推断原理。293注释1:假设检验中的4种可能结果通常,犯第一类错误的概率、犯第二类错误的概率、样本容量可以看作为“三方拔河”。决策原假设H0真的假的不拒绝H0拒绝H0正确决策第二类错误第一类错误正确决策第一类错误:原假设H0成立时,作出拒绝原假设的决策;第二类错误:备择假设H1成立时,作出接受原假设的决策。294这是一对矛盾,要同时减少犯第一、第二类错误,只有增大样本容量。295注释2:假设检验与区间估计的比较。即拒绝域可以

70、这样得到:将置信区间不等号反向,将原假设成立时的值代入到参数中即可。2962 正态总体均值方差的假设检验297298299300例2某种元件的寿命X(以小时记)服从正态分布均未知。现测得16只元件的寿命如下:159280101212224379179264222362168250149260485170问是否有理由认为元件的平均寿命大于225(小时)?(取显著性水平为0.05)t没有落在拒绝域内,故接受原假设,认为元件的平均寿命不大于225小时。301例3要求某种元件的平均使用寿命不得低于1000小时,生产者从一批这种元件中随机抽取25件,测得其平均寿命为950小时,标准差为100小时。已知这

71、批元件的寿命服从正态分布。试在显著性水平0.05下确定这批元件是否合格?t落在拒绝域内,故拒绝原假设,认为这批元件的平均寿命小于1000小时,不合格。302303304305 例4:某厂使用两种不同的原料A,B生产同一类型产品。各在一周的产品中取样分析。取用原料A生产的样品220件,测得平均重量为2.46(公斤),样本标准差s=0.57(公斤)。取用原料B生产的样品205件,测得平均重量为2.55(公斤),样本标准差为0.48(公斤)。设两样本独立,来自两个方差相同的独立正态总体。问在水平0.05下能否认为用原料B的产品平均重量较用原料A的为大。 306 基于成对数据的检验例5:为了试验两种不

72、同谷物种子的优劣,选取了十块土质不同的土地,并将每块土地分为面积相同的两部分,分别种植这两种种子。设在每块土地的两部分人工管理等条件完全一样。下面给出各块土地上的产量。土地 1 2 3 4 5 6 7 8 9 10种子A(xi) 23 35 29 42 39 29 37 34 35 28种子B(yi) 26 39 35 40 38 24 36 27 41 27di=xi-yi -3 -4 -6 2 1 5 1 7 -6 1问:以这两种种子种植的谷物产量是否有显著的差异(取显著性水平为0.05)?307 308309 310(四)两个正态总体方差的检验311 例7:两台机床生产同一个型号的滚珠,

73、从甲机床生产的滚珠中 抽取8个,从乙机床生产的滚珠中抽取9个,测得这些滚珠 的直径(毫米)如下: 甲机床 15.0 14.8 15.2 15.4 14.9 15.1 15.2 14.8 乙机床 15.2 15.0 14.8 15.1 14.6 14.8 15.1 14.5 15.0312313待估参数 原假设枢轴量 检验统计量 分 布置信区间拒绝域 一个正态总体两个正态总体正态总体均值、方差的置信区间与假设检验315 定义若C是参数的某检验问题的一个检验法,称为检验法C的施行特征函数或OC函数,其图形称为OC曲线。3 样本容量的选取3161。Z检验法的OC函数317318319 例8(工业产品

74、质量抽验方案)设有一大批产品,产品质量指标X服从 。以小者为佳,厂方要求所确定的验收方案对高质量的产品 能以高概率1为买方所接受。买方则要求低质产品 能以高概率1被拒绝。,有厂方与买方协商给出。并采取一次抽样以确定该批产品是否为买方所接受。问应怎样安排抽样方案。已知 且由工厂长期经验知 。经商定=0.05。3202。t检验法的OC函数321322 3234.分布拟合检验 前面介绍的各种检验法都是在总体服从正态分布前提下,对参数进行假设检验的。实际中可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体分布提出一个假设 。 例如,要检验在计算机上产生随机数的一个程序。指令该程序产生

75、0到9之间的100个单个数字。观察整数的频数如下表。那么以0.05的显著性水平,有充分的理由相信该批整数不是均匀产生的吗?整数0123456789频数1187710108111414324 例如,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,据统计,这432年间共爆发了299次战争,具体数据如下:战争次数X 0 1 2 3 4发生X次战争的年数 223 142 48 15 4 通常假设每年爆发战争的次数服从泊松分布。那么上面的数据是否有充分的理由推翻每年爆发战争的次数服从泊松分布假设?325它是在总体X 的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一

76、种检验方法。(一)拟合检验法326327328329战争次数X 0 1 2 3 4发生X次战争的年数 223 142 48 15 4 例1,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,据统计,这432年间共爆发了299次战争,具体数据如下: 通常假设每年爆发战争的次数服从泊松分布。那么上面的数据是否有充分的理由推翻每年爆发战争的次数服从泊松分布假设?战争次数x01234实测频数22314248154概率估计0.5020.3460.1190.0270.006理论频数21714951123330战争次数x01234实测频数22314248154概率估计0.5020.

77、3460.1190.0270.006理论频数21714951331 例2孟德尔遗传理论断言,当两个品种的豆杂交时,圆的和黄的、起皱的和黄的、圆的和绿的、起皱的和绿的豆的频数将以比例9:3:3:1发生。在检验这个理论时,孟德尔分别得到频数315、101、108、32、这些数据提供充分证据拒绝该理论吗?豆子状态x1234实测频数31510110832概率9/163/163/161/16理论频数312.75104.25104.2534.75332141148132138154142150146155158150140147148144150149145149158143141144144126140

78、144142141140145135147146141136140146142137148154137139143140131143141149148135148152143144141143147146150132142142143153149146149138142149142137134144146147140142140137152145 例3下面列出了84个伊特拉斯坎(Etruscan)人男子的头颅的最大宽度(mm),试检验这些数据是否来自正态总体(取=0.1)333解为粗略了解数据的分布情况,先画出直方图。步骤如下:1.找出数据的最小值、最大值为126、158,取区间124.5,1

79、59.5,它能覆盖126,158;2.将区间124.5,159.5等分为7个小区间,小区间的长度=(159.5-124.5)/7=5, 称为组距,小区间的端点称为组限,建立下表:组组 限限频数 fi频率 fi /n累计频率124.5-129.5129.5-134.5134.5-139.5139.5-144.5144.5-149.5149.5-154.5154.5-159.514103324930.01190.04760.11910.39290.28570.10710.03570.01190.05950.17860.57150.85720.952413343.自左向右在各小区间上作以fi /n为

80、高的小矩形 如下图,即为直方图。注:直方图的小区间可以不等长,但小区间的长度不能太大,否则平均化作用突出,淹没了密度的细节部分;也不能太小,否则受随机化影响太大,产生极不规则的形状。335从本例的直方图看,有一个峰,中间高,两头低,较对称,样本象来自正态总体。于是检验336 x129.5129.5x134.5134.5x139.5139.5x144.5144.5x149.5149.5x154.5154.5x2)个水平,n个对象参与了试验。假定对应于因素第j个水平的组中有个试验对象,响应变量数据为通常假定359检验假设假设等价于360(二)平方和分解361证明:362363364方差来源平方和自

81、由度均方F比因素As-1误差n-s总和n-1单因素试验方差分析表365366例1设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:(=0.05)药物x治愈所需天数y15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,6367这里药物是因子,共有5个水平,这是一个单因素方差分析问题,要检验的假设是“所有药物的效果都没有差别”。方差分析表方差来源平方和自由度均方F比因素A36.466749.11673.90误差58.50002

82、52.3334总和94.966729368未知参数的估计3693702 双因素试验的方差分析 例假设某药物研究者为检验a,b两种化学物质的抗癌效果,要做动物试验。通常的作法是:将一些患有某种癌的白鼠随机地分成三组。其中两组分别注射a,b两种化学物质,而第三组不作处理,作为对照。记第一组:注射a物质,第二组:注射b物质,第三组:不做处理。经过一段时间观察后,得到寿命数据。在这个药物试验中,如果白鼠的性别有可能对其寿命有显著的影响。这时应该考虑将“性别”作为一个因素“双因素试验双因素试验”。因素A:药物,三个水平;因素B:性别,二个水平;两个因素共有236种组合。371(一)双因素等重复试验的方差

83、分析因素B因素A372373分别检验假设374375376377378双因素试验的方差分析表方差来源平方和自由度均方F比因素A因素B交互作用误差总和379例3为了比较3种松树在4个不同的地区的生长情况有无差别,在每个地区对每种松树随机地选取5株,测量它们的胸径,得到的数据列表如下。松树数据表松树种类地区1234123,15,26,13,2125,20,21,16,1821,17,16,24,2714,17,19,20,24228,22,25,19,2630,26,26,20,2819,24,19,25,2917,21,18,26,23318,10,12,22,1315,21,22,14,122

84、3,25,19,13,2218,12,23,22,19380这是一批等重复的两种方式分组数据,记树种因素为A,地区因素为B,则A因素有3个水平,B因素有4个水平,总共有12个水平组合,每个组合(单元)有5个重复观测。将树的胸径作为度量树的生长情况是否良好的数值指标,我们的目标是:由以上数据来判断不同树种及不同地区对松树的生长情况是否有影响(好或坏)?这里要考虑的影响有三种:树种的单独影响(A因素主效应),地区的单独影响(B因素主效应),以及不同树种和不同地区的结合所产生的交互影响(AB因素的交互效应)。这是一个典型的等重复双因素方差分析模型。381输出各单元总和及因素水平总和:松树数据的总和表

85、单元总和B1B2B3B4水平总和A19810010594397A2120130116105471A3758410294355水平总和2933143232931223382方差来源平方和自由度均方F比F值=0.05因素A344.93332172.46679.453.19因素B46.0500315.35000.842.80交互作用113.6000618.93331.042.30误差875.60004818.2417总和1380.183359双因素方差分析表383 进一步考查A因素不同水平的均值。注意到A因素的第二水平为最大:23.55,而第三水平的均值为最小:17.65,可以认为树种2的生长情况优

86、于树种3。能够得出这个结论,得益于观测的等重复性。然后再来看B因素的主效应,即在扣除松树种类的效应后,不同地区对树的胸径的影响。由方差分析表知,B因素的主效应不显著,即不同的地区对树的胸径没有显著影响。最后来看AB因素的交互效应,即在扣除两种效应后,由不同树种和不同地区的结合而产生的对树的胸径的影响,这种影响可以解释为某些地区特别适合(或特别不适合)某个树种的生长。结果也不显著。 首先来看A因素主效应,即在扣除地区效应后, 松树的不同种类对树的胸径的影响。由方差分析表可以看出,A因素主效应是显著的,即松树的不同种类对树的胸径有显著影响。384(二)双因素无重复试验的方差分析因素B因素A3853

87、86分别检验假设387388389390双因素无重复试验的方差分析表方差来源平方和自由度均方F比因素A因素B误差总和391例4假定对3个小麦品种和3块试验地块进行区组设计试验,得到如下的数据:表小麦品种区组试验数据小麦品种(A)试验地块(B)总和B1B2B3A1258279242779A2302314336952A3321318327966总和8819119052697392在这个问题中我们关心的是小麦的不同品种之间在产量上的差异。由于地块不同对小麦的产量也会有影响,因此在比较试验结果时,要扣除地块的影响之后再来比较品种的差异。假定品种与地块之间无交互效应,则可对上述数据进行双因素可加效应模型

88、的方差分析。393双因素无重复试验的方差分析表方差来源平方和自由度均方F比F值=0.05因素A7232.666723616.333312.506.94因素B168.0000284.00000.296.94误差1157.33334289.3333总和8558.00008394在这个问题中我们所关心的是因素A的效应,由方差分析表知,原假设不成立,即认为小麦品种的产量之间有显著差异。在这里,品种3的单产最高,而品种1的产量最低,因此可以断定品种3明显地优于品种1。3953 一元线性回归分析一、确定性关系:当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的高度h与下落时间t之

89、间有函数关系:变量与变量之间的关系396二、相关性关系:变量之间的关系并不确定,而是表现为具有随机性的一种“趋势”。即对自变量x的同一值,在不同的观测中,因变量Y可以取不同的值,而且取值是随机的,但对应x在一定范围的不同值,对Y进行观测时,可以观察到Y随x的变化而呈现有一定趋势的变化。如:身高与体重,不存在这样的函数可以由身高计算出体重,但从统计意义上来说,身高者,体也重。再如:父亲的身高与儿子的身高之间也有一定联系,通常父亲高,儿子也高。回归分析研究相关性关系的最基本,应用最广泛的方法。397(一)一元线性回归398在实际问题中,回归函数(x)一般是未知的,需要根据试验数据去估计。39940

90、0一元线性回归要解决的问题:401(二)a,b的估计最小二乘估计402正规方程系数行列式403 在误差为正态分布假定下,最小二乘估计等价于极大似然估计。事实上,似然函数404405406例1K.Pearson收集了大量父亲身高与儿子身高的资料。其中十对如下:父亲身高x(吋)60626465666768707274儿子身高y(吋)63.665.2 6665.5 66.9 67.1 67.4 68.370.1 70求Y关于x的线性回归方程。407408(三)误差方差的估计409410例2求例1中误差方差的无偏估计。411(1)影响Y取值的,除了x,还有其他不可忽略的因素;(2)E(Y)与x的关系不

91、是线性关系,而是其他关系;(3)Y与x不存在关系。(四)线性假设的显著性检验采用最小二乘法估计参数采用最小二乘法估计参数a和b,并不需要事先知道Y与x之间一定具有相关关系,即使是平面图上一堆完全杂乱无章的散点,也可以用公式求出回归方程。因此(x)是否为x的线性函数,一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明Y与x不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:412413例3检验例1中回归效果是否显著,取=0.05。414(五)回归系数b的置信区间当回归效果显著时,常需要对回归系

92、数b作区间估计。415 (六)回归函数 函数值的点估计和置信区间416417(七)Y的观察值的点预测和预测区间418419420注:在预测时, 一定要落在已有的 的数据范围内部,否则预测常常没有意义。421例4,在例1中F.Galton曾断言“儿子身高会受到父亲身高的影响,但身高偏离父代平均水平的父亲,其儿子身高的影响有回归到子代平均水平的趋势。”试问例1这组数据能证实这一论断吗(=0.05)?并给出x=69吋时,y的预测区间。(1)回归到平均水平的趋势,即检验422423例5合金钢的强度y与钢材中碳的含量x有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了

93、解y与x之间的关系。其中x:碳含量()y:钢的强度(kg/mm2)数据见下:x0.030.040.050.070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.0(1)画出散点图;(2)设(x)=a+bx,求a,b的估计;(3)求误差方差的估计,画出残差图;(4)检验回归系数b是否为零(取=0.05);(5)求回归系数b的95置信区间;(6)求在x=0.06点,回归函数的点估计和95置信区间;(7)求在x=0.06点,Y的点预测和95区间预测。 424 0.03 0.05 0.07 0.09 0.11 0.13 0.

94、15 0.17 0.1956 54 52 50 48 46 44 42 40 38 (1)合金钢的强度y与钢材中碳的含量x的散点图425x0.030.040.050.070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.0426 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19 x0e427 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.1956 54 52 50 48 46 44 42 40 38 合金钢的强度y与钢材中碳的含量x的回归直

95、线图428429430(八)可化为一元线性回归的例子实际中常会遇到很复杂的回归问题,但在某些情况下,通过适当的变量变换,可将其化为一元线性回归来处理。下面是三种常见的可转化为一元线性回归的模型。4314324 多元线性回归在实际问题中,影响Y(因变量)的因素(自变量)往往不止一个,设有433434435436437438例6某公司在各地区销售一种特殊化妆品。该公司观测了15个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下:表1.1.2化妆品销售的调查数据地区i销售(箱)Yi人数(千人)Xi1人均收入(元)Xi2116227424502120180

96、3254322337538024131205283856786234761692653782781983008439地区i销售(箱)Yi人数(千人)Xi1人均收入(元)Xi281923302450911619521371055532560112524304020122323724427131442362660141031572088152123702605化妆品销售的调查数据(续)440441由回归方程可知,若固定人均收入不变,则人数每增加1千人,销售量增加0.496箱;若固定人数不变,收入每增加1元,销售量增加0.0092箱。 多元线性回归也可以像一元线性回归一样,检验模型的回归效果是否显著。所不同的是,在模型的回归效果显著的情况下,还要检验每个自变量对因变量的效应是否显著,不显著就要剔除,通常用逐步回归法可以使回归方程变得简洁、明确、显著。在此基础上可以对给定点处对应的Y进行点预测和区间预测。所有这些都可以通过SAS软件实现。2024/7/24课件结束!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号