概率统计ch51资料教程

资源描述

《概率统计ch51资料教程》由会员分享，可在线阅读，更多相关《概率统计ch51资料教程（63页珍藏版）》请在金锄头文库上搜索。

1、概率论是在已知随机变量服从某分布的前提下，对其性质、数字特征和应用进行研究。,但这个前提通常并不清楚，数理统计学就是解决这个问题的。,数理统计学：以概率论为基础，根据实验或观察得到的数据来研究随机现象，以便对研究对象的客观规律性做出合理的估计和推断。,由于大量随机现象必然呈现出它的规律性，因而从理论上讲，只要对随机现象进行足够多次观察，被研究的随机现象的规律性就一定能清楚地呈现出来.,但客观上很难对研究对象的全体进行观察，而只能抽取其中的部分进行观察或试验，以获得有限的数据资料。,数理统计的任务：研究怎样有效地收集、整理有限的数据资料，怎样对所得的数据资料进行分析、研究，从而对所研究对象的性质

2、、特点做出合理的推断。,数据资料有限：就一定需要具有代表性。由部分推断整体：就一定要求合理，减少误差和错误。,参数估计 (第六章),假设检验 (第七章),回归分析 (第八章),方差分析 (第八章),推断统计学,从历史的典籍中，人们不难发现许多关于钱粮、户口、地震、水灾等等的记载，说明人们很早就开始了统计的工作 . 但是当时的统计，只是对有关事实的简单记录和整理，而没有在一定理论的指导下，作出超越这些数据范围之外的推断.,数理统计简史,到了十九世纪末二十世纪初，随着近代数学和概率论的发展，才真正诞生了数理统计学这门学科.,数理统计不同于一般的资料统计，它更侧重于应用随机现象本身的规律性进行资

3、料的收集、整理和分析、推断.,可见，在数理统计中必然要用到概率论的理论和方法. 概率论是数理统计的基础，而数理统计是概率论的重要应用. 但它们是并列的两个学科，并无从属关系 .,数理统计的特点是应用面广，分支较多. 社会的发展不断向统计提出新的问题.,计算机的诞生与发展，为数据处理提供了强有力的技术支持，数理统计与计算机的结合是必然的发展趋势.,由于学时有限，课程的的这部分内容重点在于介绍数理统计的一些重要概念和典型的统计方法，它们是实际中最常用的知识.,学习统计无须把过多时间化在计算上，可以更有效地把时间用在基本概念、方法原理的正确理解上,国内外著名的统计软件包： SAS，SPSS，STAT

4、，SPLUS等，都可以快速、简便地进行数据处理和分析.,由于推断是基于抽样数据，抽样数据又不能包括研究对象的全部信息. 因而由此获得的结论必然包含不肯定性.,统计中的不确定性,下面举例进行说明：,某种子公司(A)，培育了大量的鲜花，将收获的花籽每25粒扎成一小包出售. 一个零售商(B)批发了若干包，并向顾客保证：在每包25粒花籽中至少有22粒将能发芽，否则的话可免费调换另一包.,每包要是有3粒不发芽，马上免费退换！,每包25粒,每包25粒中至少有22粒将发芽,每包都如此吗？所占比例是多少？,这种类型的不肯定性，是由于对总体的真实状态（分布规律）无知所引起的不肯定性.,(B)面临如下两种

5、类型的不肯定性：,(2)假设(A)出售的花籽共有一百万包，而(B)只购买了200包，因此他又面临着另一类不肯定性；,假定他知道了一百万包可接受的比例，但对他所购买的200包中可接受的比例仍旧没有“把握”.,(B)购买的200包仍有可能“碰巧”是从不可接受的一万包中选取的.,假设是0.99，即种子公司出售的一百万包中有99万包是可接受的，,这样他就要损失一笔资金.,这一类不肯定性是由于“随机性”所引起的.,在已知的条件下，这种不肯定性的程度已在概率论部分作过讨论.,下面回到第一类不肯定性：,(B)对(A)出售的小包中可接受的包数所占比例是多少没有把握的.,(B)可以根据试验的方法（请公司

6、进行发芽试验）来改善他的处境.,根据试验他能作出天然状况是多少的决策.,这就是抽取部分种籽进行发芽试验，通过这部分中发芽数所占比例（频率)来对的真值进行推断.,(1)怎样设计试验，决定观察的数目；,(2)怎样利用试验观察的结果作出一个“好”的推断等.,这就是数理统计所要研究的两类问题.,虽然他不能精确地和肯定地确定，但可以期望获得一个（在某种意义下）比较好的推断.,这就涉及到,第一个问题是怎样进行抽样，使抽得的样本更合理,并有更好的代表性？这是抽样方法和试验设计问题：最简单易行的是进行随机抽样.,第二个问题是怎样从取得的样本去推断总体？这种推断具有多大的可靠性？,这是统计推断问题.,本

7、课程着重讨论第二个问题, 即最常用统计推断方法.,归纳推理不同于数学中的“演绎推理”,归纳推理在作出结论时，是根据所观察到的个别情况，“归纳”起来所得，而不是从一些假设、命题、已知的事实等出发，按一定的逻辑推理去得出来的.,由于统计推断是根据部分观察值去推断研究对象全体的情况，即由部分推断总体. 种推理方法称为“归纳推理”.,统计中的归纳推理,例如，在几何学中要证明“等腰三角形底角相等”只须从“等腰”这个前提出发，运用几何公理，一步一步推出这个结论.,而一个习惯于统计思想的人，就可能想出这样的方法：做很多大小形状不一的等腰三角形，实地测量其底角，看差距如何，根据所得资料看看可否作出“底角相等”

8、的结论. 这样做就是归纳式的方法.,现在要问：从局部观察要对总体下结论有没有片面性呢？即归纳推理是否可靠？,显然归纳推理不仅依赖于进行局部观察的“样本”是否具有总体的代表性，也依赖于用怎样的方法对从这些样本数据进行合理加工、分析并得出论断.,根据矛盾论，抽取的每一个样品具有两重性：,一方面它具有特殊性，因为它毕竟是个别观察值，不能反映总体的全面性质，有片面性.,因而统计上往往不采用由一次抽取的样品来下结论.,在这个基础上再加上科学的推断方法，对总体下的结论同样也是可靠的.,另一方面也要看到“普遍性即存在于特殊性之中”，即每个样品的情况又必然反映总体的一些普遍性.,当样品有一定数量时总体的普遍性

9、是可以得到比较真实的反映的.,但此时还应记住毕竟是由“局部”推断“整体”，因而仍可能犯错误，结论往往又是在某个“可靠性水平”之下得出的.,这种矛盾的特殊性与普遍性的辩证统一在统计学中贯穿始终，是我们应该记住的基本思想.,一、总体与样本,三、统计量,Ch5：数理统计的基础知识,1 数理统计的基本概念,二、直方图与经验分布函数,总体：具有一定共性的研究对象的全体,一、总体与样本,1、总体与总体分布,总体的大小和范围随具体研究与考察的目的而定,个体：构成总体的每一个成员,总体与个体之间的关系，即集合与元素的关系,某工厂10月份生产的灯泡所组成的总体,是一个有限总体,容量就是10月份生产的灯泡;该工厂

10、生产的所有灯泡所组成的总体是一个无限总体, 它包括以往生产和今后生产的所有灯泡.,例1,当有限总体包含的个体的总数很大时, 可近似地将它看成是无限总体.,总体容量：总体中所含个体的数量,在统计研究中，人们关心的并非总体中每个个体的所有特征，而仅仅是关心其一项(或几项)数量指标.,该批灯泡寿命的全体就是总体,灯泡的寿命,研究对象的某项数量指标的全体称为总体.,显然，代表总体的数量指标是一个随机变量.,总体分布：把 X 的分布称为总体分布。,一个总体对应一个随机变量，仍然使用 X 表示,X 的分布和数字特征称为总体的分布和数字特征,在研究学生的年龄时, 这些学生年龄的全体就构成一个总体 X , 每

11、个学生的年龄就是个体，是 X 的某个具体的取值.,例2,例3：在2000名大一学生的年龄中, 指标值为15 20的依次有9,21,132,1207,588,43 名, 则：,即为学生年龄的近似分布.,1、非数量指标构成的总体，可以使用定义随机变量的方法进行数量化。,说明：,2、总体分布一般是未知的，需要进行推断或估计。,按一定原则从总体中抽取若干个个体进行观察，这个过程叫做抽样.,2、样本与样本分布,从总体中抽取的这部分个体称为样本. 样本中所包含的个体数目称为样本容量.,显然，每个个体的观察结果是随机的，可以看成是一个随机变量的取值。于是，个体的观察结果与随机变量的取值就形成了对应。,容量

12、为n 的样本可表示为：,记从总体 X 中第 i 次抽取的个体指标为，则 Xi 是一个随机变量,用 xi 表示个体指标Xi 的具体观察值。,显然，样本的一个实现是对总体的n个个体进行观察，第 i 个个体的观察值是样本分量Xi的一个取值。,为了使抽取的样本能够很好地反映总体的信息，需要对抽样方式进行一定的限制。,满足以下两个条件的抽样称为简单随机抽样：,代表性：与总体X 有相同的分布,独立性：是相互独立的随机变量,由简单随机抽样得到的样本称为简单随机样本，显然，简单随机样本是独立同分布的。,对有限总体,放回抽样所得到的样本为简单随机样本,但使用不方便。实际操作中常使用不放回抽样，当总体容量

13、相对于样本容量很大时，近似地把不放回抽样得到的样本看成是简单随机样本。,样本分布,称其为样本分布。,离散型,连续型,解,例4,解,例5,事实上，抽样后得到的资料都是具体的、确定的值. 如从大一学生中抽取10人测量身高，得到10个数，它们是样本取到的值而不是样本. 我们只能观察到随机变量取的值而见不到随机变量.,总体、样本、样本值的关系,抽样,推断,统计是从手中已有的资料-样本值，去推断总体的情况-总体分布F(x)的性质.,样本是联系二者的桥梁,总体分布决定了样本取值的概率规律，也就是样本取到样本值的规律，因而可以由样本值去推断总体.,抽样产生的样本值，一般是杂乱无章的，需要进行整理才能从总体上

14、呈现其统计规律性。,二、直方图与经验分布函数,常用的两种整理方法：分组数据统计表和直方图。,1.分组数据表,组距：分组的区间长度，一般取成相等。,原则：突出分布的特征，冲淡样本的随机性,组数：分组区间的个数，应与样本容量相适应。,组频数：区间所含的样本值个数。,组频率：组频数与样本容量的比值。,2.频率直方图,组频数的分布,步骤：,求最值：即数据中最大值与最小值,划分区间：根据最值和组数确定组距，进而划分区间，一般小区间不包含右端点。,列出频率分布表：统计组频数，计算组频率、高：,例6：教材P1249例4,画出频率直方图：在第 i 个小区间上以 hi 为高。,频率直方图可以形象地描述总体的概

15、率分布的大致形状。,3.经验分布函数,累积频率直方图,经验分布函数可以用来描述总体分布函数的大致形状。做法如下：,例7,格里汶科定理,三、统计量,1. 统计量的定义,是,不是,例8,2. 几个常用统计量（样本矩）,(1)样本平均值,(2)样本方差,其观察值,其观察值,(3)样本标准差,其观察值,(4) 样本 k 阶(原点)矩,其观察值,(5)样本 k 阶中心矩,其观察值,证明,根据辛钦定理知,由以上定义得下述结论:,由依概率收敛的序列的性质知,以上结论是下一章所要介绍的矩估计法的理论根据.,注样本方差与样本二阶中心矩的不同,2）,3 顺序统计量与极差,设,为样本,为样本值,且,定义 r.

16、v.,则称统计量,为顺序统计量.,其中,为极差,例9 从一批机器零件毛坯中随机地抽取10件, 测得其重量为(单位: 公斤): 230, 243, 185, 240, 215, 228, 196, 235, 200, 199 求这组样本值的均值、方差、二阶原点矩与二阶中心矩.,解,令,则,例10 在总体中,随机抽取一个容量为36的样本,求样本均值落在50.8到53.8 之间的概率.,解,故,例11 设总体X 的概率密度函数为,为总体的样本,求,(2),(3),解(1),(3),由中心极限定理,(2),第13周问题,某水产养殖场两年前在人工湖中混养了黑、白两种鱼. 现在需要对黑白鱼数目的比例进行估计.,提示：分别用矩法与极大似然估计,法解决此问题.,如何估计湖中黑、白鱼的比例,

展开阅读全文