《使用概率的统计》ppt课件

资源描述

《《使用概率的统计》ppt课件》由会员分享，可在线阅读，更多相关《《使用概率的统计》ppt课件（37页珍藏版）》请在金锄头文库上搜索。

1、第四节使用概率的统计,一总体与样本概念数理统计（即：使用概率的统计）中首先要遇到的基本而重要的概念便是所谓总体与样本概念。总体：在数理统计中，研究某一问题时，常把要研究的对象的全体称为总体（或母体）（例如，考察某厂某天生产的一批产品时，这批产品就是总体）。,个体：把总体中每一个基本单位称为个体（如，这批产品中的每个产品就是个体）。由于总体中的个体一般较多（如，这批产品中的产品个数一般较多），有时甚至要遇到破坏性试验（如，测量一批灯泡的寿命），研究该总体时，普查的方法往往是行不通的，只能从中抽取若干个个体进行考察。,样本：假定在总体中，抽取n个个体这n个个体就称为来自总体的

2、一个容量为n的样本（或子样），可记作样品：组成样本的每一个个体称为样品。至此，我们已给出了总体、个体、样本、样本容量及样品的概念。,显然，考察样本的目的是为了由此推断总体的性质，引出科学的结论。于是有数理统计的基本思想：由样本推断总体（由局部推断整体）,上面给出的总体与样本的概念是比较直观的，容易为初学者所接受。但遗憾的是，这种提法不利于进行统计分析。为此，我们通过具体例子来引出另一种便于进行统计分析的提法。例1 某灯泡厂生产灯泡，由于种种随机因素的影响，生产出来的灯泡的寿命是不尽相同的。为了断定所生产灯泡的质量，这批灯泡的寿命是一个重要指标。,此时，可把这批灯泡视为总体，而把这批

3、灯泡中的每一个灯泡视为个体。为获得关于这批灯泡的寿命的资料，可以抽取若干个（譬如说n个）灯泡做寿命试验。这样，就是来自总体的一个容量为n的样本，而单个的就是样品,但需注意，这里我们并不关心这批灯泡的所有性能，而是仅仅考察这批灯泡的寿命（记为）X，这样就把“泛泛”的统一成了X。我们可以假想将这批灯泡逐一编好了号码，第j个灯泡的寿命记为X(j)。现从中任取一个灯泡，简单地用j表示“取到的是第j个灯泡”，则X(j)为试验结果的函数（当j跑遍所有试验结果时），从而为随机变量。显然，可将这样的X(j)与X视为一致。这样，总体就成了随机变量X 。,再设所取灯泡的寿命分别为。注意到预

4、先根本不知道抽取的是哪n个灯泡，因此都是随机变量。至此已将处理成了随机变量。为保证样本能较好地代表总体，抽样（即抽取样品）时要排除人为的偏差，可把抽取 n个灯泡的过程依下法进行：,每次抽取一个（贴上标签后）再放回去，有放回抽取n次，且要保证每一次中这批灯泡中每个灯泡被抽到的机会都一样，然后将取到的n个灯泡（可能有重复的）进行寿命试验。这样，就获得了若干个（n个）独立且与X有相同的概率分布的随机变量（这里，所谓相互独立是指它们的取值互不影响）。我们总结出如下较严格的定义：,定义设为随机变量，若相互独立，且都与X有相同的概率分布（或密度函数），则称X为

5、总体，而称为来自总体X的一个容量为n的样本，可将样本记为，单个的Xi称为样品(i=1,2, ,n)。,直观上，我们所要考察的随机变量（记为）X就是总体，而通过n次独立重复试验所获得的n个独立且与X有相同的概率分布（或密度函数）的随机变量就是来自总体X的一个容量为n的样本。,在实际中，进行抽样时，人们并不总是采取有放回抽取的办法。如例1中，我们有可能是一次抽取n个灯泡进行寿命试验，这样得到的就不具有独立性了。然而，由于灯泡寿命试验是破坏性试验，因此不可能抽取很多个来试验，即n不会很大。再注意到厂家生产的灯泡批量一般是相当大的，此时，不放回抽取可近似地当作有放回抽取来对待。故可

6、近似看作相互独立且与X有相同的概率分布（或密度函数）的随机变量，仍近似满足样本的定义。（今后，类似的地方不重申）,由于样本是从总体X中随机抽取出来的可能结果，在抽取之后，它们必是具体的数值，记作或，称之为样本值。直观上讲，所谓样本值就是一批观测数据。,例2 从所加工的某种型号的零件中，抽取若干个测量其长度（单位：毫米），得数据如下： 10.7 10.5 10.8 10.5 10.6 10.4 10.9 这7个数据就可看作是一个容量为7的样本的样本值。而对应的总体X就是这批零件（不是仅指抽到的7个）的长度（不要误解为总长度）,样本值既可理解为样本的取值，也可理解为总体X在n次独立

7、重复试验中所分别取的n个值（考察例2即知）今后，以表示样本值，而以表示随机变量。为方便计，在不会引起混乱时，既表样本值，也表示样本，具体涵义视上下文而定。,数理统计包括抽样方法与数据处理两部分。我们只考虑数据处理问题（即对人们已抽取到的样本值进行统计分析）。,二期望与方差的点估计 1 期望的点估计设总体X的期望E(X)未知，样本值为因E(X)为X的“理论上的平均值”，那么估计E(X)的最简单的办法便是用“实际平均值” 来估计。,定义称为样本均值于是，总体均值E(X) 样本均值,例3 某厂生产一批铆钉，为检验铆钉的质量，需测量其头部直径（毫米）。今随机地抽取了8颗铆钉

8、，测得其头部直径为 13.30 13.38 13.40 13.43 13.51 13.32 13.48 13.50 试估计该铆钉的头部直径的平均值。,为进一步讨论用来估计E(X)的合理性，我们引入定义设为样本的函数，若中不包含总体的未知参数，则称为统计量。若用某一统计量来估计总体X的某一未知参数，则称为的估计量。若的估计量满足，则称为的无偏估计量（或无偏估计）。,例如，若令则为统计量。令，若未知，则为总体X的未知参数。若用来估计，则为的估计量（即为E(X)的估计量）。可以证明：，故为的无偏估计量。,这样，尽管用来估计

9、可能会有或大或小的随机偏差，但从总体情况（理论平均情况）来看，用估计E(X)是“没有系统偏差”的。这往往是估计量应满足的起码要求。至于在上述定义中为什么要求一个估计量必须是统计量，其实道理很简单：因为估计量是用来估计未知参数的，如果估计量本身包含有未知参数，则即使有了具体的样本值，估计量也算不出明确的已知结果，达不到估计未知参数的目的。,由上可知，无论样本容量n为多少，始终是E(X)的无偏估计量。那么究竟是n大好还是n小好呢？可以证明（从略）：。可见，n越大，的分散程度越小，的稳定性越好。这正是我们所期望的。但在实际中，样本容量n过大，有时在试验中会浪费大量的人力、物

10、力、财力，等等。因此，正确的提法是：样本容量n的大小应视问题的具体背景而定。,2 方差的点估计有时，总体X的方差D(X)未知，如何估计它呢？注意到为随机变量的“理论平均值”，故可考虑用的“实际平均值” 来估计D(X)。但E(X)往往也是未知的，应用X 的样本均值代替E(X)。于是可用来作为D(X)的估计量。然而，可以证明（从略），此估计量并非D(X)的无偏估计量，D(X) 的无偏估计量乃是,定义称为样本方差，记作于是，总体方差样本方差，且为D(X)的无偏估计量。,例4 对某型号飞机的飞行速度进行了15次试验，测得最大飞行速度（米/秒）为 422.2 41

11、7.2 425.6 420.3 425.8 423.1 418.7 428.2 438.3 434.0 412.3 431.5 413.5 441.3 423.0 求最大飞行速度之方差的无偏估计。,定义称为样本标准差。用样本标准差可估计总体标准差不过一般不是的无偏估计。象上面这种对总体未知参数寻找估计量的过程就叫做对进行点估计。,三期望的区间估计前面的点估计讨论的是的问题。但是的精确度究竟如何？与究竟相差多少？并不很清楚。这使我们感到：点估计是比较肤浅的。现在深入讨论一下：总体未知参数究竟落在什么范围（即区间）a,b内？而且自然希望区间a,b长度越短越

12、好（否则，譬如举一个极端的例子：我们有百分之百的把握保证落在内，但这又能给我们提供什么有价值的信息呢？），“把握”越大越好。这就是所谓区间估计问题。,我们先研究期望的区间估计问题，而且总假定总体X是正态的： 1 已知总体方差，对总体均值进行区间估计考察实际问题时，一般不能幻想有100%的“把握”（即概率）。为说理清楚，先考虑一个特殊情况：“把握”为95%。“把握”也叫置信度。前述所在的范围a,b称为置信区间。,假定样本值为，现在来求期望的置信度为0.95（即95%）的置信区间。定义设Y为随机变量，E(Y)和D(Y)均存在，且，则称为Y的标准化随机变量。,注意到在进行

13、点估计时，我们是用样本均值来估计E(X)的，而，。故的标准化随机变量为,因，可以证明：。对置信度0.95，查正态分布数值表（P191）知注意：是这样查得的：设，则,解不等式，得故的置信度为0.95的置信区间为亦即,在工业生产和科学研究中，通常采用的置信度就是0.95。只要不加申明，所用置信度均为0.95 例5 某车间生产滚珠，其直径X可以认为是服从正态分布的。从某天的产品里随机抽取6个，量得直径如下（单位：毫米）： 14.70 15.21 14.90 14.91 15.32 15.32 试找出平均直径的置信区间（已知直径方差是0.05）。,有时还需要采用0.90，0.99等作为置信度，习惯上，一般的置信度用表示。完全类似地可求得的置信度为的置信区间为或其中满足（查正态分布数值表）。,例6 对例5，求平均直径的0.90置信区间。,P176: 1. 2.,布置作业：,

展开阅读全文