数理统计中自由度地理解和应用

资源描述

《数理统计中自由度地理解和应用》由会员分享，可在线阅读，更多相关《数理统计中自由度地理解和应用（6页珍藏版）》请在金锄头文库上搜索。

1、WORD格式数理统计中自由度的理解和应用摘要：数理统计是一门以概率论为根底的应用学科，应用于许多领域。文章对数理统计作出了一个深入浅出的介绍，并对数理统计中自由度的理解作了较为全面的阐述，并在此根底上给了自由度科学的定义。通过列举自由度在统计学中的应用，旨在全面认识自由度。关键字：数理统计；自由度数理统计是数学的一个分支学科，是一门以概率论为根底的应用学科。随着研究随机现象规律性的科学概率论的开展，应用概率论的结果更深入地分析研究统计资料，通过对某些现象的频率的观察来发现该现象的内在规律性，并作出一定准确程度的判断和预测；将这些研究的某些结果加以归纳整理，逐步形成一定

2、的数学概型，这些组成了数理统计的内容。数理统计在自然科学、工程技术、管理科学及人文社会科学中得到越来越广泛和深刻的应用，其研究的内容也随着科学技术和政治、经济与社会的不断开展而逐步扩大，但概括地说可以分为两大类：试验的设计和研究，即研究如何更合理更有效地获得观察资料的方法；统计推断，即研究如何利用一定的资料对所关心的问题作出尽可能准确可靠的结论，当然这两局部内容有着密切的联系，在实际应用中更应前后兼顾。它以随机现象的观察试验取得资料作为出发点 , 以概率论为理论根底来研究随机现象 . 根据资料为随机现象选择数学模型，且利用数学资料来验证数学模型是否适宜 , 在适宜的根底上再研究

3、它的特点、性质和规律性。例如灯泡厂生产灯泡 , 将某天的产品中抽出几个进展试验，试验前不知道该天灯泡的寿命有多长，概率和其分布情况 . 试验后得到这几个灯泡的寿命作为资料 , 从中推测整批生产灯泡的使用寿命、合格率等。为了研究它的分布，利用概率论提供的数学模型进展指数分布 , 求出值 , 再利用几天的抽样试验来确定指数分布的适宜性。简而言之，数理统计以概率论为根底，根据试验或观察得到的数据，来研究随机现象统计规律性的学科。它的任务就是研究有效地收集数据，科学地整理与分析所获得的有限的资料，对所研究的问题 , 尽可能地作出准确而可靠的结论。数理统计研究问题的方式，不是对所研究对象的全

4、体 ( 称为总体 ) 进展观察，而是抽取其中的局部 ( 称为样本 ) 进展观察获得数据 ( 抽样 ) ，并通过这些数据对总专业资料整理WORD格式体进展推断。数理统计方法具有“局部推断整体的特征。下面引入一些数理统计中的术语：抽样、抽样分布、总体与样本、统计量、自由度、几个常用的分布、正态总体统计量的分布 , 但是大多数数理统计教材中介绍自由度时，往往一笔带过，没有给出明确的定义或足够的解释，增加了自由度理解学习具有的难度，尢其对于初学者来说，自由度就像一个黑箱子，难以捉摸。数学中的自由度一般是指能够自由取值的变量个数。数理统计中的自由度是指当以样本的统计量来估计总体的参数时，样

5、本中独立或能自由变化的数据的个数，自由度通常记为 df 。数理统计上的这个定义可以从如下几个方面来理解：第一，“统计量如样本数据的平均数 X、样本数据的标准差是研究者通过调查样本的数据人为地计算出来的，而“参数如总体均值、总体标准差是被调查的总体所客观存在的，这是两者的区别。在统计学的理论层面上，要求或者假定统计量是参数的无偏估计，认为二者是相等的在实际研究中，由于抽样的偏差，可能导致两者不相等，但对于这种情况，研究者是无法知道的，知道就没有抽样调查的必要了。在理论假设下，统计量也就和参数一样被看作是客观的、确定的。第二，既然在理论上统计量被要求是确定的，那么在实际层面上，

6、计算统计量的那组数据就不是完全自由的。这一点很重要，因为自由度中“自由的含义就是相对这个“确定条件而言的。正是统计量的这种“确定性限制了与之相关的一组数据的自由度，也就是说，一组数据不是可以完全自由取值的，它必须支持“统计量与总体参数相等的理论假设。这就是自由度存在的理由。有必要举例来进一步说明 “独立或能自由变化的数据的含义。在心理、社会等领域的测量或者调查过程中，研究者设置了一些变量如智商、收入等，这些变量是随机变量。所谓随机变量是指，在调查总体中，变量的取值X围及其所对应的频次两者合起来称为变量的分布是确定的，但在一次具体的抽样调查中，变量的取值及其所对应的频次那

7、么是不确定的，但在大样本的抽样调查中，变量的分布又是能表达总体的特征和规律的。例如：研究者在调查某个城市在岗职女工的平均收入时，从总体 40000万人中，研究者随机抽取了 200人进展调查。在这个例子中，总体 40000个在岗女工的收入的平均数是总体参数，是客观的、确定的，尽管研究者不知道。通过随机抽样和问卷调查，研究者获得了 200人的收入的数据。运用这组数据可以算出样本专业资料整理WORD格式的平均数，它是统计量。由于在理论上要求统计量与参数相等，所以这200个数据中只有 199个数据可以“自由变动，所以，这组数据在求平均数这个统计量时的自由度就是： K=200-1=199。第三，

8、在上面的例子中，研究者只抽了一个200人的样本，而在实际层面，这 200人的收入是确定的，因为每个被调查者只有一个确定的收入。既然这样，“ 199个数据可以自由变动是什么意思呢？这需要回到理论上去答复。在理论上，从20000人中随机抽取 200人有种抽取方法，也就是说，在理论上研究者可以得到个不同的、样本容量均为 200人的样本，这个数据量是很大的没有必要确切知道它的值。这样，在理论上就存在很多组调查数据虽然研究者确实只调查了一个 200人的样本，也只获得了一组数据，每组都有 200个数据。每组数据在理论上都有对应的统计量，正是这些统计量的分布，构成了统计学中所说的抽样分布，它是根底统计学的

9、核心内容。所以，仅仅在理论上，这 200个数据中的 199个数据是可以随不同样本而变化的、自由的。当然，话说回来，这种自由并非是绝对的，它们也只能在总体的取值X围内变动，例如，关于“收入这个变量的取值就不可能为负值。众所周知，很多统计量的计算公式中都有自由度的概念，可为什么同样是计算标准差，总体标准差的自由度是 n，而样本标准差的自由度就是 n-1 ？为什么其它公式中的自由度还有 n-2 、 n-3 呢？它到底是什么含意？在统计模型中，自由度指样本中可以自由变动的变量的个数，当有约束条件时，自由度减少自由度计算公式：自由度 =样本个数 - 样本数据受约束条件的个数，即 df=n-k

10、 df 自由度， n样本个数， k约束条件个数， n-1 是通常的计算方法，更准确的讲应该是 n-k ，n表示“处理的数量， k表示实际需要计算的参数的数量。如需要计算 2个参数，那么数据里只有 n-2 个数据可以自由变化。例如，一组数据，平均数一定，那么这组数据有 n-1 个数据可以自由变化；如一组数据平均数一定，标准差也一定，那么有 n-2 个数据可以自由变化。第四，自由度是谁的？从前面的分析中可以知道，自由度产生于这样的背景下：运用一组数据来求“统计量。离开“一组数据就不可能有“统计量，不计算“统计量， “一组数据就失去了科学的价值。所以，“自由度应该是“统计量和“一组数据所共同拥有

11、的。当然，为了方便，我们说“统计量的自由度或者“一组数据的自由度也都是可以承受的。第五，统计学上的自由度包括两方面的内容：专业资料整理WORD格式首先，在估计总体的平均数时，由于样本中的 n个数都是相互独立的，从其中抽出任何一个数都不影响其他数据，所以其自由度为 n。在估计总体的方差时，使用的是离差平方和。只要 n-1 个数的离差平方和确定了，方差也就确定了；因为在均值确定后，如果知道了其中 n-1 个数的值，第n个数的值也就确定了。这里，均值就相当于一个限制条件，由于加了这个限制条件，估计总体方差的自由度为 n-1 。例如，有一个有 4 个数据 (n=4) 的样本 , 其平均值 m

12、等于 5, 即受到 m=5的条件限制 , 在自由确定 4、2、5 三个数据后 , 第四个数据只能是 9, 否那么 m5。因而这里的自由度 =n-1=4-1=3 。推而广之 , 任何统计量的自由度=n- 限制条件的个数。其次，统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中，如果共有 p个参数需要估计，那么其中包括了 p-1 个自变量与截距对应的自变量是常量 1。因此该回归方程的自由度为 p-1 。在一个包含 n 个个体的总体中，平均数为 m。知道了 n-1 个个体时，剩下的一个个体不可以随意变化。为什么总体方差计算，是除以 n 而不是 n-1 呢？方差是实际值与期望值之差平

13、方的期望值，所以知道总体个数 n 时方差应除以 n，除以 n-1 时是方差的一个无偏估计。上述从不同角度对自由度的概念与定义进展了阐述，我们认为，在统计学上，自由度是建立在统计量之上的概念，它是统计量的数学特征。至此，我们可以给出数理统计中自由度的科学定义：自由度是指在一组样本数据中，能够自由取值且不违反给定约束条件的样本数值的个数。这样，我们就较科学地将实际样本容量和自由度区别开来。下面将进一步举例说明自由度在不同方面的应用。一、样本方差的自由度许多教科书在列出样本方差的计算公式时都没有说分子n-1(n 为样本容量 )就是自由度，也很少解释清楚为什么是除以n-1 而不是 n。假设

14、一个容量为10的样本，如果没有其他关于该样本的信息或约束的话，任意从总体中抽取的10个观察值都可以形成这样的样本。也就是说，这10 个观察值可以任意地被从总体中抽取的其他观察值所取代。当我们想要计算样本方差时，必须先算出样本均值 x ，设 x =35。此时，这10个观察值就不能任意地被总体中抽取的其他观察值所取代了。因为 n x =350，10 个观察值的总和必须等于 350。这样一来，样本中只有 9 个观察值可以随意改变，因为如果任意9 个观察值确定了，第10 个观察专业资料整理WORD格式值也被这 9 个值确定了。因此在计算样本方差时自由度等于9。有效样本容量被减少为 n-1 ，在此根底上

15、，我们可以很好地理解为什么作为均方差的样本方差计算时，要用自由度来平均而非用n 平均。这也说明了如果从样本数据中估计了一个总体参数，自由度就会减少一个。因为样本方差的自由度为n-1, 所以在比较两个独立总体的均值大小的t检验中，合并方差的自由度等于n1+ n2-2=( n1-1)+(n 2-1)；在比较两个独立总体的方差大小的F 检验中， F 统计量的自由度为 ( n1 -1 ，n2 -1) ，其中n1，n2分别为两个样本的容量。二、方差分析和回归中的自由度由 Fisher 创造的重要方法方差分析中也表达了自由度的思想。由于自由度代表着有效样本容量，我们计算均方时必须用自由度去除平方和。假设在方差分析中共有 n 个观察值，将总平方和SST除以总自由度 n-1 就可得到总方差。对于 K 个处理，组间平方和k, 其中ni和xi分别为第 i 个处理

展开阅读全文