试验资料的整理第一节几个基本概念一总体与样本

资源描述

《试验资料的整理第一节几个基本概念一总体与样本》由会员分享，可在线阅读，更多相关《试验资料的整理第一节几个基本概念一总体与样本（22页珍藏版）》请在金锄头文库上搜索。

1、第六章第六章试验资料的整理试验资料的整理第一节第一节几个根本概念几个根本概念一、总体与样本一、总体与样本总体总体populationpopulation是指在同一组条件下，由具有某种是指在同一组条件下，由具有某种共同性质的大量个体所组成的集团，或者说是某一变数的全共同性质的大量个体所组成的集团，或者说是某一变数的全部可能值的集合。样本部可能值的集合。样本samplesample是指从总体中抽出的一局是指从总体中抽出的一局部个体。部个体。二、参数与统计数二、参数与统计数描述总体的特征数叫参数描述总体的特征数叫参数parameterparameter，它是总体的真正数值，是，它是总

2、体的真正数值，是固定的常量，是由总体的全部变量计算固定的常量，是由总体的全部变量计算而得到的，显然参数通常是无法得到的。而得到的，显然参数通常是无法得到的。描述样本的特征数叫统计数描述样本的特征数叫统计数statisticstatistic，它是由样本的观察值计算，它是由样本的观察值计算而得到的。是参数相应的估计数，统计而得到的。是参数相应的估计数，统计数是变化的，它会随样本的不同而不同。数是变化的，它会随样本的不同而不同。三、变数与变量变数variable是指在同一组试验条件下所获得的某种性状或特性的一组有变化的数据。变数中的每一个具体数值叫变量variate或叫观察值observed

3、value。第二节第二节变数的次数分布变数的次数分布一、试验数据的性质一、试验数据的性质一、数量性状的数据一、数量性状的数据 1、连续性变数、连续性变数continuous variable：指由称量、度：指由称量、度量或测量、分析化验等方法所得到的数据。其各个变量并量或测量、分析化验等方法所得到的数据。其各个变量并不仅限于整数，在两个相邻数值之间可以有微量差异的其不仅限于整数，在两个相邻数值之间可以有微量差异的其他数值存在。他数值存在。 2、间断性变数 discrete variable：也叫非连续性变数。是指由计数方法所获得的数据，其各个变量必须以整数表示，在两个相邻的整数间不能有带

4、小数的数值存在。二、质量性状的数据由只能观察描述或感觉而难以量测的性状获得的数量资料为质量性状的数据。这些性状本身不能以数字来表示，要获得这类性状的数量资料，一般可以采用分级法和统计次数法进行数量化。所获得的质量性状的数据类似间断性变数。二、次数分布表二、次数分布表不不管管连连续续性性变变数数还还是是间间断断性性变变数数，它它们们的的出出现现都都是是有有着着一一定定的的数数量量范范围围的的。如如果果我我们们将将其其可可能能出出现现的的整整个个范范围围化化分分成成假假设设干干个个互互斥斥的的组组区区间间，再再统统计计出出现现在在各各个个组组区区间间内内的的变变量量个个数数次次数数，这这样样

5、由由不不同同区区间间内内变变量量出出现现的的次次数数组组成成的的分布，就叫做变数的次数分布。分布，就叫做变数的次数分布。次数分布表的制作步骤：次数分布表的制作步骤： 1. 1.整列：即排依次表整列：即排依次表, ,将所取得的数据由小到大排列。将所取得的数据由小到大排列。 2. 2.求极差求极差R R： R= xmax-xmin R= xmax-xmin 3.确定组数和组距：组数是指准备将变数出现的整个数量范围分成多少个组区间。组距是指每个组区间的高限和低限的差值，即组区间的极差，记作i。 i = R/分组数 4.确定组限和组中值：组限是指各个组的上、下限，反映各组的的变异范围。组中值=上限

6、+下限/2 每组组中值是该组的代表数值。当组距确定之后，只要选定第一组的组中值，确定第一组的组限以后，其余各组的组中值和组限便可依次确定。一般以变数的最小变量或接近最小变量的数值作为第一组的组中值为好。 5. 归组：按依次表将各变量归入各个组内，并统计各组变量出现的次数。三、频率分布和累积频率分布三、频率分布和累积频率分布变量在各个组区间内出现的频率所构成的变量在各个组区间内出现的频率所构成的分布叫频率分布。累积频率系小于某一指定值分布叫频率分布。累积频率系小于某一指定值的变量出现的频率，它可由各组的频率的依次的变量出现的频率，它可由各组的频率的依次逐个累加得出。累积频率所构成的分布那

7、么叫逐个累加得出。累积频率所构成的分布那么叫做累积频率分布，或简称累积分布。做累积频率分布，或简称累积分布。第三节第三节变数分布的特征数变数分布的特征数任何一个变数的分布具有两种明显的根本特征，任何一个变数的分布具有两种明显的根本特征，即集中性和离散性。集中性是变数在趋势上有着向即集中性和离散性。集中性是变数在趋势上有着向某一中心聚集、或者说以某一数值为中心而分布的某一中心聚集、或者说以某一数值为中心而分布的性质。离散性是变数又有着离中的分散变异的性质。性质。离散性是变数又有着离中的分散变异的性质。为了反映变数分布的这两种根本性为了反映变数分布的这两种根本性质，显然必须质，显然必须算出

8、它们的特征数。反映集中性的特征数是平均数，算出它们的特征数。反映集中性的特征数是平均数，反映离散性的特征数为变异数。反映离散性的特征数为变异数。一、平均数一、平均数的种类 1.算术平均数： = x/N 2.几何平均数： 3.中位数：4. 4. 众数：变数中出现次数最多的变量为定义众数：变数中出现次数最多的变量为定义的。的。5. 5. 调和平均数：调和平均数：各变量倒数的平均数的倒各变量倒数的平均数的倒数。数。 H = n/ (1/x H = n/ (1/x二算术平均数的计算及特性二算术平均数的计算及特性1.1.计算：直接法计算：直接法：加权法：加权法：2.2.特性特性1 1任一变数离

9、均差的和等于零。任一变数离均差的和等于零。 2 2任一变数离均差的平方和为最小。任一变数离均差的平方和为最小。最小最小二、变异数二、变异数1.极差：极差： R= xmax-xmin 因其只是由两个极端变量所决定的，用极差来反映变数资料的变异度是有缺陷的。 2. 2. 方差和标准差：方差和标准差：样本方差：样本方差：总体方差：总体方差：样本方差的分母为自由度，记作样本方差的分母为自由度，记作df。计算。计算样本方差要使用自由度的原因是，为了获得总样本方差要使用自由度的原因是，为了获得总体相应参数的无偏估计值。因为统计学证明，体相应参数的无偏估计值。因为统计学证明，使用自由度的样本方差是其

10、相应参数总体方使用自由度的样本方差是其相应参数总体方差的无偏估计值。差的无偏估计值。显然方差是反映了变量的变异程度的，但由于离均差取了平方值。使得它与原始变量的量值和单位都不相适应，因而需将方差 variance 开方，即得标准差standard deviation ，所以标准差带有原变数的单位： 3.3.变异系数变异系数 coefficient of coefficient of variation variation ：在比较两个性质不同，单位不同，平均数大小各异的样本变异度时，不能用标准差进行直接比较，而用变异系数比较，CV 是不带单位的纯数。标准差与变异系数的标准差与变异系数的异

11、同点：异同点：相同点是均表示相同点是均表示变数的变异。不同点是标准差反映变数的平均变异量，变数的变异。不同点是标准差反映变数的平均变异量，而变异系数反映变数的相对变异量；标准差带原变数而变异系数反映变数的相对变异量；标准差带原变数的单位，而变异系数是不带单位的纯数。的单位，而变异系数是不带单位的纯数。变异系数变异系数在试验设计中有重要用途。在试验设计中有重要用途。如在空白试如在空白试验时，可作为测定土壤差异性的指标来评定试验地的验时，可作为测定土壤差异性的指标来评定试验地的均匀性；规划试验时可作为确定试验小区面积、形状均匀性；规划试验时可作为确定试验小区面积、形状及重复次数的依据；在选择试

12、验材料时作为评定试材及重复次数的依据；在选择试验材料时作为评定试材均匀一致性的标准等。均匀一致性的标准等。平均数的变异系数，可以用它来比较不平均数的变异系数，可以用它来比较不同样本平均数的代表性。此值愈小表示结果同样本平均数的代表性。此值愈小表示结果精确度愈高，平均数的代表性愈强。在一般精确度愈高，平均数的代表性愈强。在一般试验研究中，通常以试验研究中，通常以 5% 5% 的水平为标准，如的水平为标准，如果此值果此值 5% 5% ，那么认为结果不够精确，即，那么认为结果不够精确，即平均数的代表性不强。平均数的代表性不强。第四节第四节变量的线性数学模型变量的线性数学模型变量的数学模型是指

13、变量在理论上应由哪些分量组成。变量的数学模型是指变量在理论上应由哪些分量组成。它是数据分析极为重要的根底。可以认为其每一个变量它是数据分析极为重要的根底。可以认为其每一个变量 Xi是由一个总体平均数是由一个总体平均数和一个随机误差和一个随机误差i组成。因此，组成。因此，其数学模型可以写作：其数学模型可以写作： Xi=+i (i=1,2,，N) 由于这个模型的组成分量系取和的形式，且没有平方由于这个模型的组成分量系取和的形式，且没有平方项，故一般又叫做线性可加模型项，故一般又叫做线性可加模型 linear additive model 。根据这个模型我们可知：。根据这个模型我们可知： i =(Xi-)，xi=+ i 因此有：这就是说，是不受随机误差影响的总体平均数，而 2那么只是反映随机误差的变异度。所以，是度量随机误差的变异，其实质是变量的随机误差的标准差。对于样本来讲，其相应线性数学模型为： Xi= + ei (i=1,2,，n) 这是一种最简单的数学模型，它有助于我们了解平均数和标准差的实际意义。在今后的各章节中将逐步引入更为复杂的线性可加模型。本章结束

展开阅读全文

试验资料的整理第一节几个基本概念一总体与样本

最新文档