《数据获取、处理》PPT课件.ppt

资源描述

《《数据获取、处理》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《数据获取、处理》PPT课件.ppt（63页珍藏版）》请在金锄头文库上搜索。

1、第二讲数据获取与处理1. 怎样获取数据怎样获取数据2. 频数分布频数分布3. 集中量数集中量数4. 差异量数差异量数样本并非总是与总体一致。这样我们就需要研究如何抽取样本?什么样的样本较为合适？同时，还要考虑如何有效的处理和分析数据，如何设计最佳试验方案以减少导致错误结论的风险。应用数学理论计算出出现这种风险可能性的大小，描述这种可能性大小的数量指标称为概率。运用概率论来研究统计学的学科称为数理统计。1. 怎样获取数据怎样获取数据描述性统计描述性统计单纯对一组数据的面貌特征进行分析研究推断性统计推断性统计选取样本，通过对样本的描述来推断整体的特性统计方法n我们把搜集记录下来的数量依据称为数据数

2、据从总体中抽出部分样本展开调查来获取数据，统计学上称此为抽样调查。抽样调查。所考虑对象的全体统计学上称为总体总体或母体母体，其中每一个对象称为个体个体，而从总体中抽取的一部分个体称为样本样本或子样子样，样本中所含个体的数目称为样本容量样本容量，通常用字母n表示。（样本样本分为大样本(n30)与小样本(n30)，样本容量的选取取决于实验的条件和精度，样本越大，反映总体的信息越充足，但计算量也越大，故样本容量最好适当。）能充分反映总体的信息能充分反映总体的信息每个个体被抽到的可能性相同，个体与个体之间互不影响，数学上称为个体互相独立每个个体具有和总体相同的本质特每个个体具有和总体相同的本质特性性

3、样本具有某种代表性，数学上称此为与总体同分布。抽抽样样调调查查要要求求样样本本具具有有的的两两个个特特征征满足以上两条的样本称为随机样本；从总体中抽出一个随机样本，称为随机抽样抽抽样样调调查查随机抽样随机抽样分层抽样分层抽样等距抽样等距抽样随机数表法随机数表法抽签法抽签法有放回抽样有放回抽样无放回抽样无放回抽样简单随机抽样简单随机抽样 1 1、随随机机数数表表法法随机数表是根据数理统计的原理，由许多随机数字排列起来的数字表，表中数字的构造方法是：利用计算机使0，1，,9十个数字号码中每次自动出现一个号码，用这种方式得到一串数，编排成组(一般四个数为一组) 2、抽抽签签法法抽签法是将所

4、有个体编号打乱次序用类似于抽签的方法从中来获取随机样本分分层层抽抽样样是按一定标志把总体内的每个个体划分为若干层，使相互差异小的个体集中在一层内，从而可以缩小各层内个体之间的差异程度，使样本中各个个体在总体中散布更均匀。分层抽样时，从各层抽取的样本个数可以与各层个体数成比例。具体做法是：把总体中个个体划分为个不相重叠的部分，使每一部分包含的个体数分别为，且，则第层所含的样本个体数为(1.1.1)，其中为样本容量，为第层的层权数。例如，要从某校210名7至9岁儿童中抽出三分之一进行智力测验。已知该校7岁儿童有63人，8岁儿童有112人，9岁儿童有35人，现在用分层抽样法确定各年龄组儿童入数。由

5、(1.1.1)式得(7岁组)=(210/3)(63/210)=21(人)，(8岁组)=(210/3)(112/210)=37(人)，(9岁组)=(210/3)(35/210)=12(人)。等距抽样法等距抽样法：把所有个体按顺序排列起来，然后以确定的相等距离抽取随机样本有放回抽样有放回抽样从总体中抽出一个个体记下其特征后再放回总体，然后进行第二次抽样无放回抽样无放回抽样从总体中抽出一个个体后不再放回去，再抽第二次抽抽样样n当总体内个体数目较多时，这两种抽样方式没有本质区别。教育统计中一般采用无放回抽样，但由于有放回抽样能简化某些计算，故当总体内个体数目较多时，我们可以看做是有放回抽样。通过抽

6、样获取数据离不开求实的科学态度和认真的工作作风，数据如果不准确、不完整、或有遗漏，不仅数据本身失去价值，而且以此进行分析推断还会导致错误的结论。2. 频数频数数数据据的的基基本本类类型型离散型数据离散型数据取整数值的数量指标，是计数性的，数据之间不能再划分为更小的单位连续型数据连续型数据经过度量和测定而得到的数量指标。这类数据取值可以连续变化，尽管数据本身仍然是数轴上的点，但数据与数据之间可以无限细分，也就是数据的取值范围可以充满一个区间频数分布表示方法频数分布表示方法频数分布表频数分布表离散型数据的频数分布表离散型数据的频数分布表连续型数据的频数分布表连续型数据的频数分布表累积频数分布表累积

7、频数分布表频数分布图频数分布图累积频数分布曲线图累积频数分布曲线图一、频数分布表一、频数分布表一组数据中每个数据出现的次数称为这个数据的频频数数。按频数分类列出的一览表称为频数分布表频数分布表。 1 1、离散型数据的频数分布表、离散型数据的频数分布表例1某幼儿园测定5岁组儿童智力，共7个项目。全园30名5岁儿童中有1人答对1项、3人答对2项、4人答对3项、8人答对4项、7人答对5项、5人答对6项、2人答对7项。我们列出频数分布表如下：答对题数频数答对题数频数11572365347248总和30表1.130名儿童智力测定分布2 2、连续型数据的频数分布表、连续型数据的频数分布表例2 附中初

8、二年级实验班40名同学期末数学统考测验得分如下：68.079.080.083.062.059.080.081.061.583.067.097.063.593.076.097.584.564.075.088.091.078.567.094.081.070.086.572.085.094.078.091.060.075.582.091.095.052.076.580.0这一组数据中最大值是97.5，最小值是52.0，可见数据分布很散，项数较多。因此我们将它们分组，组的范围称为组区间，每组的起止分别称为组下限和组上限，每组的大小称为组距，各组组距一般是相同的。分组的原则是：100个以上的数据分为12

9、20组，数据较少则分为810组。组距为便于计算一组取为3、5、10较为合适，本例分为10组，组距取5。我们将组号放在表的第一列，组区间放在第二列，组中值记为，放在第三列，(上限+下限)，然后数出各组的频数放在第四列。第二组为(56.5561.55)，我们可以提高一位分点或降低一位分点，通常我们取二位小数，因此61.5应放在第二组。有了组频数，当然也可以算出组频率(每组组频数与总频数之比)，为了以后的方便，我们把频率放在表的最后一列(表1.2)，我们从中可以看出数据所呈现的统计规律性。表1.2附中初二年级实验班期末数学统考测验成绩分布组号组区间组中值频数频率151.55-56.5554.0511

10、/40256.55-61.5559.0533/40361.55-66.5564.0533/40466.55-71.5569.0244/40571.55-76.5574.555/40676.55-81.5579.0588/40781.55-86.5584.0566/40886.55-91.5589.0544/40991.56-96.5594.544/401096.55-100.0098.2522/40总和401.00综上，对于分组数据编制频数分布表归纳为以下几步：第一步找极差，最大值-最小值，由大致了解数据的差异范围。第二步定组距，一般为便于计算，多取为2、3、5、10等。第三步定组数，一般数据

11、在100个以上，分为1220组，数据较少则分为8-10组，也可以借用下面公式确定近似组数。组数，其中方括号为的整数部分，为组距，例2中，。第四步定分点，通常使分点比原测量精度多一位或少一位，要注意的是最低组的上、下限应能包括最小值，最高组的上、下限应能包括最大值。第五步数频数，根据组限归类，数出全体数据落入每一组的个数。频数分布表也有其缺点，我们在下一节会看到计算描述一组数据特征的数据依赖于各组的组中值，因而出现了误差。但是在理论上我们一般假定各组内频数分布是均匀的，因而各组的误差会相互抵偿，使总误差减少。二、累积频数分布表二、累积频数分布表累积频数分布表的列法是在在频频数数分分布布表表上上添

12、添加加一一列列累累积积频频数数。具体方法是：从数值最小的一组开始，逐组累加频数至数值最大的一组，最后累加的频数与总频数相等。把累积频数除以总频数，得到相应的累积频率；把累积频率乘以100，得到相应的累积百分比。下表是例2中数据的累积频数、累积频率，累积百分比分布表。组号组区间组中值频数频率累积频数累积频率累积百分比151.55-56.5554.0510.02510.0252.5256.55-61.5559.0530.07540.10010.0361.55-66.5564.0530.07570.17517.5466.55-71.5569.0540.100110.27527.5571.55-76.

13、5574.0550.125160.40040.0676.55-81.5579.0580.200240.60060.0781.55-86.5584.0560.150300.75075.0886.55-91.5589.0540.100340.85085.0991.56-96.5594.0540.100380.95095.01096.5-100.0098.2520.050401.00100.00总和401.000表1.3附中初二年级实验班期末数学统考累积频数分布表三三、频频数数分分布布图图通常我们用频数分布图来表示数据的规律性，常见的频数分布图为直方图。直方图是在横轴上标出组距，纵轴上标出频率与组

14、距之比，然后以每组组距为底边，相应的频率与组距之比为高作矩形。显然，每个矩形的面积恰好等于数据落在该矩形所对应组内的频率，这样所有矩形面积总和为总频率1。直方图是利用各个矩形的高低来描绘频数分布情况的。图1.1是例2中数据的直方图，图中断裂号表示由0至51.55之间的距离是缩短了的。有时为了简单，横轴上只标出组中值，包括组中值在内的区间即为本组组距。54.0559.05 64.0569.0574.05 79.05 84.0589.0594.0598.250.010.020.030.04频率组距图1.4初二年级实验班期末数学统考测验成绩直方图四、累积频数分布曲线图四、累积频数分布曲线图累积频数分

15、布曲线图横轴取每组上限，纵轴取累积频数，在相交处画点，顺次连续各点成一上升曲线，又称S型或肩型曲线，曲线的最低点应与基线相接。以累积频率为纵轴上点，重复上述过程则得到累积频率分布曲线图。再把累积频率乘以100，则得到累积百分比，以累积百分比为纵轴上点，重复上述过程，则得到累积百分比分布曲线图。（为了方便，一般把累积频数分布曲线和累积百分比分布曲线放在一张图上，左边纵轴为累积频数，右边纵轴为累积百分比。作图时要求两纵轴平行等长，左边按总频数划分，右边因为累积百分比最大是100，故划分为100等份。图1.3是例2中数据的累积频数，累积百分比分布曲线图。）56.5561.55 66.55 71.55

16、 76.55 81.55 86.55 91.55 96.55102030405060708090100累积百分比累积频数510152025303540图1.3累积频数、累积百分比曲线图在教育考试等值研究中，运用累计百分比曲线图可以对两次考试进行等在教育考试等值研究中，运用累计百分比曲线图可以对两次考试进行等值对应，这种等值方法称为百分位等值值对应，这种等值方法称为百分位等值这种曲线分布图有一定的实用价值，可以从图中插值，回答小于或大于某值的频数有多少，或回答占总频数百分之几的频数小于或大于某值。例如横轴上给出81.55分，可以从此点向上作垂直于横轴的直线和曲线相交于一点，再由这一点向右作平行于

17、横轴的直线与纵轴右侧交于一点为60，这表明81.55分位于百分之六十的位置上，说明有百分之六十的学生得分低于81.55分。反之，如果知道右侧纵轴上的百分位置，在横轴上也能找到相应的分数，这个分数在下一节称为百分位数，例如，如有百分之六十的学生成绩在某学生之下，那么该生得分大约为81.55分。3. 集中量数集中量数(1)平平均均数数算术平均数算术平均数加权平均数加权平均数几何平均数几何平均数3. 集中量数集中量数(1) 一、平均数一、平均数平均数表示一组数据集中的位置，又称为均值平均数表示一组数据集中的位置，又称为均值。 1、算术平均数、算术平均数算术平均数是所有数据之和除以数据个数的商算术平

18、均数是所有数据之和除以数据个数的商，记为.读为“杠”。不分组数据求算术平均数不分组数据求算术平均数（1.3.1）其中为第个数据为数据总个数。例1某校射击队5名队员在一次射击中，射中的环数分别为6，7，8，9，10，求平均射中环数。解：由(1.3.1)式(环)。如果数据中有重复数，我们采用加权形式求算术平均数。“权”为所占的比重，比率，频率都可以看做为一种“权”。例如，某校射击队5名队员在一次射击中射中的环数分别为6，6，8，10，10，则把上式一般化得到，其中为第个数的频数，为第个数的频率。我们称由(1.3.2)式定义的为以频率为权的加权平均数，显然，权均为1/N的加权平均数为算术平均数。

19、分组数据求算术平均数分组数据求算术平均数(组中值法组中值法)对于分组数据先要列出频数分布表，再把每组的各个数据都看作与组中值相同的数，这是因为每组内各个数据虽然有大有小，但其相对于组中值的误差最终趋于抵消，故可以把每组的组中值做为每组的代表值，由此得到简记为（1.3.3），其中为第组的组中值，其中为组数，为第组的组频数。例2求1.2例2中数据的算术平均数。解：把表1.2中数据代入(1.3.3)式得到的基本性质的基本性质常数性为常数；(1.3.4)齐次性（1.3.5）可加性(1.3.6)特别(1.3.7) 2、加权平均数、加权平均数几个作用在不同比重上的平均数再进行平均称为加权平均数几个作

20、用在不同比重上的平均数再进行平均称为加权平均数。例如，是个数的平均数，是个数的平均数,是个数的平均数，则(1.3.8)，如果则（1.3.9）显然，以频率为权的加权平均数公式(1.3.2)是(1.3.9)的特殊情形，这是因为由平均数的常数性，对于分组数据用加权形式求，公式(1.3.3)中相当于第个数的平均数。例3大学南路小学一年级实验班40名学生期末数学测验平均分数为82.59，对比班45名学生期末数学测验平均分数为69.68，求全年级期末数学测验平均成绩。解：由公式(1.3.8)（分）.例4某校考察学生成绩，期末考试占全学期的85%，平时成绩(包括作业，期中考试)，占全学期的15%.如果某学生

21、期末成绩为75分，平时成绩为90分，求该生全学期平均成绩。解由公式(1.3.8)（分） 3、几何平均数、几何平均数几何平均数是一组数据中个几何平均数是一组数据中个数据连乘积的数据连乘积的次方根次方根，记为，其计算公式为（1.3.10）例5某校1999年至2001年招生人数如表1.4，求该校平均每年招生增长速度。表1.4某校1999年至2001年招生人数年份招生人数增长比率19999000200011001100/900200112001200/1100解：由(1.3.10)式.故该校招生平均年增长速度为15%.实际应用中，如果N3,可以利用对数简化计算，方法是对两边取对数，得到，查常用对数

22、表得到，再查反对数表得到。二、众数二、众数数据集合中出现次数最多的那个数称为众数数据集合中出现次数最多的那个数称为众数，用表示。 1、观察法、观察法离散型数据求众数离散型数据求众数例如，调查全班40名学生业余爱好，有20人参加体育小组，15人参加音乐小组，5人参加无线电小组。如果用1表示参加体育小组，2表示参加音乐小组，3表示参加无线电小组，则1出现次数最多，因此众数就是1。分组数据求众数分组数据求众数首先列出频数分布表，再用每组组中值表示该组一般水平，则频数最多一组的组中值即为众数。显然，此众数是较为粗略的。2、公式法、公式法如果用分别表示众数所在组下限和上限，表示与众数所在组

23、的下限相邻组的频数，表示与众数所在组的上限相邻组的频数，如果众数是自众数所在组的下限向上挤，则众数所在位置是再加上区间长度 (组距)的倍处，这是由于在相邻组总频数中占的比重。反过来，如果众数是自众数所在组的上限向下挤，那么众数所在位置是再减去区间长度的倍处。由此，我们得到求众数的近似公式为(1.3.13)(1.3.14)3. 集中量数集中量数(2) 三、中数三、中数中中数数指指一一组组依依次次序序排排列列的的数数据据中中位位于于正正中中间间的的数数，它它正正好好分分全全体体频频数数为为相相等的两部分等的两部分，用表示。1、不分组数据求中数、不分组数据求中数数据个数为奇数求

24、数据个数为奇数求例7某校男子体操队9名队员5项比赛总积分分别为：47，49，42，39，45，41，37，46，40，求这9个数据的中数。解:把9个数据依大小次序排列为：37，39，40，41，42，45，46，47，49。显然，正中的42为中数，因为42左右各有4个数。由此，我们得到数据个数为奇数时，中数为第个数目的数值。数据个数为偶数求数据个数为偶数求例8求42，45，50，54，57，58的中数。解：由于N=6，由中数定义，中数应在50与54中间，自然我们取其平均数为中数，即由此，数据个数为偶数时，以最中间两个数的平均数为中数。 2、分组数据求中数、分组数据求中数例9下表给出25个数据

25、的频数分布，求中数。表1.525个数据的频数分布组区间组中值频数75-8077.5170-7572.5365-7067.5560-6562.51055-6057.5450-4552.52解由于N=25，因此中数为第13个数，在(60-65)这一组，而这一组以下有6个数据，须再向上数7个数，才能到达第13个数。而每个区间的长度(组距)为5，如果(60-65)这一组内10个数据是均匀分布的，那么为到达第13个数，需要在中数所在组的下限处加上区间长度的十分之七，即中数应为因此，我们得到（1.3.15）。如果取中数所在组上限U，相应有 (1.3.16)。其中，为中数所在组以上累积频数，为中数所在组以

26、下累积频数。在1.2，我们接触到了百分位数，介绍了通过累积百分比分布图找百分位数的方法，实际上，中数也是一个百分位数，它正好位于百分之五十的位置上。一般的百分位数用表示，称为百分之分位数，它表示在此百分位数以下的频数占总频数的百分之。由公式(1.3.15)(1.3.16)，我们类似可得 (1.3.17)(1.3.18)其中为所在组下限，为所在组上限，为所在组以下累积频数，为所在组以上累积频数，为所在组频数，i为组距。例9中如求，由(1.3.17)式得四、三种集中量数的比较四、三种集中量数的比较集中量数的作用是指出一组数据中有代表性的数值集中量数的作用是指出一组数据中有代表性的数值，同一组数值

27、的三种集中量其值一般是不同的，故其实际意义也是有区别的。例如，某中学数学教研室教师年龄分别为22，24，24，25，55(岁)，现在问哪一年龄具有代表性？显然，平均数30不能作为水平值，这是因为平均数与每一个数据有关，故受极端值55的影响而失去代表性。因此，选择中数或众数24作为这个教研室教师年龄的一般水平较为合适。又如在一次测验中，某小组9名学生中有5个80分，3个85分，1个90分.如果用中数或众数80分来作为一般水平值是不合适的，这是因为这次测验的成绩分布较为特殊，且每个分数相差不大。因此，在这种情形要用平均数82.5分作为集中趋势的度量。三种集中量的共性是反映了一组数据的集中位置，指出

28、了一组数据中有典型意义的数。平均数应用最为广泛，因为它考虑到了每一个数据，且便于用公式表示，其缺点是当数据极端出现较大或较小数时，作为衡量集中趋势的度量会受到较大影响。中数是位于一组数据正中的一个数，它不受极端值的影响，但如果数据集中成明显不同且差异很大的几组时，则不易反映数据的集中趋势。中数不与具体某个数有关，而只是与数据的个数有关，因此，只要中间数值不改变，排列顺序不改变，其两边数值任意改变并不影响中数的值。众数由于出现频数最多，往往被认为是一组数据中最典型的一个。但在确定众数时不受其它数据的影响，这是众数最大的缺陷，而且，如果一组数据中有几个数同时符合众数定义时，数则失去代表性。众数可以

29、消除极端数值的影响，但计算众数大多是粗略的，因此，作为集中趋势的度量，价值较小。英国统计学家皮尔逊(Pearson)根据多年经验，发现当频数分布完全对称时，平均数，中数，众数重合.在频数分布不对称时，这三种量数的关系为即这样，知道其中两个，可以近似求出第三个。4. 差异量数（差异量数（1）描述一组数据集中趋势的水平值只是从一个侧面反映了一组数据的特征。在实际统计工作中我们不仅要考察一组数据的集中位置，还要考察其分散程度，这种用来衡量一组数据分散程度(集中程度)的量称为差异量数差异量数。常见的差异量数有：极差、四分位差、平均差、标准差极差、四分位差、平均差、标准差。一、一、极差极差极差极差又称

30、为全距，是一组数据中最大值与最小值的差，用R表示。R=最大值最小值(1.4.1)极差是衡量一组数据分散程度粗略的度量值。在绘制频数分布表时我们已经看到，通过极差可以大致看出一组数据的范围。对于分组数据，R取最高一组的上限与最低一组的下限之差。由于极差只取决于两个极端数据，不能反映其它数据的分散情况，因此，在大多数情形极差不适用于衡量一组数据的分散程度。例1两个小组学生身高(米)分别为：甲方1.80，1.53，1.52，1.51，1.50乙方1.80，1.79，1.78，1.77，1.50显然，两组数据的极差都是0.30，但这两组数据有很大的差异二、四分位差二、四分位差四四分分位位差差指与之差

31、的一半，用用来来描描述述频频数数分分布布中中间间数数值值的的分分散程度散程度，用表示。都是百分位数，显然，再加上(中数)正好分总频数为相等的四部分，为了方便有时把记为，称为第第一一四四分分位位数数，以下占总频数的四分之一；把记为，称为第第二二四四分分位位数数，以下占总频数的四分之二；把记为，称为第第三三四四分分位位数数，以下占总频数的四分之三，这样，的计算公式为显然，四分位差是相对于中数来衡量一组数据分散程度的。这是因为，如果一组数据频数分布对称，则有由求百分位数公式(1.3.17)类似可得其中分别为第一，第三四分位数所在组下限，分别为第一，第三四分位数所在组以下累积频数，分别为第一，第三四分

32、位数所在组频数，i为组距。如果数据未分组，只须把每个数据依大小顺序排列，用总频数N除以4，即可得到四分位。例2求20名学生一次数学测验成绩的四分位差。解把20个数据按大小排列为66，67，67，69，7071，72，73，74，76Q1Q285，86，88，88，9092，94，97，98，90Q3则66，67，67，69，7071，72，73，74，76Q1Q285，86，88，88，9092，94，97，98，90Q3三、平均差三、平均差我们设想找到一个相对于平均数来衡量一组数据分散程度的差异量相对于平均数来衡量一组数据分散程度的差异量，这就是平均差平均差，用MD表示。例3两个女声小合唱队

33、身高(米)分别为：甲队1.60，1.62，1.59，1.60，1.59乙队1.80，1.60，1.50，1.50，1.60显然，。但乙队队员较甲队队员身高波动大，这是因为每个队员的身高相对于平均数都有一个离差,离差越小，越集中于,但离差有正有负，如果将全部离差加起来，由于，那么即正、负离差相抵消，故我们在考虑总离差时，可以将每个离差取绝对值再加起来。这样并不影响每个数据偏离平均数的程度，因为离差的长度为了使所有离差再集中，我们再取其平均得到（1.4.5）如果数据已分组，类似有(1.4.6)例3中，可见，乙队队员身高平均差大大高于甲队，因此，乙队队员身高差异较甲队大，即分散程度较甲队大。采用平均

34、差来衡量数据的分散程度要对离差取绝对值，但绝对值运算复杂且不便于代数方法处理。如果给每个离差平方，并不影响其分散程度，且可以避免总离差为零。因此，我们引入另一个衡量一组数据分散程度的差异量标准差。四、标准差四、标准差标准差标准差是方差的平方根，又称为均方差是方差的平方根，又称为均方差，用S表示。方差方差是各个数据与平均数各个数据与平均数离差的平方的算术平均数离差的平方的算术平均数，用表示。公式为（1.4.7）(1.4.8)对于分组数据，类似有(1.4.9)其中为第i组的组频数,为第i组的组中值。计算还可利用以下简化公式:(1.4.10)这是因为对于分组数据，类似简化公式为（1.4.11）其中a

35、为假定平均数，即频数最多一组的组中值。例4某区50名6岁男童身高(单位：cm)分组数据如表1.6：表1.650名6岁男童身高分布组区间频数组区间频数108.5以下1118.5-120.511108.5-110.53120.5-122.59110.5-112.51122.5-124.55112.5-114.52124.5-126.53114.5-116.56126.5以上2116.5-118.57求标准差S.解 N=50,取a=119.5，由公式(1.4.11)得到标准差标准差是是衡量一组数据分散程度最有效的量数衡量一组数据分散程度最有效的量数，标准差越小，标准差越小，这组数据越向平均数集中，即

36、分布的差异越小；标准差越大，这组数这组数据越向平均数集中，即分布的差异越小；标准差越大，这组数据偏离平均数的程度越大，即分布的差异也越大。据偏离平均数的程度越大，即分布的差异也越大。故4. 差异量数（差异量数（2）五、差异系数五、差异系数差差异异系系数数也也称称为为相相对对差差异异量量，常用倍数式百分数表示，它从相对意义上来衡量一组数据的分散程度。而受其计量单位、水平值影响的差异量称为绝绝对对差异量差异量，极差，四分位差，平均差，标准差都是绝对差异量，简称为差异量数。常用的差异系数有：极差系数，标准差系数，四分位差系数等。1) 极差系数极差系数极差系数为一组数据中最大值与最小值的倍数极差系

37、数为一组数据中最大值与最小值的倍数，即极差系数=最大值/最小值(1.4.12)例5某班数学统编教材与实验教材测验成绩如下表，试用极差系数比较这两组数据的差异大小。表1.7某班数学统编教材与实验教材测验成绩最高分最低分极差极差系数统编教材10080201.25实验教材8060201.33由表1.7可见，尽管极差一样，但由于统编教材得分普遍高，因此相对来说，其差异程度要低于实验教材。2) 标准差系数标准差系数标准差系数为标准差与其算术平均数的比值的百分数标准差系数为标准差与其算术平均数的比值的百分数，记为CV.（1.4.13）显然，标准差系数实际上是以为单位来衡量分散程度的。由于化成了百分数形式，

38、故是一个无单位限制的抽象数值。CV越小，说明分散程度越小。例6某幼儿园学前班6岁男童平均体重为20.50kg，平均身高为118.20cm，体重的标准差为1.80kg，身高的标准差为4.20cm，试用标准差系数比较体重与身高的差异程度。解由公式(1.4.13)，体重身高可见，体重的差异程度高于身高的差异程度。例7某班学生第一次外语测验平均分数为70.2分，标准差为18.5分。经采取补习措施，不及格率有所下降，第二次测验平均分数为78.5分，标准差为12.2分，试用标准差系数比较两次外语测验成绩的差异程度。解由公式(1.4.13)，第一次测验第二次测验.可见，第二次测验成绩的差异程度较小，说明经补

39、习后，不但平均成绩有所提高，而且较第一次测验成绩相对于平均数更为集中。关于四分位差系数，由于是相对于中数来衡量分散程度的，故类似于标准差系数公式(1.4.13)，四分位差系数公式为四分位差系数=（1.4.14）其中Q为四分位差，为中数。六、几种差异量数的比较六、几种差异量数的比较差差异异量量数数是是相相对对于于集集中中量量数数来来定定义义的的，因此，选用合适的差异量数首先要注意到集中量数的选取。例如，集中量数选为中数，则差异量数选为四分位差；如果集中量数选为平均数，则差异量数选为平均差或标准差。其次，由于各种差异量数受其一定范围的限制，在选用时既要考虑到能够较为理想的反映一组数据的分散程度，又

40、要便于计算，下面对几种差异量数作一简单比较。极差只是在大范围内粗略的衡量分散程度极差只是在大范围内粗略的衡量分散程度，且受极端数值的影响较大，不能反映全部数据的分散程度，一般不适用，但由于计算简单，可以作为一种衡量分散程度的大致估计。四分位差相对于中数来考虑分散程度四分位差相对于中数来考虑分散程度，意义明确，较好地反映了中间数据偏离中数的程度。但是，四分位差不能考虑两端数据偏离中数的程度，也就是说没有反映全部数据的分散情况。因此，只有当集中量数选为中数时，用四分位差来衡量一组数据的分散程度较为合适。标准差是最常用、最为理想的差异量标准差是最常用、最为理想的差异量，原因有三条：相对衡量指标平均数是最常用的集中量；标准差考虑每一数据与平均数离差的大小，因此能够全面考察一组数据的分散程度；标准差写成差方和的形式便于进行代数处理。当频数分布完全对称时，各种差异量数有以下关系式：S=1.2533MD，Q=0.6745S，Q=0.8453MD.思考题

展开阅读全文

《数据获取、处理》PPT课件.ppt

最新文档