2022年数据的描述性分析宣贯

上传人:夏** 文档编号:567388465 上传时间:2024-07-20 格式:PDF 页数:25 大小:898.15KB
返回 下载 相关 举报
2022年数据的描述性分析宣贯_第1页
第1页 / 共25页
2022年数据的描述性分析宣贯_第2页
第2页 / 共25页
2022年数据的描述性分析宣贯_第3页
第3页 / 共25页
2022年数据的描述性分析宣贯_第4页
第4页 / 共25页
2022年数据的描述性分析宣贯_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《2022年数据的描述性分析宣贯》由会员分享,可在线阅读,更多相关《2022年数据的描述性分析宣贯(25页珍藏版)》请在金锄头文库上搜索。

1、统计学第四章数据的描述性分析第 1 页目录第四章 数据的描述性分析 _ 2第一节集中趋势的描述 _ 3一、数值平均数 _ 3 二、位置平均数 _ 7 三、用 Excel 计算反映集中趋势的的描述统计量_ 9 第二节离散程度的描述 _ 10一、离散程度的绝对指标 _ 10 二、离散程度的相对指标 _ 13 三、数据的标准化 _ 13 四、总方差、组内方差和组间方差 _ 14 五、用 Excel 计算反映离中趋势的的描述统计量_ 15 第三节分布偏态与峰度的测度 _ 16一、原点矩与中心矩 _ 16 二、分布的偏态 _ 16 三、分布的峰度 _ 17 四、用 Excel 计算反映分布趋势的描述统计

2、量_ 18 五、数据分析工具描述统计 _ 19 英文摘要与关键词 _ 21习 题 _ 22名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 2 页第四章 数据的描述性分析通过本章的学习,我们应该知道:1. 描述集中趋势的指标及其计算2. 描述离散程度的指标及其计算3. 分布的偏态和峰度如何计算4. 如何用计算机完成上述计算名师资料总结 - - -精品资料欢迎下载 - - - - - - - - -

3、 - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 3 页通过调查获得、经过整理后展现的数据已经可以反映出被研究对象的一些状态与特征,但认知程度还比较肤浅,反映的精确度不够,为此,我们要使用各类代表性的数量特征值来准确地描述这些数据。对单变量截面数据的特征描述,主要有四个方面:集中趋势、离散程度、偏态与峰度。第一节集中趋势的描述集中趋势( Central Tendency)反映的是一组数据向某一中心值靠拢的倾向,在中心值附近的数据数目较多,而远离中心值的较少。对集中趋势进行

4、描述就是寻找数据一般水平的中心值或代表值。根据取得这个中心值的方法不同,我们把测度集中趋势的指标分为两类:数值平均数和位置平均数。一、数值平均数数值平均数是同质总体内各个个体某一数量标志的具体表现在一定时间、地点、条件下所达到的一般水平,是反映现象总体综合数量特征的重要指标,又称为平均指标。研究总体中各个个体的某个数量标志是各不相同的。如某个生产小组10 名工人由于是按计件取酬的,所以他们的工资各不相同,分别是 1000 元、1480 元、1540 元、1600 元、1650 元、 1650 元、1740 元、1800元、 1900 元、 2500 元。要说明这10 名工人的工资的一般水平,显

5、然不能用某一个工人的工资作代表,而应该计算他们的平均工资,用它作为代表值。平均工资= 1025001900.154014801000= 1686 (元)这个 1686 元是在这组10 名工人的工资基础上计算出来的,彼此之间工资上的差异在计算过程中被抽象化了,结果得到的就是这10 名工人工资的一般水平,即找到了一个代表值。数值平均数有三种形式:算术平均数、调和平均数和几何平均数。(一)算术平均数算术平均数( arithmetic mean)是总体中各个体的某个数量标志的总和与个体总数的比值,一般用符号x表示。算术平均数是集中趋势中最主要的测度值。它的基本公式是:对应的个体总数某数量标志的总和算术

6、平均数由于所掌握的资料形式不同,算术平均数可以推导出两组公式:1. 简单算术平均数根据未经分组整理的原始数据计算算术平均数。设一组数据为nxxxx,.,321,则:nxnxxxxniin121.(4.1 )【例 4.1】 有五名学生的身高分别为1.65、1.69、1.70、1.71 和 1.75 米,求他们的平均身高。【解】70.1575.171.170.169.165.15511iiniixnxx(米)简单算术平均数之所以简单,就是因为各个变量值出现的次数均相同,例4.1 中每个变量值出现的次数都是 1。因此,只要把各项变量值简单相加再用项数去除就可求出平均数。2. 加权算术平均数名师资料总

7、结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 4 页根据分组整理的数据计算平均数。设原始数据被分成n 组,各组的变量值分别为nxxxx,.,321,各组变量值出现的次数分别为nffff,.,321,则:niiniiinnnffxffffxfxfxx11212211.(4.2 )计算加权算术平均数运用的变量数列资料有两种:单项变量数列和组距变量数列。单项变量数列直接对各组变量值进行加权平均计算;组距变量数

8、列需要先求出各组变量值的组中值,然后,对组中值进行加权平均计算。【4.2】根据某车间200 名工人加工零件的资料,计算平均每个工人的零件生产量,资料见表4.1。表 4.1 某车间职工加工零件平均数计算表按零件数分组 (个) 职工人数 (人)f 人数比重组中值 x xf 4050 5060 6070 7080 8090 20 40 80 50 10 0.10 0.20 0.40 0.25 0.05 45 55 65 75 85 900 2200 5200 3750 850 合计200 1.00 12900 【解】根据公式(4.2) ,得:5 .642001290011niiniiiffxx(个)

9、从以上计算过程可以看出,次数f 的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。但是,如果各组的次数(权数)均相同时,即:nffff.321时,则权数的权衡轻重作用也就消失了。这时,加权算术平均数会变成简单算术平均数。即:nxnfxfffxxniiniiniiniii1111(4.3 )可见,简单算术平均数实质上是加权算术平均数在权数相等条件下的一个特例。简单算术平均数其数值的大小只与变量值的大小有关。加权算术平均数其数值的大小不仅受各组变量值大小的

10、影响,而且还受各组变量值出现的次数即权数大小的影响。权数既可以用绝对数表示,也可以用相对数 (比重) 来表示。 因此, 加权算术平均数也可用以下形式:niniiiiffxx11 (4.4)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 5 页【例 4.3】仍以表 4.1 资料为例, 当已知各组工人人数占全部工人人数的比重时,计算平均每个工人的零件生产量。【解】根据公式(4.4) ,得:niiin

11、iiffxx11= 450.1550.2650.4750.25 850.0564.5(个)针对原始资料的不同形式,我们可以选择适合的公式形式,往往异曲同工。用比重(频率)公式计算出来的平均奖金额与原来用绝对数次数做权数计算的结果是完全相同的。这是因为权数的两种形式,其计算公式在内容上是一致的。3. 算术平均数的数学性质算术平均数在统计学中有着重要的地位,它是进行统计分析和统计推断的基础,下面两个有关算术平均数的命题是其两个重要的数学性质。(1)各变量值与其平均数离差之和等于零,即:0)(1niixx(4.5 )证明如下:0)(11111111_niiniiniiniiniininiiniixx

12、nxnxxnxxxxx(2)各变量值与其平均数离差平方之和等于最小值,即:(min)(21最小值xxnii( 4.6 )证明如下:设0x为任意数, c 为常数( c0) ,并令cxx0,则:21221121212210)()(2)()()()(ncxxncxxcxxcxxcxxxxniiniiniiniiniinii因为02nc,所以niiniixxxx12120)()(,即:niixx12)(为最小值。(二)调和平均数在统计分析中,有时会由于种种原因没有频数的资料,只有每组的变量值和相应的标志总量。这种情况下就不能直接运用算术平均方法来计算了,而需要以迂回的形式,即用每组的标志总量除以该组的

13、变量值推算出各组的单位数,才能计算出平均数,我们可以用调和平均的方法完成这个计算。调和平均数 (harmonic mean) 是各变量值倒数的算术平均数的倒数。由于它是根据变量值倒数计算的,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 6 页所以又称作倒数平均数,通常用Hx表示。根据掌握的资料不同,调和平均数可分为简单调和平均数和加权调和平均数两种。1. 简单调和平均数根据未经分组资料计算平均

14、数。我们先来看一个最简单的例子。【例 4.4】假如某种蔬菜在早、中、晚市的每市斤的单价分别为0.5 元、 0.4 元、 0.2 元,若早、中、晚市各买一市斤,其平均价格用简单算术平均数计算,结果是0.37 元。但若早、中、晚市各买一元钱,其平均价格是多少?【解】计算方法应先把总重量计算出来,然后再将总金额除以总重量。即:元总重量总金额平均价格32.05.932.014.015.01111用公式表达即为:niinxnxxxnxH12111.11(4.7 )事实上简单调和平均数是权数均相等条件下的加权调和平均数的特例。当权数不等时,就需要进行加权了。2. 加权调和平均数设 m 为加权调和平均数的权

15、数,加权调和平均数公式即为:niiiniinnnxmmxmxmxmmmmxH11221121.(4.8 )【例4.5】仍用前面对蔬菜计算平均价格为例,如果现在早、中、晚市所花钱数不再是一元钱,而是如表 4.2 的情形,求购进的该种蔬菜的平均价格。表 4.2 调和平均数计算表时间单价(元 /斤) x 所花钱数(元)m 购买量(斤)m/x 早市中市晚市0.5 0.4 0.2 4 3 2 8 7.5 10 合计9 25.5 【解】平均价格35.05.25911niiiniixmmxH元3. 调和平均数是算术平均数的变形调和平均数是算术平均数的变形,推导如下:xffxxfxfxxmmxniiniiin

16、iiiiniiiniiiniiH111111名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 7 页调和平均数与算术平均数在本质上是一致的,不同的原始资料条件在计算平均数时,可以选择不同的公式。(三)几何平均数几何平均数( geometric mean)是 n 个变量值连乘积的n 次方根。几何平均数是计算平均比率和平均速度最适用的一种方法。通常用Gx表示。根据掌握的数据资料不同,几何平均数可分为简

17、单几何平均数和加权几何平均数两种。1. 简单几何平均数根据未经分组资料计算平均数。几何平均数的计算公式如下:nniinnxxxxxG121.(4.9 )【例 4.6】某产品生产需要经过六道工序,每道工序的合格率分别为98%、91%、 93%、98%、98%、91%,求这六道工序的平均合格率。【解】因为成品的合格率等于各道工序产品合格率的连乘积,所以要用几何平均数来计算这六道工序的平均合格率。即:%78.94%91%98%98%93%91%986Gx2. 加权几何平均数当掌握的数据资料为分组资料,且各个变量值出现的次数不相同时,要用加权方法计算几何平均数。加权几何平均数的公式为:ffniifff

18、fnffGinnxxxxx1.212121.(4.10 )【例 4.7】某市从1994 年以来的 14 年,各年的工业增加值的增长率资料如表4.3,计算这14 年的平均增长率。表 4.3 几何平均数计算表时 间年数工业增加值的增长率(%)1994-1997 年1998-2002 年2003-2007 年4 5 5 10.2 8.7 9.6 合计14 【解】首先根据公式(4.10 )计算平均发展速度:%45.109%6.109%7.108%2.110.554554.212121nnGffffnffxxxx再还原成平均增长率。平均增长率 = 平均发展速度100% = 109.45% -100% =

19、 9.45% 二、位置平均数(一)中位数与分位数中位数( median)是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用eM表示。其定义表明,中位数就是将某变量的全部数据均等地分为两半的那个变量值。其中,一半数值小于中位数,另一半数值大于中位数。中位数是一个位置代表值,因此它不受极端变量值的影响。1. 由未分组数据确定中位数名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 8 页对未分

20、组数据资料,需先将各变量值按大小顺序排列,并按公式21n确定中位数的位置。当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。例如:根据7、 6、8、2、3 这五个数据求中位数,先按大小顺序排成2、3、6、 7、8。在这个序列中,选取中间一个数值6,小于 6的数值有两个,大于6 的数值也有两个,所以6 就是这五个数值中的中位数。当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。例如一个按大小顺序排列的序列2、5、7、8、11、 12,其中位数的位置在7 与 8 之间,中位数就是 7 与 8的平均数,即:5 .7287eM。2. 由单

21、项数列确定中位数根据单项数列资料确定中位数与根据未分组资料确定中位数方法基本一致。它是先计算各组的累计次数(或频数) ,再按公式211niif确定中位数的位置,并对照累计次数确定中位数。【例 4.8 】某班同学按年龄分组资料如表4.4 所示,求中位数。表 4.4 单项数列求中位数计算表年龄(岁)学生人数较小制累计次数较大制累计次数17 18 19 20 21 5 8 26 9 2 5 13 39 48 50 50 45 37 11 2 合 计50 【解】年龄中位数的位置为5.252150,说明位于第25 与第 26 位同学之间,根据累计次数可确定中位数为第三组的变量值19 岁。3. 分位数中位

22、数是将统计分布从中间分成相等的两部分,与中位数性质相似的还有四分位数、十分位数和百分位数。三个数值可以将变量数列划分为项数相等的四部分,这三个数值就定义为四分位数(Quartiles),分别称为第一四分位数、第二四分位数和第三四分位数,记作1Q、2Q和3Q。对于不分组数据而言,三个四分位数的位置分别是:1Q在41n;2Q在214)1(2nn;3Q在4)1(3 n,可见2Q就是中位数。同理,十分位数(dectile)和百分位数 (percentile)分别是将变量数列十等分和一百等分的数值。(二)众数众数( mode)是一组数据中出现次数最多的那个变量值,通常用oM表示。众数具有普遍性,在统计实

23、践中,常利用众数来近似反映社会经济现象的一般水平。例如,说明某次考试学生成绩最集中的水平;说明城镇居民最普遍的生活水平等等。众数的确定要根据掌握的资料而定。未分组资料或单项数列资料众数的确定比较容易,不需要计算,可直接观察确定。即在一组数列或单项数列中,次数出现最多的那个变量值就是众数。如表4.4 中, 19 岁出现的人数最多,为26 人,所以 19 岁就是众数。(三)众数、中位数和算术平均数比较名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 25 页 - - - - -

24、 - - - - 统计学第四章数据的描述性分析第 9 页1. 众数、中位数和算术平均数的关系大部分数据都属于单峰分布,其众数、中位数和算术平均数之间具有以下关系:如果数据的分布是对称的,则xMMe0,如图 3.3(a)所示;如果数据是左偏分布,说明数据中偏小的数较多,这就必然拉动算术平均数向小的一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为xMMe0,又叫负偏,如图3.3(b)所示;如果数据是右偏分布,说明数据中偏大的数较多,必然拉动算术平均数向大的一方靠,则xMMe0,又叫正偏,如图3.3(c)所示。图 4.1 众数、中位数和算术平均数的关系示意图教师:左偏

25、、右偏经常会弄反,大家记住:尾巴在左就左偏;尾巴在右就右偏,简单。另外,Y 轴表示次数, X 轴表示标志值,所以比较三个指标的大小,是看X 轴,而不是Y 轴。2. 众数、中位数和算术平均数的特点与应用场合(1)众数是一组数据分布的峰值,是位置代表值。其优点是易于理解,不受极端值的影响。当数据的分布具有明显的集中趋势时,尤其是对于偏态分布,众数的代表性比算术平均数要好。其特点是具有不唯一性,对于一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。(2)中位数是一组数据中间位置上的代表值,也都是位置代表值,其特点是不受极端值的影响。对于具有偏态分布的数据,中位数代表性要比算术平均数好。

26、(3)算术平均数由全部数据的计算所得,它具有优良的数学性质,是实际中应用最广泛的集中趋势测度值。其主要缺点是易受数据极端值的影响,对于偏态分布的数据,算术平均数的代表性较差。作为算术平均数变形的调和平均数和几何平均数是适用于特殊数据的代表值,调和平均数主要用于不能直接计算算术平均数的数据,几何平均数则主要用于计算比例数据的平均数,这两个测度值与算术平均数一样,易受极端值的影响。三、用 Excel 计算反映集中趋势的的描述统计量1. 算术平均数 是数据集中趋势的最主要的统计描述量。计算算术平均数使用AVERAGE 函数, 格式为: AVERAGE(NUMBER1,NUMBER2,) NUMBER

27、 可以是具体的数值,也可以是单元地址或区域名称。2. 调和平均数 (又称倒数平均数) ,在实际工作中,由于所获数据不能直接代入算术平均数的公式中计算,就需要有倒数平均数的形式。计算调和平均数使用HARMEAN函数, 格式为: HARMEAN(NUMBER1,NUMBER2,) 3. 几何平均数 是计算平均比率和平均发展速度最适宜的一种方法。计算几何平均数使用GEOMEAN 函数, 格式为: GEOMEAN(NUMBER1,NUMBER2,) 4. 中位数 是将全部数值按大小顺序排列后居于中间位置的数值。计算中位数使用MEDIAN函数, 格式为: MEDIAN(NUMBER1,NUMBER2,)

28、 5. 四分位数 是将中位数的前后两部分数值再等分为二,自数值小的一端算起,前半部的分位点称为第一四分位数,后半部的分位点称为第三四分位数,显然中位数就是第二四分位数。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 10 页计算四分位数使用QUARTILE函数, 格式为: QUARTILE(ARRAY,QUART) ARRAY是需要求四分位数值单元格区域;QUART 是决定求哪一个四分位值,其取

29、值为04: “0”为最小数值, “1”为第一个四分位数(第25 个百分排位), “2”为中位数(第50 个百分排位) , “3”为第三个四分位数(第75 个百分排位) , “4”为最大数值。6. 百分位数 是数值区域的K 百分比数值点。计算百分位数使用PERCENTILE 函数, 格式为: PERCENTILE(ARRAY,K )ARRAR 为数值数组或数值区域;K 是 0 到 1 之间的百分比数字,包含0 和 1。如:PERCENTILE(1,2,3,4,0.3) 1.9 7. 众数 是在数列或数据区域中出现频率最多的数值。计算众数使用MODE 函数, 格式为: MODE(NUMBER1,N

30、UMBER2,) 第二节离散程度的描述集中趋势是一个说明同质总体各个体变量值的代表值,其代表性如何,决定于被平均变量值之间的变异程度。在统计中,把反映现象总体中各个体的变量值之间差异程度的指标称为离散程度。反映离散程度的指标有绝对数的和相对数两类。一、离散程度的绝对指标(一)极差与四分位差1. 极差( range)也叫全距,是一组数据的最大值与最小值之离差,即:)min()max(iixxR(4.11 )式中: R 为极差; max(ix)和 min(ix)分别为一组数据的最大值和最小值。对于组距分组数据,极差也可近似表示为:R最高组的上限值最低度组的下限值(4.12 )根据表 4.4 ,极差

31、为: R=21-17=4(岁);根据表 4.5 极差为: R90-40=50 (个)。极差是描述数据离散程度的最简单测度值,它计算简单,易于理解。但它只是说明两个极端变量值的差异范围,因而它不能反映各单位变量值变异程度,易受极端数值的影响。在企业的质量控制中,极差又称为“公差”,它是对产品质量制订的一个容许变化的界限。2. 四分位差( quartile deviation )是指第三四分位数与第一四分位数之差,也称为内距或四分间距,用表示。四分位差的计算公式为:13QQQr四分位差反映了中间50%数据的离散程度。其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极端

32、值影响,因此,在某种程度上弥补了极差的一个缺陷。(二)平均差平均差( mean deviation)也称平均离差,是各变量值与其平均数离差绝对值的平均数,通常用DM表示。由于各变量值与其平均数离差之和等于零,所以,在计算平均差时,是取绝对值形式的。平均差的计算根据掌握数据资料不同而采用两种不同形式。1. 简单式对未经分组的数据资料,采用简单式,公式如下:nxxMniD1 (4.13) 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 25 页 - - - - - - -

33、- - 统计学第四章数据的描述性分析第 11页【例 4.9 】计算 5、11、7、8、9 的平均差。【解】先计算其算术平均数,为8,再代入公式(4.17)得:6 .1589888781185DM2. 加权式根据分组整理的数据计算平均差,应采用加权式,公式如下:iiiiniDffxxM11 (4.14)【例 4.10 】现利用表4.1 的资料,计算平均差。表 4.5 平均差计算示例表按零件数分组 (个) 职工人数 (人) f 组中值x xxfxx4050 5060 6070 7080 8090 20 40 80 50 10 45 55 65 75 85 -19.5 -9.5 0.5 10.5 2

34、0.5 390 380 40 525 205 合计200 1540 【解】将表4.6 的资料代入公式(4.14)中计算得:7.7200154011niiiniDffxxM(个)在可比的情况下, 一般平均差的数值越大, 则其平均数的代表性越小, 说明该组变量值分布越分散;反之,平均差的数值越小, 则其平均数的代表性越大, 说明该组变量值分布越集中。平均差由于采用绝对值的离差形式加以数学假定,在应用上有较大的局限性。(三)标准差与方差标准差( standard deviation)又称均方差,它是各单位变量值与其平均数离差平方的平均数的方根,通常用表示。它是测度数据离散程度的最主要方法。标准差是具

35、有量纲的,它与变量值的计量单位相同。标准差的本质是求各变量值与其平均数的距离和,即先求出各变量值与其平均数离差的平方,再求其平均数, 最后对其开方。 之所以称其为标准差,是因为在正态分布条件下,它和平均数有明确的数量关系,是真正度量离中趋势的标准。根据掌握的数据资料不同,有简单式和加权式两种。1. 简单式对未经分组的数据资料,采用简单式,公式如下:nxxnii12)( (4.15) 【例 4.11 】计算 5、11、 7、8、9 的标准差。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - -

36、第 11 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 12 页【解】先计算其算术平均数,为8,再代入公式(4.15)得:2589888781185222222. 加权式根据分组整理的数据计算标准差,应采用加权式,公式如下:niiiniiffxx121)( (4.16)【例 4.12 】现利用表4.1 的资料,计算标准差。表 4.6 标准差计算示例表按零件数分组 (个) 职工人数 (人 )f 组中值 x xx2xxfxx240 50 50 60 60 70 70 80 80 90 20 40 80 50 10 45 55 65 75 85 -19.5 -

37、9.5 0.5 10.5 20.5 380.25 90.25 0.25 110.25 420.25 7605 3610 20 5512.5 4202.5 合计200 20950 【解】将表4.7 的资料代入公式(4.16)中计算得:)(23.1020020950个标准差是根据全部数据计算的,它反映了每个数据与其平均数相比平均相差的数值,因此,它能准确地反映出数据的离散程度。与平均差相比,标准差在数学处理上是通过平方消去离差的正负号,更便于数学上的处理。因此,标准差是实际中应用最广泛的离散程度测度值。标准差有总体标准差与样本标准差之分,上面我们都说的是总体的标准差,如果要计算样本标准差,只需要在

38、分母上减一。一般我们把样本标准差记为s,所以对简单式而言,1)(12nxxsnii;对加权式而言,niiiniiffxxs1121)(。方差( variance)是各变量值与其算术平均数离差平方和的平均数,即是标准差的平方,用2表示总体的(方差) 标准差; 用2s表示样本的 (方差) 标准差。 在今后的统计分析中,这些指标我们经常要用到。学生:为什么样本标准差、方差的分母上要减去一呢?名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 25 页 - - - - - - -

39、- - 统计学第四章数据的描述性分析第 13 页教师:因为样本最终是要用来推断总体的,所以它质量的好坏直接影响推断的精确度。样本方差通过调整,其公式表现为分母上减去一,便是总体方差的无偏估计量。二、离散程度的相对指标前面介绍的极差、平均差和标准差都是反映数据分散程度的绝对值,其数据的大小一方面取决于原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平低的,离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均数不等或计量单位不同的不同组别的变量值,

40、是不能直接用离散程度的绝对指标比较其离散程度的。为了消除变量平均数不等和计量单位不同对离散程度测度值的影响,需要计算离散程度的相对指标,即离散系数,其一般公式是:对应的平均指标离散程度的绝对指标离散系数离散程度( coefficient of variation )通常是就标准差来计算的,因此,也称为标准差系数,它是一组数据的标准差与其对应的平均数之比,是测度数据离散程度的相对指标,其计算公式如下:%100xV(4.17 )【例 4.13】某地两个不同类型的企业全年平均月产量资料如表4.7,计算标准差系数。表 4.7 离散系数比较分析表企业计量单位月平均产量x标准差离散系数 (%) %100x

41、V炼钢厂吨500 10 2.0 纺纱厂锭200 5 2.5 【解】炼钢厂的标准差比纺纱厂大,但我们却不能直接断定炼钢厂的平均月产量的代表性就比纺纱厂的小。因为,首先这两个厂的平均月产量相差悬殊,其次两个厂属于性质不同(计量单位不同)的两个企业。因此只能根据离散系数的大小来判断。表4.6 中最后一栏的两个企业的离散系数表明,炼钢厂的平均月产量的代表性就比纺纱厂的大,生产比较稳定。其结果与用标准差判断的结果正好相反。三、数据的标准化在计算了算术平均数和标准差之后,我们可以对一组数据中各个数值进行标准化处理,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有异常值。标准化数值是变量

42、值与其平均数的离差除以标准差后的值,也称为z 分数或标准分数。设标准化数值为z,则有:xxzi或sxxzi(4.18 )【例 4.14】如果有几个学生的考试分数是:99,85,73,60,45,16。计算其标准化数值。【解】假定已知算术平均数和标准差是:x70.00 s15.00,然后根据公式(4.18)计算相应的标准化数值:1.93,1.00,0.20, 0.67, 1.61, 3.60。标准分数给出了一组数据中各数值的相对位置。例如,99 对应的标准分数为1.93,我们就知道该数值高于算术平均数1.93 倍标准差。 通常一组数据中高于或低于算术平均数三倍标准差的数值是很少的,即在名师资料总

43、结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 14 页算术平均数加减三个标准差的范围内几乎包含了全部数据,而在三个标准差之外的数据,统计上称为离群点。例如, 16 对应的标准分数为-3.60,它就是一个离群值。标准化后数据就没有量纲了,但不会改变其在原序列中的位置。在对多个具有不同量纲的变量进行处理时,常常需要对变量数值进行标准化处理。如在第十章中的主成分分析中就要用到数据标准化。四、总方差、组内方差

44、和组间方差如果资料分成k 组,每组都可以计算出一个平均数,即iniiinxxi1,in为各组标志值的数量,共有k个组平均数,所以计算总平均数也就等于是计算各组平均数的平均数,即ikiiinnxx1。在分组情况下,所有标志值对总平均数的方差(即总方差2)可以分解为组内方差和组间方差两部分。组内方差反映组内标志值对组平均数的方差。第 i 组的组内方差用2i表示:iniiinxxi122)((4.19 )各组组内方差的平均数用_2i表示:ikiiiinn12_2(4.20 )组间方差反映组平均数对总平均数的方差。组间方差用2表示:kiikiiinnxx1122)((4.21 )总方差等于组内方差的平

45、均数加上组间方差:2_2i+2( 4.22 )【例 4.15】某车间有16 个工人分三组,其日生产零件数如表4.8,分别计算各组的平均数与方差;计算组内方差、组间方差和总方差,并验证三者之间的数量关系。表 4.8 三个班组工人的日产量单位:件第一组第二组第三组130 180 198 156 200 192 178 196 202 164 176 204 154 169 188 168 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 14 页,共 25 页 - - - - - - -

46、- - 统计学第四章数据的描述性分析第 15 页【解】根据平均数和方差的计算公式得:第一组第二组第三组次数in5 6 5 平均数ix156.40 181.50 196.80 组内方差_2i245.44 153.92 36.16 根据公式( 4.20)得组内方差的平均数:ikiiiinn12_2=72.1455655*16.366*92.1535*44.245因为:44.1785655*80.1966*50.1815*40.1561ikiiinnxx根据公式( 4.21)得组间方差:65.2605655*)44.17880.196(6*)44.17850.181(5*)44.17840.156(

47、)(2221122kiikiiinnxx根据公式总方差的公式得:37.40616)44.178188(.)44.178156()44.178130()(222122nxxnii可见:_2i+2=145.72+260.65=406.37 所以,总方差等于组内方差的平均数加上组间方差。五、用 Excel 计算反映离中趋势的的描述统计量1. 全距 (又称极差)是最大值与最小值之差,用“MAX(ARRAY)MIN (ARRAY ) ”求得。 ARRAY是指原始资料的存放区域,并且前后应该一致。2. 平均差 是各个数据与其算术平均数离差绝对值的算术平均数。计算平均差使用AVEDEV 函数, 格式为: A

48、VEDEV(NUMBER1,NUMBER2,) 3. 标准差 用于反映相对于算术平均数的离散程度。计算标准差有两个函数:一是样本标准差STDEV 函数,二是总体标准差STDEVP 函数。格式为:STDEV或 STDEVP(NUMBER1,NUMBER2,) 4. 方差 是标准差的平方,它也是衡量离散程度的重要指标。计算方差有两个函数:一是样本方差VAR函数,二是总体方差VARP函数。 格式为: VAR或VARP(NUMBER1,NUMBER2,)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - -

49、 - 第 15 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 16 页第三节分布偏态与峰度的测度集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要掌握数据分布的形状是否对称、偏斜的程度以及扁平程度等。反映这些分布特征的测度值是偏态和峰度。一、原点矩与中心矩矩,又称为动差,来源于物理学中的“力矩”。物理学中力矩用以测定了的转动趋势,说明某一力点的作用力大小,它受作用力的大小和力臂的长度的影响。统计学中的“矩”是具有广泛意义的随机变量的数字特征。1. 原点矩以标志值0 点为原点或支点,以各组标志值ix为力臂的距离,以niiiff1

50、/为作用力的大小,则构成统计的一阶原点矩1u,即:niiniiifxfu111(4.23 )如果将作用力臂分别采用各变量值的不同次方,如nxxx,.,32,则构成k 阶原点矩,其一般式为:niinikiikfxfu11(4.24 )2. 中心矩若我们把原点移到算术平均数处,以)(xxi的各次方作为力臂的距离,以niiiff1/为各作用力的大小,则构成统计的k 阶中心矩kv,即:niiniikikffxxv11)((4.25 )在实际统计分析中,次数分布的一些统计特征值,如算术平均数和方差,可分别用一阶原点矩和二阶中心矩表示。在计算分布的特征状态偏斜度和峰度时,需要计算三阶、四阶原点矩和中心矩。

51、二、分布的偏态偏态( skewness)是对分布偏斜方向和程度的测度。有些变量值出现的次数往往是非对称型的,如收入分配、市场占有份额、资源配置等。变量分组后,总体中各个体在不同的分组变量值下分布并不均匀对称,而呈现出偏斜的分布状况,统计上将其称为偏态分布。利用众数、中位数和平均数之间的关系就可以判断分布是对称、左偏还是右偏,但要测度偏斜的程度名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 16 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 17

52、 页则需要计算偏度系数。统计分析中测定偏态系数的方法很多,一般采用矩的概念计算,其计算公式为三阶中心矩3v与标准差的三次方之比。具体公式如下:313133niiiniiffxxv (4.26) 式中:为偏态系数。从公式( 4.26 )可以看到,它是离差三次方的平均数再除以标准差的三次方。当分布对称时,离差三次方后正负离差可以相互抵消,因而的分子等于0,则=0;当分布不对称时,正负离差不能抵消,就形成了正与负的偏态系数。当为正值时, 表示正偏离差值较大,可以判断为正偏或右偏;反之,为负值时,表示负偏离差值较大,可以判断为负偏或左偏。偏态系数的数值一般在0 与 3 之间,越接近0,分布的偏斜度越小

53、;越接近 3,分布的偏斜度越大。【例 4.16】某管理局所属30 个企业 2007 年 3 月份利润额统计资料如表4.9 所示,要求计算该变量数列的偏斜状况。【解】利用表4.9 中有关数据计算标准差如下:表 4.9 偏斜系数计算示例表利润额(万元)企业数f 组中值x fxx2fxx3fxx41030 2 20 2312 78608 2672672 3050 10 40 1960 27440 384160 5070 13 60 468 2808 16848 7090 5 80 3380 87880 2284880 合计30 8120 15360 5358560 45.16308120)(121n

54、iiiniiffxx万元5123015360)(1313niiiniiffxxv12.045.16512333v计算结果表明该管理局所属企业利润额的分布状况呈轻微负偏分布。三、分布的峰度峰度( kurtosis)是分布集中趋势高峰的形状。在变量数列的分布特征中,常常以正态分布为标准,观察变量数列分布曲线顶峰的尖平程度,统计上称之为峰度。如果分布的形状比正态分布更高更瘦,则称为尖峰分布,见图4.2( a) ;如果分布的形状比正态分布更矮更胖,则称为平峰分布,见图4.2( b) 。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师

55、精心整理 - - - - - - - 第 17 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 18 页图 4.2 尖峰、平峰分布示意图测度峰度的方法,一般采用矩的概念计算,即运用四阶中心矩4v与标准差的四次方对比,以此来判断各分布曲线峰度的尖平程度。公式如下:33414144niiiniiffxxv( 4.27 )式中:为峰度系数。峰度系数是统计中描述次数分布状态的又一个重要特征值,用以测定邻近数值周围变量值分布的集中或分散程度。它以四阶中心矩为测量标准,除以4是为了消除单位量纲的影响,而得到以无名数表示的相对数形式,以便在不同的分布曲线之间进行比较。由

56、于正态分布的峰度系数为0,当0 时为尖峰分布,当0时为平顶分布。【例 4.17】继续例 4.16,要求计算该变量数列的峰度。【解】根据表4.9 中有关数据计算峰度系数如下:56.0344.2345.16305358560334414144niiiniiffxxv计算结果表明,上述企业间利润额的分布呈平顶峰度,各变量值分布较为均匀。四、用 Excel 计算反映分布趋势的描述统计量1. 偏斜度 反映以平均值为中心的分布的不对称程度。计算偏斜度使用SKEW 函数, 格式为: SKEW(NUMBER1,NUMBER2,) 2. 峰度 反映与正态分布相比某一分布的尖锐度或平坦度。计算峰度使用KURT 函

57、数, 格式为: KURT(NUMBER1,NUMBER2,) 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 18 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 19 页五、数据分析工具描述统计要获得多个描述统计量,就要逐一输入函数,是不是有点烦?Excel 提供的数据分析工具“描述统计”,可以让我们一次性获得常用的描述统计量。Excel 解决方案 打开文件或者键入数据,准备好需要计算的数据 选择菜单“工具”“数据分析”,打开“数据分析”对话框

58、9 选择其中的“描述统计”,打开对话框,见图4.3 正确填写完相关信息后,点击“确定”,结果将放置在你定义的输出区域图 4.3 “描述统计”分析工具对话框下面我们举例说明如何使用这些统计函数和“描述统计”分析工具。【例 4.18】从数据集03 中截取序号、性别和薪水三个变量(见图4.4 中的 A 至 C 列) ,计算全体职工薪水的最大值、最小值、算术平均数、标准差和标准差系数;按性别分组,再计算上述指标,看看能说明什么问题?用“描述统计”分析工具对全体职工的状态进行分析。【解】(1)在 K2 单元格输入“ max(C:C) ” ,按回车键后,单元格显示计算结果:“115,000”在 L2 单元

59、格输入“ min(C:C) ” ,按回车键后,单元格显示计算结果:“15,750”在 M2 单元格输入“ average(C:C)” ,按回车键后,单元格显示计算结果:“34,342”在 N2 单元格输入“ stdevp(C:C)” ,按回车键后,单元格显示计算结果:“ 16,644”在 K2 单元格输入“ =N2/M2*100 ” ,按回车键后,单元格显示计算结果:“48.47”(2) 用 Excel 的排序功能,将男女职工分开,女职工的资料放置在D 到 F 列;男职工的的资料置放在 G 到 I 列。再用类似(1)的方法分别计算男女职工的指标,很明显,女职工的平均薪水低于男职工的,但其差别显

60、然比男职工低得多。(3)按 Excel 的解决方案提供的步骤操作,即可以得到从J7 到 K23 的输出结果。其名称和我们平时用的有些不同,旁边的L 列给出了对照解释,N 列给出了其对应的函数名。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 19 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 20 页图 4.4 统计函数和“描述统计”分析工具使用示意图名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - -

61、- - - - - 名师精心整理 - - - - - - - 第 20 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 21 页英文摘要与关键词In any analysis and interpretation, a variety of descriptive measures representing the properties of central tendency, variation, and shape may be used to summarize the major features of the data set. If these

62、 descriptive summary measures are computed from a sample of data, they are called statistics; if they are computed from an entire population of data, they are called parameters. Most sets of data show a distinct tendency to group or cluster around a certain central point. Thus, for any particular se

63、t of data, it usually becomes possible to select some typical value, or average, to describe the entire set. Such a descriptive typical value is a measure of central tendency. Five types of average often used as measures of central tendency are the arithmetic mean, the harmonic mean, the geometric m

64、ean, the median and the mode. The arithmetic mean (also called the mean) is the most commonly used average or measure of central tendency. It is calculated by summing all the observations in a set of data and then dividing the total by the number of items involved. A second important property that d

65、escribes a set of numerical data is variation. Variation is the amount of dispersion in the data. Six measures of variation include the range, the interquartile range, mean absolute deviation, the variance, the standard deviation and the coefficient of variation. Two commonly used measures of variat

66、ion that take into account how all the values in the data are distributed are the variance and its square root, the standard deviation. These measures evaluate how the values fluctuate about the mean. Population variance is equal to the sum of the squared differences around the population mean, divi

67、ded by the population size. Sample Variance is different from population variance. Its denominator is n instead of n-1. Certain desirable mathematical properties possessed by the statistic 2smake it appropriate for statistical inference. The coefficient of variation is a relative measure of variatio

68、n. It is always expressed as a percentage rather than in terms of the units of the particular data. A third important property of a set of data is its shape the manner in which the data are distributed. Two measures often used are skewness and kurtosis. If the distribution of data is not symmetrical

69、, it is called asymmetrical or skewed. Key Words :central tendency, arithmetic mean, harmonic mean, geometric mean, median, mode, variation, variance, standard deviation, coefficient of variation, shape, skewness, kurtosis 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - -

70、 第 21 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 22 页习 题一、单项选择题1加权算术平均数中的权数为() 。A变量值B次数的总和C变量值的总和D次数比重2某车间三个班生产同种产品,6 月份劳动生产率分别为2、3、4(件工日),产量分别为400、500、600 件,则该车间平均劳动生产率计算式应为() 。A33432B13.31500600450034002C88. 24323D9 .246003500240015003受极端数值影响较小的集中趋势值是() 。A算术平均数B众数和中位数C几何平均数D调和平均数4某公司 2006 年管理人员年均收

71、入35000 元,生产人员为25000 元; 2007 年各类人员年均收入水平不变,但管理人员增加15,生产人员增加25,则两类人员平均的年收入2007 年比 2006 年() 。A提高B下降C持平D无法判断5离散程度测度值中,由最大变量值和最小变量值之差决定的是() 。A方差B标准差C平均差D极差6标准差系数抽象了() 。A总体单位数多少的影响B算术平均数高低的影响C总体指标数值大小的影响D标志变异程度的影响7在一个单项分配数列中,若各组变量值都减少一半,每组次数增加1 倍,中位数() 。A减少一半B增加 1 倍C增加 2 倍D不变8离散程度的测度值愈大,则() 。A反映变量值愈分散,算术平

72、均数代表性愈差B反映变量值愈集中,算术平均数代表性愈差C反映变量值愈分散,算术平均数代表性愈好D反映变量值愈集中,算术平均数代表性愈好9甲数列的算术平均数为100,标准差为10;乙数列的算术平均数为20,标准差为3,故() 。A两数列算术平均数的代表性相同B乙数列算术平均数的代表性好于甲数列C甲数列算术平均数的代表性好于乙数列D两数列算术平均数的代表性无法比较10如果某个分布是极度右偏,则其偏度系数为() 。A-0.3B0.3C-2.9D2.9 11已知总方差为1000,组内方差的平均数为600,组间方差为() 。A400B500C600D1600 12如果某同学在英语竞赛中的标准得分为2,并

73、且知道1%为一等奖, 5%为二等奖, 10%为三等奖,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 22 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 23 页则他() 。A获一等奖B获二等奖C获三等奖D无缘奖项二、多项选择题1加权算术平均数的大小受下列因素的影响() () () () () 。A各组变量值大小的影响B各组频数多少的影响C与各组变量值大小无关D与各组频数多少无关E各组变量值和频数共同影响2下列现象应采用调和平均数计算的有()

74、() () () () 。A已知各组工人月工资和相应的工资总额,求平均工资B已知某企业各车间废品率和废品量,求平均废品率C已知各车间计划完成百分比和计划产量,求平均计划完成百分比D已知各车间工人劳动生产率和产品产量,求平均工人劳动生产率E已知某企业各产品的产量和单位成本,求平均单位成本3比较两组工作成绩:算术平均数甲组小于乙组,标准差甲组大于乙组,则() () () () () 。A乙组算术平均数代表性高于甲组B甲组算术平均数代表性高于乙组C乙组工作的均衡性好于甲组D甲组工作的均衡性好于乙组E甲组离散程度大于乙组4将所有变量值都减去10,那么其() () () () () 。A算术平均数不变B

75、算术平均数减去10 C方差不变D标准差不变E标准差系数不变5将所有变量值都扩大10 倍,那么其() () () () () 。A算术平均数不变B算术平均数 (扩大 10 倍)减去 10C方差不变D标准差不变E标准差系数不变6如果某个分布是左偏,并且是尖峰,则() () () () () 。A= -2B= -2C=2 D=0E= 2三、计算题1某班统计学成绩资料如下,计算平均成绩、标准差及标准差系数。统计学成绩(分)学生人数(人)4050 5060 6070 7080 8090 90100 5 7 8 20 14 6 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - -

76、- - - - - - - - - 名师精心整理 - - - - - - - 第 23 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 24 页2某公司所属三个企业生产同种产品,2007 年实际产量、计划完成情况及产品优质品率资料如下,要求计算:(1)该公司产量计划完成百分比;(2)该公司实际的优质品率。企业实际产量(万件)完成计划()实际优质品率()甲乙丙100 150 250 120 110 80 95 96 98 3两个菜场有关销售资料如下,试计算比较两个菜场价格的高低,并说明理由。蔬菜名称单价(元)销售额(元)甲菜场乙菜场A B C 2.5 2.8

77、 3.5 2200 1950 1500 1650 1950 3000 4你是歌迷吗?是球迷吗?好!上互联网查找你喜欢的歌星、球星的收入情况,计算他们的平均收入和收入的标准差,再与例4.17 中的数据比较,看能得出什么结论。5你知道什么是“CEO”和“CIO ”吗?想办法收集这两类人的收入情况,计算他们的平均收入和收入的标准差,再与例4.17 中的数据比较,看能得出什么结论。6在 Excel 中有一个函数叫“TRIMMEAN” ,想办法找到这个函数的背景资料,说明这个平均数的一般中文译名,并举例说明这个指标的计算。四、操作题1打开 Ex4_1,其中有15 个数据。要求: ( 1)计算这组数据的算

78、术平均数、调和平均数和几何平均数,(2)比较三种平均数的大小;(3)将这组数据减少10、增加10,计算新生成的两组数列的算术平均数、标准差和标准差系数;(4)将这组数据乘以10、除以 10,计算新生成的两组数列的算术平均数、标准差和标准差系数。2打开 Ex4_2,其中是经济学专业2个班级的微积分的期末考试成绩。要求: ( 1)计算这个专业微积分成绩的最高分、最低分、算术平均数和标准差(用工具“描述统计”) ;(2)分别计算这两个班级微积分成绩的最高分、最低分、算术平均数和标准差(用工具“描述统计”) ;(3)分别统计并做表列出两个班级各档分数的次数(用函数“Frequency” )与所占比重、

79、列出向上、向下累计的次数与频率。3打开 Ex4_3,其中是 2005 年江苏省 52 个县市人均地区生产总值。计算各项指标,并选择答案:(1)江苏省 52 个县市的平均人均地区生产总值是多少元?. 20725 . 18674 . 15721 D. 19711 E.85124 (2)江苏省 52 个县市人均地区生产总值的标准差是多少?. 36023 . 11969 . 9837 D. 5632 E. 21773 (3)江苏省 52 个县市人均地区生产总值的中位数是多少?. 6923 . 4292 . 13119 D. 5798 E. 14992 名师资料总结 - - -精品资料欢迎下载 - -

80、- - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 24 页,共 25 页 - - - - - - - - - 统计学第四章数据的描述性分析第 25 页(4)江苏省 52 个县市人均地区生产总值的偏态系数是多少? . 0.55 . 1.23 . 2.56 D. 2.48 E. 0.10 (5)江苏省 52 个县市人均地区生产总值的峰度系数是多少? . 8.92 . 5.28 . 2.02 D. 6.57 E. 0.54 (6)江苏省 52 个县市人均地区生产总值的全距是多少?. 10964 . 108647 . 108586 D. 32

81、948 E. 25124 (7)根据斯透奇斯规则对52 个县市数据进行分组,组数是多少?. 9 . 5 . 7 D. 6 E. 8 (8)若采用等距数列,根据组数和全距的关系,确定的组距是多少?A. 18500 . 16300 . 29400 D. 17000 E. 23200 (9)人均地区生产总值在2060036900 元之间的县市个数是多少? . 35 . 8 . 5 D. 6 E. 20 (10)人均地区生产总值大于20600 元的县市个数占全部县市比例是多少? . 32.7% . 20.2% . 25.0% D. 15.6% E. 28.8% 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 25 页,共 25 页 - - - - - - - - -

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号