《四章节集趋势和离中趋势》由会员分享,可在线阅读,更多相关《四章节集趋势和离中趋势(47页珍藏版)》请在金锄头文库上搜索。
1、第四章第四章 集中趋势和离中趋势集中趋势和离中趋势 4.1 4.1 集中趋势的计量集中趋势的计量 4.2 4.2 离中趋势的计量离中趋势的计量 4.3 4.3 数据的分布形状数据的分布形状1.1.简单算术平均数简单算术平均数 计算公式计算公式: : 它是反映数据集中的主要测度它是反映数据集中的主要测度。4.1 集中趋势的计算集中趋势的计算 集中趋势反映一组数据中各数据所具有的共同趋势,即资料中各数据聚集的位置。一、算术平均(也叫均值 ) 算术平均的统计含义:算术平均数是同质总体各算术平均的统计含义:算术平均数是同质总体各数据偶然性、随机性特征互相抵消后的稳定数值。反映数据偶然性、随机性特征互相
2、抵消后的稳定数值。反映数据集中的特征。数据集中的特征。例例 某生产班组某生产班组1111个工人的日产零件数分别为:个工人的日产零件数分别为:1515,1717,1919,2020,2222,2626,3030。求该生产班组工人的平均日产零件。求该生产班组工人的平均日产零件数。数。2222解:解: 算术平均值的性质一算术平均值的性质一:数据观察值与均值的离差值数据观察值与均值的离差值之和为零之和为零. .此性质表明均值是各数值的重心 算术平均值的性质二:算术平均值的性质二:观察值与均值的离差平方观察值与均值的离差平方和最小。和最小。 为任意数为任意数 故用算术平均值来预测作为估计值,误差平方和故
3、用算术平均值来预测作为估计值,误差平方和最小。最小。数列数列:1,2,2,3 :1,2,2,3 平均数为平均数为2 2数列数列:1,2,2,5 :1,2,2,5 平均数为平均数为2.52.5数列数列:1,2,2,7 :1,2,2,7 平均数为平均数为3 3均值的缺点:均值易受极端值的影响,某个极端大值均值易受极端值的影响,某个极端大值或极端小值都会影响均值的代表性。同时还影响其对或极端小值都会影响均值的代表性。同时还影响其对集中趋势测度的准确性。集中趋势测度的准确性。2.加权算术平均数加权算术平均数 如果数据是分组资料,经过整理形成了次数分配,如果数据是分组资料,经过整理形成了次数分配,由于各
4、组次数不同,要用次数作权数计算加权算术平由于各组次数不同,要用次数作权数计算加权算术平均数。均数。 则均值的计算公式为:则均值的计算公式为:其中其中Xi 表示第表示第i 组的组中值,组的组中值,fi表示第表示第i组的次数。组的次数。工人一周生产零件数工人一周生产零件数工人数工人数fi组中值组中值xixifi60以下以下75538560-702165136570-802575187580-901985161590以上以上895760合计合计80-6000例:某单位80工人一周生产零件数的分组统计资料如下表:二、中位数二、中位数 将数据观察值将数据观察值x x1 1,x,x2 2, , ,x xn
5、 n按其变量值由小到按其变量值由小到大的顺序排列,大的顺序排列,处于数列中点位置的数值就是中位处于数列中点位置的数值就是中位数(数(M Me e)。 中位数的确定方法:中位数的确定方法:如果数据个数为如果数据个数为奇数奇数,则处于则处于(n+1)/2n+1)/2位置的位置的标志值是中位数。标志值是中位数。如果数据个数为如果数据个数为偶数偶数,则处于则处于n/2n/2、n/2+1n/2+1的两的两个标志值的平均数为中位数。个标志值的平均数为中位数。如果是组距分组资料,公式为:如果是组距分组资料,公式为: 中位数是中位数是n/2n/2位置上的数值,设落在第位置上的数值,设落在第i i组组, , L
6、 Li i是中位数所在组的下限,是中位数所在组的下限, f fi i是中位数所在组的次数。是中位数所在组的次数。 F Fi-1i-1是中位数所在组的前一组的累积次数是中位数所在组的前一组的累积次数 U Ui i-L-Li i是中位数所在组的组距是中位数所在组的组距 = =上限上限- -下限下限向上累向上累积积向下累向下累积积某单位80工人一周生产零件数分组统计资料如下:工人一周生工人一周生产零件数产零件数工人数工人数fi组中值组中值xixifi向上累计频向上累计频数数向下累计频向下累计频数数60以下75538578060-7021651365287370-8025751875535280-90
7、19851615722790以上895760808合计80-6000- 中位数是位置平均数,不受极端值的影响。各个数值中位数是位置平均数,不受极端值的影响。各个数值相对其中位数的绝对离差之和为最小。相对其中位数的绝对离差之和为最小。 不足:中位数确定时只与中间位置的相关数据有关,不足:中位数确定时只与中间位置的相关数据有关,而不考虑其它数值的大小,缺乏敏感性;计算复杂。而不考虑其它数值的大小,缺乏敏感性;计算复杂。三、众三、众 数数众数是一组资料中出现次数最多的那个数值,也反众数是一组资料中出现次数最多的那个数值,也反映数据集中的程度(映数据集中的程度( M M0 0 )。)。未分组资料,未分
8、组资料,M M0 0就是出现次数最多的变量值。就是出现次数最多的变量值。2020,1515, 1818,2020,2020,2222,2020,23232020,2020,1515,1919, 1919, 2020,1919,25251010,1111,1313,1616,1515,25 25 ,8 8,1212分组资料:在等距分组的情况下,频数最多的组是分组资料:在等距分组的情况下,频数最多的组是众数组,在该组内确定众数。众数组,在该组内确定众数。设众数在第设众数在第i i组,则组,则 L Li i是众数所在组的下限,是众数所在组的下限, U Ui i是众数所在组的上限;是众数所在组的上限;
9、 f fi i是众数所在组的次数。是众数所在组的次数。 d di i= = U Ui i-L-Li i是中位数所在组的组距是中位数所在组的组距 = =上限上限- -下限下限某单位80工人一周生产零件数分组统计资料如下:工人一周生工人一周生产零件数产零件数工人数工人数fi组中值组中值xixifi向上累计频向上累计频数数向下累计频向下累计频数数60以下75538578060-7021651365287370-8025751875535280-9019851615722790以上895760808合计80-6000-在在Excel中中AVERAGEAVERAGE()()计算算术平均数计算算术平均数利
10、用利用SUMSUM()函数和()函数和SUMPRODUCTSUMPRODUCT()函数求加权算术()函数求加权算术平均。平均。MEDIANMEDIAN()()计算中位数计算中位数MODEMODE()()计算众数计算众数四、均值、中位数、众数三者之间的关系四、均值、中位数、众数三者之间的关系XfXfXf(对称分布对称分布)正偏态分布(右)正偏态分布(右)负偏态分布负偏态分布(左)左)均值是数据分布的平衡点或重心,中位数把这个分均值是数据分布的平衡点或重心,中位数把这个分布划分为两半,众数正好是分布的顶端。布划分为两半,众数正好是分布的顶端。在偏斜不大时,中位数大约位于均值与众数的在偏斜不大时,中
11、位数大约位于均值与众数的1/3处。处。 算术平均数适用于定距变量(或数值变量、算术平均数适用于定距变量(或数值变量、定量变量),中位数适用于定序变量,众数则适用定量变量),中位数适用于定序变量,众数则适用于定类变量(或定性变量)于定类变量(或定性变量)五、集中趋势的其它测度量五、集中趋势的其它测度量1.1.分位数:四分位数、十分位数、百分位数。分位数:四分位数、十分位数、百分位数。分位数的计算:分位数的计算: (1 1)将资料按大小顺序排列;)将资料按大小顺序排列; (2 2)求出分位数所在位置)求出分位数所在位置i i; (3 3)若)若i i为整数,则所求分位数为该位置上的数值;若为整数,
12、则所求分位数为该位置上的数值;若i i为非整为非整数,则取第数,则取第i i与第与第i+1i+1位置的两个数值的平均数为所求分位数。位置的两个数值的平均数为所求分位数。 (4 4)若资料为分组数据,则各分位数可按下式计算:)若资料为分组数据,则各分位数可按下式计算: K Ki i表示第表示第i i个个K K分位数;分位数; L Li i表示第表示第i i个个K K分位数所在组的下分位数所在组的下限;限;N N表示数据总个数;表示数据总个数;F Fi-1i-1表示第表示第i i个个K K分位数所在组的前一组的分位数所在组的前一组的累积次数;累积次数;f fi i是第是第i i个个K K分位数所在
13、组的次数。分位数所在组的次数。d di i= = U Ui i-L-Li i是第是第i i个个K K分位数所在组的组距。分位数所在组的组距。 其中其中 表示中位数的位置取整。这样计算出的四分位数表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间的位置,要么是整数,要么在两个数之间0.50.5的位置上的位置上四分位数的位置确定方法:四分位数的位置确定方法:方法方法1:定义算法:定义算法方法方法2:以中位数为中心,从两端再计算中位数,公式:以中位数为中心,从两端再计算中位数,公式:方法方法3 Excel给出的四分位数位置的确定方法给出的四分位数位置的确定方法 无论哪种算
14、法,如果位置是整数,四分位数就无论哪种算法,如果位置是整数,四分位数就是该位置对应的值;如果是在是该位置对应的值;如果是在0.50.5的位置上,则取该的位置上,则取该位置两侧值的平均数;如果在位置两侧值的平均数;如果在0.250.25或或0.750.75位置上,位置上,则四分位数等于该位置的下侧值加上按比例分摊位则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。置两侧数值的差值。【例例】:9个家庭的人均月收入数据个家庭的人均月收入数据(3种方法计算种方法计算) 原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排排 序序: 750
15、 780 850 960 1080 1250 1500 1630 2000 位位 置置: 1 2 3 4 5 6 7 8 9方法方法1:方法方法2:所以所以QL为从最小值数第为从最小值数第3个数值,即个数值,即850元;元; Qu为从最为从最大值数第大值数第3个数值,即个数值,即1500元;元;方法方法3 Excel方法方法所以所以Q QL L为第为第3 3个数值,即个数值,即850850元;元; Q Qu u为为7 7个数值,即个数值,即15001500元;元; 可见三种方法计算的四分位数不完全相同。但对可见三种方法计算的四分位数不完全相同。但对他们的解释是一样的,即排序数据中,至少他们的解
16、释是一样的,即排序数据中,至少25%25%的数的数据小于等于据小于等于Q QL L,至少至少75%75%的数据小于等于的数据小于等于Q Qu u。原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 1630 排排 序序: : 750 780 850 960 1080 1250 1500 1630 2000 位位 置置: : 1 2 3 4 5 6 7 8 92.2.几何平均数几何平均数公式为:公式为: 用用于于计算平均比率或平均速度。包括计算平均比率或平均速度。包括 (1 1)对比率进行平均;)对比率进行平均; (2 2)测定生产或经济变量的时间序列
17、)测定生产或经济变量的时间序列的的平均平均增长率增长率。举例:将一笔钱存入银行,存期举例:将一笔钱存入银行,存期1010年,以复利计息,年,以复利计息,1010年的利率分配是:第年的利率分配是:第1 1年至第年至第2 2年为年为5%5%、第、第3 3年至年至5 5年为年为8%8%、第、第6 6年至第年至第8 8年为年为10%10%、第、第9 9年至第年至第1010年年12%12%,计算平均年利率。计算平均年利率。 注意:当观测值有一项为注意:当观测值有一项为0 0或负值时,不易计算几或负值时,不易计算几何平均数。何平均数。3.调和平均值调和平均值调和平均值是观察值倒数之平均数的倒数,也称倒调和
18、平均值是观察值倒数之平均数的倒数,也称倒数平均数。用数平均数。用 表示:表示:(1 1)具有倒数性质)具有倒数性质 例如某人前例如某人前1010公里以时速公里以时速5050公里行驶,后公里行驶,后1010公里以公里以3030公里时速行驶。这公里时速行驶。这2020公里花了公里花了0.5330.533小时,所以平均小时,所以平均时速时速(2 2)总体单位数未知时,例)总体单位数未知时,例4.114.11(7171)加权调和平均数加权调和平均数应用条件:资料经过分组,各组次数不同。应用条件:资料经过分组,各组次数不同。算术平均、几何平均、调和平均三者关系算术平均、几何平均、调和平均三者关系三者均属
19、于均值体系三者均属于均值体系算术平均值是直接对观测值进行平均;几算术平均值是直接对观测值进行平均;几何平均值是对观察值对数后的平均;调和何平均值是对观察值对数后的平均;调和平均值是对观察值取倒数后平均;一般情平均值是对观察值取倒数后平均;一般情况下,有如下关系况下,有如下关系:在在Excel中中QUARTILEQUARTILE()()计算四分位数计算四分位数PERCENTILEPERCENTILE()()计算百分位数计算百分位数GEOMEAN()GEOMEAN()计算几何平均数计算几何平均数HARMEAN()HARMEAN()计算简单调和平均数计算简单调和平均数4.2 离中趋势的计算离中趋势的
20、计算离中趋势是数据分布的又一特征,它表明变量值的差异离中趋势是数据分布的又一特征,它表明变量值的差异或离散程度。或离散程度。离中趋势测度经常用到的指标有:极差、方差和标准差、离中趋势测度经常用到的指标有:极差、方差和标准差、四分位差等,它们也被称为变异指标。四分位差等,它们也被称为变异指标。一、一、 极差极差 极差也称为全距,是一组数据的最大值和最小值的极差也称为全距,是一组数据的最大值和最小值的差:差: 缺点:缺点:易受极端值的影响。易受极端值的影响。 全距值越小,数据变动范围越小,平均数的代表全距值越小,数据变动范围越小,平均数的代表性越高;全距值越大,数据数据变动范围越大,平均性越高;全
21、距值越大,数据数据变动范围越大,平均数的代表性越低。数的代表性越低。二、平均差二、平均差1、平均差是指数据值与其均值之差的绝对值的算术平均、平均差是指数据值与其均值之差的绝对值的算术平均值,用符号值,用符号AD表示。计算公式:表示。计算公式:2、优点:完整地反映了全部数据的分散程度,计算方法、优点:完整地反映了全部数据的分散程度,计算方法简单;简单; 缺点:易受极值影响,绝对值计算不方便。缺点:易受极值影响,绝对值计算不方便。分组数据:分组数据:未分组数据:未分组数据: 平均差越大,平均差越大,平均数代表性越低;平均数代表性越低; 平均差愈小,平均数代表性越高平均差愈小,平均数代表性越高三、三
22、、 方差与标准差方差与标准差总体方差是观察值与其均值离差平方和的均值;总体方差是观察值与其均值离差平方和的均值;总体标准差是总体方差的正平方根;总体标准差是总体方差的正平方根; 如果计算总体方差的资料是次数分配数据,在计算如果计算总体方差的资料是次数分配数据,在计算总体方差时要将各组权数考虑进去,有如下公式:总体方差时要将各组权数考虑进去,有如下公式:总体方差的另一种表达方式:总体方差的另一种表达方式: 总体方差愈大,数据的变动程度愈大,总体方差愈大,数据的变动程度愈大,总体方总体方差愈差愈小,小,数据的数据的变动程度愈小。变动程度愈小。样本方差与样本标准差样本方差与样本标准差当样本数据个数足
23、够大时,样本方差与总体方差很接近当样本数据个数足够大时,样本方差与总体方差很接近在在ExcelExcel中中 Max Max()()-min-min()() 计算极差计算极差 AVEDEVAVEDEV()()计算平均差计算平均差 VARP VARP()()计算总体方差计算总体方差 VAR VAR()()计算样本方差计算样本方差 STDEVP STDEVP()()计算总体标准差计算总体标准差 STDEV STDEV()()计算样本标准差计算样本标准差四、四、Chebishev定理与经验法则定理与经验法则1.Chebishev定理:定理: 对任何一组资料,观测值落于均值左右对任何一组资料,观测值落
24、于均值左右k个标准差的个标准差的区间内的比例,至少为(区间内的比例,至少为(1-1/k2)。)。 Chebishev定理适用于任何形状的次数分布资料,定理适用于任何形状的次数分布资料,但此区间是一个比较保守的估计值。但此区间是一个比较保守的估计值。2.经验法则:经验法则: 当资料分布呈对称形状时,有:当资料分布呈对称形状时,有: (1)约有)约有68%的观测值落于的观测值落于 的区间内;的区间内; (2)约有)约有95%的观测值落于的观测值落于 的区间内;的区间内; (3)约有)约有97%的观测值落于的观测值落于 的区间内;的区间内;五、相对离中趋势五、相对离中趋势变异系数变异系数定义:变异系
25、数又称离散系数,是标准差与均值的比定义:变异系数又称离散系数,是标准差与均值的比值。值。 公式:公式:对数据相对离散程度的测度对数据相对离散程度的测度消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较例:例:C.V.甲3007.52.5%乙40092.25%从从上看,甲的上看,甲的 更具代表性,通过更具代表性,通过C.V. ,乙不但,乙不但 高,而且各地块产量比甲农场稳定,因此乙的高,而且各地块产量比甲农场稳定,因此乙的 最最具有代表性。具有代表性。【 例 】评价哪名运动员的发挥更稳定评价哪名运动员的发挥更稳定发
26、发挥挥比比较较稳稳定定的的运运动动员员是是塞塞尔尔维维亚亚的的亚亚斯斯娜娜舍舍卡卡里里奇奇和和中中国国的的郭郭文文珺珺,发发挥挥不不稳稳定定的的运运动动员员是是蒙蒙古古的的卓卓格格巴巴德德拉拉赫赫蒙蒙赫赫珠珠勒勒和和波波兰兰的的莱莱万万多多夫夫斯斯卡卡萨贡萨贡六、离中趋势的其它测度量六、离中趋势的其它测度量 1.四分位差四分位差 四分位差是第三个四分位值与第一个四分位值之差四分位差是第三个四分位值与第一个四分位值之差的二分之一。用的二分之一。用Q.D.表示。表示。 意义:意义:剔除了极端值,说明剔除了极端值,说明50%数据分布的范围;数据分布的范围;与中位数配合说明数据分布是否对称。与中位数配
27、合说明数据分布是否对称。若分布对称,则若分布对称,则Q2-Q1=Q3-Q2=(Q3-Q1)/2若不相等,则是非对称的。若不相等,则是非对称的。2.异众比率异众比率 异众比率异众比率指非众数值的次数之和占总次数的比重,指非众数值的次数之和占总次数的比重,用用VM0表示。表示。 fM0 为众数值次数,为众数值次数,n为总次数为总次数 含义:含义: 异众比率数值越大,说明众数的代表性越低,即异众比率数值越大,说明众数的代表性越低,即观测值差异较大;异众比率数值越小,说明众数的观测值差异较大;异众比率数值越小,说明众数的代表性越高,即观测值差异较小。代表性越高,即观测值差异较小。3.平均差系数平均差系
28、数4.3 数据的分布形状数据的分布形状一、偏斜度一、偏斜度 偏斜度是对数据分布在平均数两侧的偏移方向偏斜度是对数据分布在平均数两侧的偏移方向和偏移程度所作的描述。和偏移程度所作的描述。1.Pearson偏态系数偏态系数偏态系数以平均数与众数之差除以标准差来衡量偏偏态系数以平均数与众数之差除以标准差来衡量偏斜程度,用斜程度,用SK表示。其计算公式为:表示。其计算公式为:当当SK=0时时, 呈对称分布呈对称分布; 当当SK0时时, 分布是右偏分布是右偏(正偏)的(正偏)的;当当SK0SK0时,表示频数分布比正态分布更集中,分布呈尖峰时,表示频数分布比正态分布更集中,分布呈尖峰状态,状态,K3) )(K K=3)=3) ( (K K3) )EXCEL中,用函数中,用函数kurt()求偏斜度()求偏斜度数据的描述统计量数据的描述统计量数据特征数据特征水平水平差异差异分布形状分布形状中位数和分位数中位数和分位数众数众数极差和四分位差极差和四分位差偏态系数偏态系数方差或标准差方差或标准差峰态系数峰态系数平均数平均数变异系数变异系数