统计学原理:第五章 单变量描述量统计分析

上传人:ni****g 文档编号:569709742 上传时间:2024-07-30 格式:PPT 页数:94 大小:2.29MB
返回 下载 相关 举报
统计学原理:第五章 单变量描述量统计分析_第1页
第1页 / 共94页
统计学原理:第五章 单变量描述量统计分析_第2页
第2页 / 共94页
统计学原理:第五章 单变量描述量统计分析_第3页
第3页 / 共94页
统计学原理:第五章 单变量描述量统计分析_第4页
第4页 / 共94页
统计学原理:第五章 单变量描述量统计分析_第5页
第5页 / 共94页
点击查看更多>>
资源描述

《统计学原理:第五章 单变量描述量统计分析》由会员分享,可在线阅读,更多相关《统计学原理:第五章 单变量描述量统计分析(94页珍藏版)》请在金锄头文库上搜索。

1、第五章数据的概括性度量学习目的与要求:通过本章的教学,使学生熟悉数据的常见统计特征和相关度量。具体而言,要求学生掌握数据集中趋势和离散趋势的度量;了解数据偏态、峰态的概念和度量值,会进行偏态与峰态的判断。重点和难点:重点:集中趋势的度量:众数;中位数和四分位数;平均数;众数、中位数和平均数的比较。离散程度的度量:异众比率;四分位差;方差和标准差;离散系数。难点:中位数和四分位数;平均数;众数、中位数和平均数的比较;异众比率;四分位差;方差和标准差;离散系数。主要内容:一、分布的集中趋势二、分布的离散程度三、数据分布的偏态和峰度第一节集中趋势分析一、集中趋势的测度值概念(centraltende

2、ncy):是指一组数据向某一中心值靠拢的程度,它反映了一组数据的中心点的位置所在.二、种类及确定方法种类种类: :算术平均数算术平均数调和平均数调和平均数 数值平均数数值平均数数值平均数数值平均数- - - -适合数值型数据适合数值型数据适合数值型数据适合数值型数据几何平均数几何平均数众数众数 位置平均数位置平均数位置平均数位置平均数- - - -适合分类数据数值型数据。适合分类数据数值型数据。适合分类数据数值型数据。适合分类数据数值型数据。中位数中位数 - -适合适合适合适合顺序数据和数值型数据。顺序数据和数值型数据。顺序数据和数值型数据。顺序数据和数值型数据。(一)算术平均数(Arithm

3、etic Mean) 算术平均数算术平均数是指总体各单位标志值的是指总体各单位标志值的总和除以总体单位总数得到的平均数值总和除以总体单位总数得到的平均数值算术平均数基本计算公式:算术平均数基本计算公式:算术平均数与强度相对数有何区别?1.1.概念不同。强度相对数是两个有联系而性质不同的总体对比而形成相对数指标。算术平均数是反映同质总体单位标志值一般水平的指标。2.2.作用不同。强度相对数反映两不同总体现象形成的密度、强度。算术平均数反映同一现象在同一总体中的一般水平。3.3.计算公式及内容不同。算术平均数分子、分母分别是同一总体的标志总量和总体单位数,分子、分母的元素具有一 一对应的关系,即分

4、母每一个总体单位都在分子可找到与之对应的标志值,反之,分子每一个标志值都可以在分母中找到与之对应的总体单位。而强度相对数是两个总体现象之比,分子分母没有一 一对应关系。计算方法算术平均数由于掌握的资料不同和计算上的复杂程度不同,可分为简单算术平均数和加权算术平均数 1.简单算术平均数(未分组资料) 其中:其中: 代表算术平均数,代表算术平均数,x xi i代表各单位标志值代表各单位标志值(变量值),(变量值),n n代表总体单位数(项数)。代表总体单位数(项数)。 2 2、加权算术平均法计算公式( (分组资料) :其中: 代表算术平均数,X Xi i 代表各组组中值(变量值),f fi i代表

5、各组单位数(频数)。案例5.1.1某公司下属各店职工按工龄分组情况工 龄组中值xi人数 fi 一店 二店 三店 四店 五店 0 2年 2 5年 5 10年10 20年 1.0 3.5 7.5 15.0 1 1 1 1 7 7 7 7 25 25 25 25 1 3 6 10 10 6 3 1合计 4 28 100 20 20平均工龄 6.75 6.75 6.7510.325 3.425n一、二、三店人数相差很远,但平均工龄相等。n四、五店人数相等,但平均工龄相差很大。n结论:平均数水平高低受两个因素的影响: (1)变量 x (2)权数 f,绝对权数表现为次数、频数,相对n 权数表现为频率。一店

6、平一店平一店平一店平均工龄均工龄均工龄均工龄五店平五店平均工龄均工龄算术平均数的若干数学性质1.1.平均数与总体单位数的积等于标志总量2.2.各个变量值X X与算术平均数 的离差和为零。3.3.各个变量值X X与算术平均数 的离差平方和为最小值。4.4.若每个变量值 X X 加减一任意常数 ,则平均数也增减一个 。5.5.若每个变量值 X X乘以或除以一任意常数 ,则平均数也要乘以或除以该数b b。离差的概念12345678-1-1-213STAT(二)调和平均数(Harmonic Mean) 调和平均数: :又称倒数平均数. . 是变量倒数的算术平均数的倒数。调和平均数与算术平均数的比较1.

7、1.变量不同:算术平均数是x x,调和平均数是 1/x 1/x 。2.2.权数不同:算术平均数是f f或n n,代表次数(单位数),调和平均数是 x f x f 或 M M,代表标志总量。3.3.联系:调和平均数作为算术平均数的变形使用:STATx、f 为已知若只知 x 和xf ,而f 未知,则不能使用加权算术平均方式,只能使用其变形即加权调和平均方式。 苹果 单价 购买量 总金额 品种 (元)(公斤) (元)红富士 2 3 6 青香蕉 1.8 5 9 案例5.1.4 某市场有三种不同品种的苹果,其每斤价格分别为4 4元、5 5元和9 9元,试计算:(1 1)各买一斤,平均每斤多少钱?(2 2

8、)各买1 1元钱,平均每斤多少钱?解:(1 1)(2 2)案例5.1.5 自行车赛时速:甲30公里,乙28公里,丙20公里,全程200公里,问三人平均时速是多少?若甲乙丙三人各骑车2小时,平均时速是多少?解:由相对数或平均数计算平均数1.1.由相对数计算平均数2.2.由平均数计算平均数应用调和平均数应注意问题1.1.变量x x的值不能为0 0。2.2.调和平均数易受极端值的影响。3.3.要注意其运用的条件。(三)几何平均数(Geometric Mean) 一、几何平均法一、几何平均法一、几何平均法一、几何平均法是指是指是指是指n n n n个变量连乘积的个变量连乘积的个变量连乘积的个变量连乘积

9、的n n n n次根。次根。次根。次根。 1 1 1 1、简单几何平均法、简单几何平均法、简单几何平均法、简单几何平均法 2 2 2 2、加权几何平均法、加权几何平均法、加权几何平均法、加权几何平均法案例5.1.6某商店经营两种商品甲、乙商品,甲商品由上月价格200元上涨到250元,而乙商品由250元下降为200元,试计算该商店商品的平均价比。3.应用条件:几何平均法一般适用于各变量值之间存在环比或等比关系的事物。4.应用范围计算平均比率和平均速度。如:银行平均利率、各年平均发展速度、产品平均合格率等的计算就采用几何平均法。案例5.1.7 假定某地储蓄年利率(按复利计算):5%5%持续1.51

10、.5年,3%3%持续2.52.5年,2.2%2.2%持续1 1年。请问此5 5年内该地平均储蓄年利率。解: :运用几何平均法应注意的问题1.1.变量数列中任何一个变量值不能为0 0,一个为0 0,则几何平均数为0 0。2.2.用环比指数计算的几何平均易受最初水平和最末水平的影响。3.3.几何平均法主要用于动态平均数的计算。(四)中位数(Median) 1.1.1.1.中位数:将总体单位的某一数量标志的各个数值按中位数:将总体单位的某一数量标志的各个数值按中位数:将总体单位的某一数量标志的各个数值按中位数:将总体单位的某一数量标志的各个数值按照大小顺序排列,居于中间位置的那个数值就是中位照大小顺

11、序排列,居于中间位置的那个数值就是中位照大小顺序排列,居于中间位置的那个数值就是中位照大小顺序排列,居于中间位置的那个数值就是中位数。数。数。数。152 154 154 155 155 156 156 156 156 157 158 158 159 159 160 160 160 160 160 160 160 160 160 160 160 160 161 161 161 161 161 161 161 162 162 162 162 162 162 162 162 163 163 163 163 164 164 164 165 165 165 165 165 165 165 165 166

12、 166 166 166 166 167 167 167 168 168 168 168 168 168 168 169 170 170 170 170 170 171 171 172 172 172 174中位数中位数的确定方法(1 1)由未分组资料确定中位数 排序:确定中位数位置奇数:中间位置的标志值为中位数。偶数:中间位置相邻两个变量值简单平均数是中位数。(2)资料已分组确定中位数 单项式分组数列 a.计算各组的累计次数 b.确定中点位次,即 。其所对应的那一组的变量值即为中位数。 中位数的确定方法-组距式数列 身高 人数 累计 (CM) (人) 人数 150-155 3 3 155-1

13、60 11 14 160-165 34 48 165-170 24 72 170以上 11 83 总计 83 某年级83名女生身高资料 组距式分组数列公式: 上限公式: 下限公式: (五)众数(Mode)众数是指变量数列中出现次数最多或频率最大的变量值。 身高 人数(CM) (人) 152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4 身高 人数(CM) (人) 164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1总计 83 152154154155

14、155156156156156157158158159159160160160160160160160160160160160160161161161161161161161162162162162162162162162163163163163164164164165165165165165165165165166166166166166167167167168168168168168168168169170170170170170171171172172172174众数的确定方法-单项式数列某年级83名女生身高资料身高 人数(CM) (人) 152 1 154 2 155 2 156 4

15、157 1 158 2 159 2 160 12 161 7 162 8 163 4身高 人数(CM) (人) 164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1总计 83 身高 人数 比重 (CM) (人) (%) 150-155 3 3.61 155-160 11 13.25 160-165 34 40.96 165-170 24 28.92 170以上 11 13.25 总计 83 100某年级83名女生身高资料众数的确定方法-组距式数列概约众数:众数所在组的组中值,在本例为162.5cmSTAT 上限公式: 下限公式:

16、 众数的确定方法-组距式数列公式:众数的原理及应用当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数。但在数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,也等于没有众数)。众数的原理及应用出生1981.01980.01979.01978.01977.01976.01975.0160140120100806040200413名学生出生时间分布直方图众数的原理及应用没有突出地集中在某个年份众数的原理及应用192.5190.5188.5186.5184.5182.5180.5178.5176.5174.5172.5170.5168.51

17、66.5164.5162.5160.5158.5156.5154.5152.5150.5148.56050403020100413名学生的身高分布直方图出现了两个明显的分布中心众数的原理及应用STAT413名学生身高分布条形图三、平均数之间关系1.算术平均数、众数和中位数之间关系(1)与次数分布数列有关 案例5.1.9某一组变量数列有三种情况:第一种情况:第二种情况:第三种情况:在正态分布的情况下在偏态分布的情况下 1 1)右偏分布 (有极大值) 2 2)左偏分布 (有极小值) )中位数与算术平均数相近右偏分布左偏分布 (2)存在一数量关系: 即:故, 案例5.1.20根据某城市住户家庭月收入

18、抽样调查可知众数为1040元,中位数为1128.57元。试计算算术平均数是多少?其分布呈何形态?(3)注意三者的实际含义某医院为了提高医院服务质量,其中有一项是为了了解病人住院天数,随机抽取67个病人资料,样本资料表明病人在院时间在1-185天内,根据有关资料计算有关平均数如下:试解释它们的含义。案例5.1.212.算术平均数、调和平均数和几何平均数之间关系:1 1、当所有的变量值都相等时,则三种平均数相等。即:2 2、当变量各值不相等时,则三种平均数不相等。即:四、 计算和应用平均数的原则1.1.同质性原则2.2.与组平均数结合应用原则3.3.与具体事例结合应用的原则例:与组平均数结合应用的

19、原则工人组别基期报告期平均工资增减(%)工资总额(元)职工人数(人)平均工资(元)工资总额(元)职工人数(人)平均工资(元)新职工老职工210000630000 60014003504501155000 49500030001000385495+10+10合计840000200042016500004000412.51.81新老职工平均工资比较第二节 离中趋势分析案例5.2.1 已知两个供应商过去营运数据中每次供货所需要天数的有关资料数据如下: 据资料分析,你会选择哪一家公司作为你的供应商首选。 案例5.2.2 某投资者准备将一笔资金投资于股票,有两种方案:买A股或B股,两种股票预期收益资料如

20、下: 据资料分析,你会选择哪一家股票作为你的投资首选。 集中趋势弱、离散趋势强集中趋势强、离散趋势弱一、变异度指标的概念 变异度指标又称标志变动度指标变异度指标又称标志变动度指标变异度指标又称标志变动度指标变异度指标又称标志变动度指标,是综合反映总,是综合反映总,是综合反映总,是综合反映总体各单位标志值及其分布的差异程度的指标。体各单位标志值及其分布的差异程度的指标。体各单位标志值及其分布的差异程度的指标。体各单位标志值及其分布的差异程度的指标。 如:七个人的工资分别为:如:七个人的工资分别为:如:七个人的工资分别为:如:七个人的工资分别为:320320320320元,元,元,元,320320

21、320320元,元,元,元,400400400400元,元,元,元,400400400400元,元,元,元,500500500500元,元,元,元,500500500500元,元,元,元,2000200020002000元。元。元。元。平均工资为平均工资为平均工资为平均工资为634.29634.29634.29634.29元(平均指标元(平均指标元(平均指标元(平均指标 ,集中趋势),集中趋势),集中趋势),集中趋势)最高和最低之差为最高和最低之差为最高和最低之差为最高和最低之差为1680168016801680元(变异度指标,内部差元(变异度指标,内部差元(变异度指标,内部差元(变异度指标,

22、内部差异,离中趋势)。异,离中趋势)。异,离中趋势)。异,离中趋势)。 二、变异度指标的作用+1 1、衡量平均数代表性的重要尺度;、衡量平均数代表性的重要尺度;+ 变异度指标值与平均数的代表性大小成反比。变异度指标值与平均数的代表性大小成反比。+2 2、衡量现象变动的稳定性和均衡程度。、衡量现象变动的稳定性和均衡程度。+ 变异度指标越小,现象变动的稳定性和均衡程度越高。变异度指标越小,现象变动的稳定性和均衡程度越高。+3 3、计算抽样误差和确定样本容量的依据、计算抽样误差和确定样本容量的依据。三、种类全距全距平均差平均差 适合数值型数据适合数值型数据适合数值型数据适合数值型数据方差和标准差方差

23、和标准差变异系数变异系数异众比率异众比率 - -适合分类数据数据适合分类数据数据适合分类数据数据适合分类数据数据四分位差四分位差 - -适合适合适合适合顺序数据和数值型数据顺序数据和数值型数据顺序数据和数值型数据顺序数据和数值型数据四、计算方法(一)异众比率(Variationratio)1. 对分类数据离散程度的测度2. 非众数组的频数占总频数的比率3. 计算公式为4.用于衡量众数的代表性。案例(二)四分位离差(QuartileDeviation)1 1、四分位差是四分位数中间两个分位之差。、四分位差是四分位数中间两个分位之差。 四分位差四分位差Q=Q=第三个四分位数第三个四分位数Q QU

24、U第一个四分位数第一个四分位数Q QL L2 2、优缺点:计算简单,意义清楚,反映现象的差异程度较粗略和、优缺点:计算简单,意义清楚,反映现象的差异程度较粗略和不全面,实用价值甚小。不全面,实用价值甚小。四分位数(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据。Q QL LQ QMMQ QU U25%25%25%25%四分位数(位置的确定)原始数据:顺序数据:数值型数据的四分位数 (9个数据的算例)【例例】:9个家庭的人均月收入数据 原始数据原始数据原始数据原始数据: : 1500 750 780 108

25、0 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630 排排排排 序序序序: : 750 780 850 960 1080 1250 1500 1630 2000750 780 850 960 1080 1250 1500 1630 2000 位位位位 置置置置: : 1 1 2 32 3 4 5 6 4 5 6 7 87 8 9 9数值型数据的四分位数 (10个数据的算例)【例例】:10个家庭的人均月收入数据 排排排排 序序序序: : 660660 750 780 850 960 1080 1250 1500 1630

26、 2000750 780 850 960 1080 1250 1500 1630 2000 位位位位 置置置置: : 1 1 2 32 3 4 4 5 6 7 5 6 7 8 98 9 10 10 EXCELL给出的四分位数(位置的确定)(三)全距(Range)1 1、全距、全距-是指总体各单位标志值中最大值与最小值之差,又称是指总体各单位标志值中最大值与最小值之差,又称极差。极差。 全距全距 R=R=最大值最大值x xmaxmax最小值最小值x xminmin 2 2、优缺点:计算简便,意义清楚,反映现象的差异程度较粗略,、优缺点:计算简便,意义清楚,反映现象的差异程度较粗略,实用价值甚小。

27、实用价值甚小。(四)平均差(Mean Absolute Deviation.MAD) 1.概念:平均差是总体各单位标志值对其平均差是总体各单位标志值对其算术平数的离差绝对值的算术平均数。算术平数的离差绝对值的算术平均数。 2.计算 1)简单的平均差: 2加权的平均差:优缺点:含义明确,计算也较简便,能充分、客观反映总体各单位标志值含义明确,计算也较简便,能充分、客观反映总体各单位标志值之间的差异程度,但以绝对值为计算基础不利于进一步的代数运之间的差异程度,但以绝对值为计算基础不利于进一步的代数运算。算。方差(variance):各变量值与其算术平均数离差平方的算术平均数。 标准差(mean s

28、quare deviation Standard deviation ):是方差的算术平方根。也称均方差、均方根差、离差均方根等。Var 2 S2MSD STDEV S(五)方差及标准差1.概念2.方差及标准差的计算简单式加权式总体方差及标准差简单式样本方差及标准差自由度-概念:自由度是指附加给独立的观测值的约束或限制的个数。从字面含义看:自由度是指一组数据中可以自由取值的个数。方差及标准差的计算一般的计算过程:列表 第二步计算离差 第三步离差平方 第四步乘以权数简捷计算方法:不计算离差(六)离散系数(CoeffientofVariation)1 1、离散系数又称标志变动度指标,它是各变异度指

29、标与其算术、离散系数又称标志变动度指标,它是各变异度指标与其算术平均数对比得到的相对数。平均数对比得到的相对数。 平均差系数平均差系数 标准差系数标准差系数2 2、作用:离散系数用于对比分析不同数列变异度大小的指标。、作用:离散系数用于对比分析不同数列变异度大小的指标。第三节交替标志其值仅表现为具有某种特征或不具有某种特征两种情况的标志称为是非标志,也称交替标志。性别:男、女(非男)产品质量:合格、不合格1 01 01.1.概念:交替标志又称是非标志,它是一个只有两种答案的标志。2.2.表示形式 1 1:具有某种属性的单位标志值。 0 0:不具有某种属性的单位标志值。N N:全部总体单位数。N

30、 N1 1:具有某种属性的总体单位数。N N2 2:不具有某种属性的总体单位数。P= NP= N1 1 /N /N:具有某种属性的单位数所占的比重。Q= NQ= N2 2 /N /N:不具有某种属性的单位数所占的比重。其中:P + Q = 1P + Q = 1具有某种标志的总体单位数不具有某种标志的总体单位数总体单位总数是非标志的均值:是非标志的标准差:案例5.3.1某厂某月份生产了1000件产品,其中合格品900件,不合格品100件。求产品质量分布的集中趋势与离散趋势。集中趋势:离散趋势:案例5.3.2甲、乙两班均为50人,甲班男生为35人,女生15人;乙班男生为30人,女生为20人。试比较

31、哪一个班学生性别差别大?第四节 偏态与峰度一、偏度(Skewness)及其测度 1.概念2.种类1)对称分布2)右偏分布3)左偏分布3.偏态的测定 与与 M M0 0 比较法比较法 偏态偏态 M M0 0 偏度偏度SKSKP P 反映分布数列的相对偏斜程度。反映分布数列的相对偏斜程度。 动差法动差法 偏度偏度 = = 其中:其中: =0 =0 正态分布正态分布 0 0 右(正)偏分布右(正)偏分布 0 0 左(负)偏分布左(负)偏分布二、峰度(Kurtosis)及其测度 1 1、峰度的概念峰度的概念2 2、峰度的种类峰度的种类 : 正态峰度正态峰度 尖顶峰度尖顶峰度 平顶峰度平顶峰度3 3、峰

32、度的测定方法、峰度的测定方法 其中:其中: =3 =3 正态曲线正态曲线3 3 平顶曲线平顶曲线3 3 尖顶曲线尖顶曲线1.8 U1.8 U形曲线形曲线1.8 1.8 一条水平线一条水平线数据的描述统计量2008年8月数据特征数据特征水平水平差异差异分布形状分布形状中位数和分位数中位数和分位数众数众数极差和四分位差极差和四分位差偏态系数偏态系数方差或标准差方差或标准差峰态系数峰态系数平均数平均数离散系数离散系数常用的几种次数分布类型偏度和峰度指标值偏度和峰度指标值曲线类型曲线类型 偏度偏度0峰度峰度33 左偏平顶曲线左偏平顶曲线左偏尖顶曲线左偏尖顶曲线 偏度偏度0峰度峰度33 右偏平顶曲线右偏

33、平顶曲线右偏尖顶曲线右偏尖顶曲线 偏度偏度 =0峰度峰度 =333 正态曲线正态曲线平顶曲线平顶曲线 尖顶曲线尖顶曲线 Excel中的统计函数lMODE计算众数lMEDIAN计算中位数lQUARTILE计算四分位数lAVERAGE计算平均数lHARMEAN计算简单调和平均数lGEOMEAN计算几何平均数lAVEDEV计算平均差lSTDEV计算样本标准差lSTDEVP计算总体标准差lSKEW计算偏态系数lKURT计算峰态系数lTRIMMEAN计算切尾均值用Excel和SPSS计算描述统计量 SPSSSPSS【ExploreExplore】输出的描述统计量输出的描述统计量2008年8月第五节 利用

34、SPSS for Windows 实现过程1.Frequencies 过程主要用于分析测量变量的频数分布,绘制频数分布表。同时可以计算几乎所有的描述性统计的指标,并作正态性检验。步骤:建立或读入数据文件选用程序:Analyze Descriptive Statistics Frequencies.2.Descriptives 过程主要用于计算测量变量的统计描述性统计的指标,功能与上相似,但更简单快捷,可同时计算多个变量的描述性指标。但不能计算百分位数。步骤:建立或读入数据文件选用程序:Analyze Descriptive Statistics Descriptives.利用SPSSForWindow的实现过程3.Explore过程4.Means过程 主要用于分组计算各统计指标,即均数、中位数、方差、标准差和标准误等,也可以进行单因素完全随机设计方差分析和线性检验。步骤建立或读入数据文件选用程序:AnalyzeCompareMeansMeans.

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号