统计学-数据的描述性分析(课堂PPT)

上传人:日度 文档编号:143031482 上传时间:2020-08-25 格式:PPT 页数:81 大小:1MB
返回 下载 相关 举报
统计学-数据的描述性分析(课堂PPT)_第1页
第1页 / 共81页
统计学-数据的描述性分析(课堂PPT)_第2页
第2页 / 共81页
统计学-数据的描述性分析(课堂PPT)_第3页
第3页 / 共81页
统计学-数据的描述性分析(课堂PPT)_第4页
第4页 / 共81页
统计学-数据的描述性分析(课堂PPT)_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《统计学-数据的描述性分析(课堂PPT)》由会员分享,可在线阅读,更多相关《统计学-数据的描述性分析(课堂PPT)(81页珍藏版)》请在金锄头文库上搜索。

1、1,本章内容,第一节 集中趋势的描述 第二节 离散程度的描述 第三节 分布的偏态与峰度,2,集中趋势,集中趋势反映的是一组数据向某一中心值靠拢的倾向,在中心附近的数据数目较多,而远离中心的较少。对集中趋势进行描述就是寻找数据一般水平的中心值或代表值。,3,4,1.数值平均数:是以统计数列的所有数据来计算的平均数.其特点是统计数列中任何一项数据的变动,都会在一定程度上影响数值平均数的计算结果. 2.位置平均数:它不是对统计数列中所有数据进行计算所得的结果,而是根据数列中处于特殊位置上的个别单位或部分单位的标志值来确定的.,5,数值平均数包括算术平均数、调和平均数和几何平均数.,1.算术平均数(均

2、值, Arithmetic Mean),总体均值常用 或 表示,样本均值常用 表示,样本均值 的计算公式:,简单算术平均数:,加权算术平均数:,一、 数值平均数,6,权数的意义和作用,权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用. 当各组的次数都相同时,即当 时: 加权算术平均数就等于简单算术平均数.,7,例:计算某车间工人加工零件平均数(组距式数列),解:,8,关于计算结果的说明,根据原始数据和分组资料计算的结果一般不会完全相等, 根据分组数据只能得到近似结果. 只有各组数据在组内呈对称或均匀分布时,根据分组资料 的计算结果才会与原始数据的计算结果一致.,(1)

3、.各变量值与均值的离差之和等于零.,(2).各变量值与均值的离差平方和最小.,9, 算术平均数的特点,算术平均数适合用代数方法运算,因此运用 比较广泛; 易受极端变量值的影响,使 的代表性变小; 受极大值的影响大于受极小值的影响; 当组距数列为开口组时,由于组中值不易确 定,使 的代表性也不很可靠;同时要求各单位 标志值在组内是均匀分布的,此时各组的平均数正好等于它的组中值。故用组中值计算得出来的平均数只能是一个近似值。,10,调和平均数是各个变量值倒数的算术平均数的倒数。,2、调和平均数(又称“倒数平均数”),11,其计算方法如下:,在加权的情况下:,12,在社会经济统计学中经常用到的仅是一

4、种特定权数的加权调和平均数。即有以下数学关系式成立:,m是一种特定权数,它不是各组变量值出现的次数,而是各组标志值总量。,13, 调和平均数的特点,如果数列中有一标志值等于零,则无法 计算 ; 较之算术平均数, 受极端值的影响要小。,14,例.某蔬菜批发市场三种蔬菜日成交数据如下表,计算三种蔬菜该日的平均批发价格.,15,3.几何平均数(Geometric Mean),又称“对数平均数”,是另一种形式的平均数,是n个标志值乘积的 n 次方根.主要用于计算平均比率和平均速度.,(1)简单几何平均数,式中G表示几何平均数, 表示各项标志值.,16,(2)加权几何平均数,17,例 某企业四个车间流水

5、作业生产某产品, 一车间产品合格率99%,二车间为95%,三车间为92%,四车间为90%, 计算该企业的平均产品合格率.,18, 几何平均数的特点,如果数列中有一个标志值等于零或负值,就无法计算 ; 受极端值的影响较 和 小; 它适用于反映特定现象的平均水平,即现象的总标志值是各单位标志值的连乘积。,19,注:(1),(2) 数值平均数主要适用于定量数据,而不适用于定性数据. (3) 简单数值平均数适用于未分组的资料,加权数值平均数适用于分组的资料.,20,1.众数(Mode),一组数据中出现次数最多的变量值.,主要特点: 不受极端值的影响. 有的数据无众数或有多个众数.,位置平均数,21,2

6、2,M0,M0,M0,M0,M0,若有两个次数相等的众数,则称复众数。, 只有总体单位数比较多,而且又有明显的集中趋势时才存在众数。,23,下三图无众数:, 在单位数很少,或单位数虽多但无明显集中趋势时,计算众数是没有意义的。,说明:如果所有数据出现的次数都一样,那么这组数据没 有众数.,24,众数主要用于分类数据,也可用于顺序数据和数值型数据,对于未分组数据和单项式分组数据,众数位置确定之后便找到了众数.,适用范围,25,例:分类数据的众数,26,例:顺序数据的众数,27, 根据单项数列确定众数;,某种商品的价格情况,众数M0=3.00(元),数值型数据众数的计算方法,28, 根据组距数列确

7、定众数,()利用比例插值法推算众数的近似值。,() 由最多次数来确定众数所在组;,29,表中70-80,即众数所在组。,30,计算众数的近似值:,下限公式:,上限公式:,31, 众数的特点,众数是一个位置平均数,它只考虑总体分布中最频繁出现的变量值,而不受各单位标志值的影响,从而增强了对变量数列一般水平的代表性。不受极端值和开口组数列的影响。,众数是一个不容易确定的平均指标,当分布数列没有明显的集中趋势而趋均匀分布时,则无众数可言;当变量数列是不等距分组时,众数的位置也不好确定。,32,2.中位数(Median),中位数是一组数据按一定顺序排列后,处于中间位置上的变量,33,34, 由未分组资

8、料确定中位数,数值型数据中位数的计算方法,35, n为奇数时,则居于中间位置的那个标志值 就是中位数。,36, n为偶数时,则中间位置的两个标志值的算术 平均数为中位数。,37, 由单项数列确定中位数,某企业按日产零件分组如下:,38, 由组距数列确定中位数,39,下限公式(较小制累计时用):,40,上限公式(较大制累计时用):,41, 中位数不受极端值及开口组的影响, 具有稳健性。, 各单位标志值与中位数离差的绝对值之和 是个最小值。, 对某些不具有数学特点或不能用数字测定的 现象,可用中位数求其一般水平。,中位数的特点,42,负偏,正偏,注: (1)中位数总是介于众数和平均数之间.,43,

9、(2) 皮尔逊经验法则 分布在轻微偏斜的情况下,众数、中位数和算术平均数数量关系的经验公式为:,44,一组工人的月收入众数为700元,月收入的算术平均数 为1000元,则月收入的中位数近似值是:,根据卡尔皮尔逊经验公式,还可以推算出:,45,众数、中位数、平均数的特点和应用,众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 平均数 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用,46,数值平均数与位置平均数的适用场合?,47,案例1:甲班统计学考试情况如下表:,48,案例2:乙班统计学考试情况如下表:

10、,49,案例3:丙班统计学考试情况如下表:,50,问题 1、计算甲、乙、丙三个班的平均成绩;该平均值是真实值还是近似值?如是近似值,什么情况下会是真实值? 2、计算甲、乙、丙三个班的中位数、众数; 3、如要选择从算术平均数、中位数和众数三个平均数中选择一个数来分别代表甲、乙、丙三个班的整体水平,请问你会选择哪个平均数?为什么? 4、如要分别反映甲、乙、丙三个班的考试情况,你会选择用哪些指标来衡量? 5、如要比较甲、乙、丙三个班的考试情况的优劣,你又会选择什么样的指标来衡量? 6、甲乙丙三个班的考试成绩分别服从对称分布、左 偏分布、右偏分布中的哪种分布?为什么?,51,离散程度的描述,反映各变量

11、值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度.,52,53,3.2.1 离散程度的常用指标,异众比率,式中, 为变量值的总频数; 为众数组的频数.,异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差.,54,全距(极差),极差(Range)也叫全距,是一组数据的最大值与最小值之差,即:,组距分组数据可用最高组上限最低组下限计算.,55,四分位差,四分位差(quartile deviation)也称内距或四分间距(inter-quartile range),是指第三四分位数和第一四分位数之差.,四分位差的计算公式为:,把所有数据由小到大排列并分成

12、若干等份,处于分割点位 置的数值就是分位数.,56,把所有数据由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数.,分位数可以反映数据分布的相对位置(而不单单是中心位置). 常用的有四分位数、十分位数、百分位数. 四分位数(Quartile): Q1 ,Q2 ,Q3; 十分位数(Decile): D1 , D2 ,., D9; 百分位数(Percentile): P1, P2 ,.,P99 ;,57,四分位数的计算 首先确定四分位数的位置,再找出对应位置的标志值即为 四分位数.设样本容量为n,则,如果各位置计算出来的结果恰好是整数,这时各位置上的 标志值即为相应的四分位数;如果四分

13、位数的位置不是整 数,则四分位数为前后两个数的加权算术平均数.权数的大 小取决于两个整数位置与四分位数位置距离的远近,距离 越近,权数越大.,在实际应用中,计算四分位数的方法并不统一(数据量大时 这些方法差别不大),对于一组排序后的数据:,58, SPSS中四分位数的位置分别为 Excel中四分位数的位置分别为,59,练习: 已知9个家庭的人均月收入数据,试求这组数据的第一和第三四分位数.,四分位差反映了中间50%数据的离散程度,数值越小说明中间数据越集中.,60,平均差(Mean deviation) 平均差也称平均绝对偏差,总体所有单位的标志值与其平均数的离差绝对值的算术平均数.通常用 表

14、示.,未分组数据计算平均差的公式为:,加权式(分组数据):,平均差虽然能较好地区别出不同组数据的分散情况或程度, 但它的缺点是绝对值不适合作进一步的数学分析.,61,标准差和方差(Standard deviation and Variance),方差是一组数据中各数值与其算术平均数离差平方的平均数.标准差是方差中的平方根.,62,注:总体方差和样本方差的符号不同,计算公式也不一样.是反映定量数据离散程度的最常用的指标.,63,例. 在某地区抽取的120家企业按利润额进行分组,结果如表3.1所示.,表3.1 某地区120家企业的利润额分组,计算120家企业利润额的均值和标准差.,64,65,离散

15、系数(Coefficient of variation),离散系数也称变异系数,是各变异指标与其算术平均数的比值.例如,将极差与其平均数对比,得到极差系数;将标准差与其平均数对比,得到标准差系数.最常用的变异系数是标准差系数:,标准差系数:标准差与其相应的均值之比,表示为百分数.,66,特点: 1、反映了相对于均值的相对离散程度; 2、可用于比较计量单位不同的数据的离散程度; 3、计量单位相同时,如果两组数据的均值相差悬殊,离散系数比标准差更有意义.,67,例子. 某管理局抽查了所属的8家企业,其产品销售数据如表3.2所示,试比较产品销售额和销售利润的离散程度.,68,销售额,销售利润,结论:

16、计算结果表明, 说明产品销售额的离散程度小于销售利润的离散程度.,69,3.2.2 数据的标准化,定义 标准化数值是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准分数.设标准化数值为z,则有:,对于来自不同均值和标准差的个体的数据,往往不能直接对比.这就需要将它们转化为同一规格、尺度的数据后再比较. 标准分数是对某一个值在一组数据中相对位置的度量.,70,例3.2.1 假定某班学生先后两次进行了难度不同的大学英语综合考试,第一次考试成绩的均值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分.张三第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢?,解:由于两次考试成绩的均值和标准差不同,每个学生两次 考试的成绩不宜直接比较. 利用标准分数进行对比,计算结果表明,第二次考试成绩更好些.,71, 对称分布中的 法则,变量值落在 范围以外的情况极为少见.因此通常将落在区间 之外的数据称为离群点(或异常数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 专业基础教材

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号