《数据分布特征》PPT课件.ppt

上传人:hs****ma 文档编号:568459347 上传时间:2024-07-24 格式:PPT 页数:42 大小:942KB
返回 下载 相关 举报
《数据分布特征》PPT课件.ppt_第1页
第1页 / 共42页
《数据分布特征》PPT课件.ppt_第2页
第2页 / 共42页
《数据分布特征》PPT课件.ppt_第3页
第3页 / 共42页
《数据分布特征》PPT课件.ppt_第4页
第4页 / 共42页
《数据分布特征》PPT课件.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《《数据分布特征》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据分布特征》PPT课件.ppt(42页珍藏版)》请在金锄头文库上搜索。

1、第第 四四 章章 数据分布特征的描述数据分布特征的描述 一、均值一、均值 (mean)( (一一) )概念概念 均值均值是反映数据分布集中趋势十分重要的数据,代表代表总体单位某一标志值的一般水平总体单位某一标志值的一般水平。( (二二) )特征特征 1.具有抽象性。抽象性。 2.具有代表性。代表性。 3.反映反映总体分布的集中趋势。集中趋势。( (三三) )举例举例 1.某市中学生每周平均上网时间为21小时。 2.某农贸市场2月份牛肉的平均价格为34元/千克。 3.某地区“十五”期间经济平均增长率为9.6%。第第 一一 节节 数据分布集中趋势的测定数据分布集中趋势的测定(四)均值的种类及计算(

2、四)均值的种类及计算 1.1.算术平均数算术平均数* (1)(1)概念概念 算术平均数又称平均值,是用一组数据中所有值之和除以该组数据的个数。 (我们最熟悉,用途最广,但我们有时却不一定能计(我们最熟悉,用途最广,但我们有时却不一定能计算出均值,要学好均值的计算。)算出均值,要学好均值的计算。) (2)(2)基本公式基本公式算术平均数的计算算术平均数的计算*简单算术平均数简单算术平均数: 总体平均数总体平均数 样本平均数样本平均数算术平均数的计算算术平均数的计算 *加权算术平均数加权算术平均数(重点)(重点) 概念概念: :是对每个数据每个数据都根据其在全组中的重要程度赋赋予一定权重予一定权重

3、后得到的算术平均数。 计算公式计算公式: : (1 1)未分组数据)未分组数据 其中其中,w表示各组的标志总量,而不是各组变量值出现的次数,总体和样本加权算术平均数的公式是相同。 ( (鸡兔同笼问题,鸡兔同笼问题,1515只鸡,只鸡,2020只兔子,平均每只动物有只兔子,平均每只动物有多少条腿多少条腿) ) 例例4-14-1根据某公司根据某公司四个品牌数码相机的销四个品牌数码相机的销售资料计算平均利润率。售资料计算平均利润率。(P71)表4-1 四个品牌数码相机的利润率和销售额资料四个品牌数码相机的利润率和销售额资料四个品牌数码相机的平均销售利润率为: 分组的加权平均数分组的加权平均数: :根

4、据分组数据计算均值。样本样本均值的计算公式(难点)(难点) 总体总体均值的计算公式:表示各组的变量值变量值(组距式数列的组中值组中值); 表示各组变量值出现的频数(即权数权数)。(算术平均数的不足,(算术平均数的不足,P72.)其中, 例例4-24-2根据某电脑公司在各市场上销售量的根据某电脑公司在各市场上销售量的分组数据,计算电脑销售量的均值。分组数据,计算电脑销售量的均值。 按按销售量分售量分组(台)(台) 组中中值(Mi)市市场个数个数(fi)Mi fi 1401501501601601701701801801901902002002102102202202302302401451551

5、65175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合合计fi 120Mi fi 222002.2.调和平均数调和平均数(1 1)概念)概念: : 调和平均数调和平均数又称倒数平均数倒数平均数,是各个变量值倒数的算术平均数的倒数。 (调和平均数的特点,(调和平均数的特点,P73) (2 2)计算)计算 简单调和平均数简单调和平均数:针对未分组资料。未分组资料。 计算公式为:2.2.调和平均数调和平均数 加权调和平均数加权调和平均数: :针对分组资料。分组资料。 计算公式计算公式为:

6、 其中其中: 是一种特殊权数特殊权数,它不是各组变量值出现的次数,表示各组标志总量各组标志总量。 即 例例4-34-3根据根据某商场职工月工资资料计算月平某商场职工月工资资料计算月平均工资。均工资。 表表4-3某商场职工月工资资料某商场职工月工资资料3.3.几何平均数几何平均数(1)(1)概念概念:几何平均数(geometric mean)又称对称平均数,它是各变量值乘积的n次方根。(2)(2)计算计算 基本公式基本公式: : 对数公式对数公式: : 在实际工作中,由于变量个数较多,通常要应用对数来进行计算。即 (3)(3)几何平均数的应用及特点几何平均数的应用及特点 应用条件应用条件 a.a

7、.变量值是相对数据,如比率或发展速度。变量值是相对数据,如比率或发展速度。 b.b.变量值的连乘积等于总比率或总发展速度。变量值的连乘积等于总比率或总发展速度。特点特点 a.a.如果数列中有一个标志值等于零或负值,则无法计算。如果数列中有一个标志值等于零或负值,则无法计算。 b.b.受极端值影响较小,故较稳健。受极端值影响较小,故较稳健。 例例4-44-4 某电器销售公司20002005年销售量的环比增长率分别为:7.6%、2.5%、0.6、2.7%和2.2%。求这期间销售量的平均增长速度。表4-4 销售量平均发展速度计算表 几何平均数的计算示例几何平均数的计算示例几何平均数的计算示例几何平均

8、数的计算示例 1.1.采用基本公式采用基本公式计算的销售量平均发展速度为: 2. 2.采用对数公式采用对数公式计算的销售量平均发展速度为: 所以,销售量的平均增长速度所以,销售量的平均增长速度=103.1%-1=3.1% =103.1%-1=3.1% 二、位置平均数二、位置平均数(一)中位数(一)中位数(median) 1.1.概念概念 中位数是将一组数据项按照数值大小升序或者降序排列后位于中间位置的那个数据中间位置的那个数据,符号为 。 2.2.中位数的计算方法中位数的计算方法 (1)(1)未分组数据的中位数未分组数据的中位数 将变量值按升序或降序排列,找中间位置的变量值。 (2)(2)单项

9、数列的中位数单项数列的中位数 计算各组的累计频数累计频数(向上累计向上累计或向下累计向下累计);根据中位数位置确定中位数。 例例4-54-5 计算某公司销售人员月销售冰箱中位数 表4-5 某公司销售人员月销售冰箱中位数计算按月按月销售冰箱分售冰箱分组 (台台)销售人售人员数数(人人)向上累向上累计频数数向下累向下累计频数数25303234363931014271883132754728080776753268合合 计80中位数的位置中位数的位置 即中位数中位数在累计频数为40的那一组内(向上累计或向下累计均可得出),则 。 2.2.中位数的计算方法中位数的计算方法(3 3)组距数列的中位数)组

10、距数列的中位数:由下列公式近似计算 下限公式下限公式其中其中:为总体单位总数;为中位数组的下限;为中位数组以下的累计频数;为中位数组的频数;为中位数组的组距; 例例4-6 4-6 求以下组距数列的中位数。求以下组距数列的中位数。 按家庭收入分组(元)按家庭收入分组(元)家庭数(户)家庭数(户)向上累计频率向上累计频率5 000以下5 00010 00010 00015 00015 00020 00020 000以上214514662166808692合合 计计9292中位数的近似值为:表4-6 某地区家庭收入分组中位数的位置在第第46(92/2)位)位,应在第二第二组中位数的特点中位数的特点

11、是一种位置平均数位置平均数,不受极端值及开口组的影响不受极端值及开口组的影响。 对于分配不对称的数据分配不对称的数据,中位数比平均值更适合当集中趋势的代表值。 对某些不具有数字特征或不能用数字测定的现象,可对某些不具有数字特征或不能用数字测定的现象,可用中位数表示其一般水平用中位数表示其一般水平。 例如,对众多的消费者购买数码相机时,分别对价格、外观、品质的注重程度排序后,可以求出消费者在乎的中位数因素。 二、位置平均数二、位置平均数(二)(二)众数众数 1.1.概念概念 众数(mode)是指在一组数中出现次数最多的那个数值,符号为 。 2.2.数据数列的众数分布情况数据数列的众数分布情况 无

12、众数无众数 如数据数列: 13 7 9 12 6 8 一个众数一个众数 如数据数列: 6 5 9 8 6 6 多个众数多个众数 如数据数列: 22 35 27 35 27 363.3.众数的计算方法众数的计算方法 * *品质变量的众数品质变量的众数观察次数,出现次数最多的变量值就是众数。 例如:企业的所有制结构分布、人口的城乡分布。 * *数值变量的众数数值变量的众数 未分组资料未分组资料观察次数,出现次数最多的数据就是众数。 分组资料分组资料 (1)单项式数列直接观察,次数最多的组的变量值即为众数。 例例4-74-7单项式变量数列确定众数实例单项式变量数列确定众数实例 表4-7 某市居民家庭

13、按家庭人口数分组 由上表可以看出,家庭人口数为3人的家庭数最多,因此本例中家庭人口数的众数为3人人。3.3.众数的计算方法众数的计算方法 组距数列组距数列计算众数:由下列公式近似计算: 其中其中 为众数组与前一组频数之差;为众数组的下限;为众数组与后一组频数之差;为众数组的组距。 例例4-8 4-8 组距式数列计算众数示例组距式数列计算众数示例收入组别收入组别人均收入(元)人均收入(元)频数(人)频数(人)1234562 000元以下2 0004 000元4 0006 000元6 0008 000元8 00010 000元10 000以上234368322410合合 计计200200其众数的近

14、似值为:表表4-8 4-8 某某地区的人均月收入调查数据地区的人均月收入调查数据三、均值、中位数和众数的比较三、均值、中位数和众数的比较(一)均值、中位数和众数的数量关系(一)均值、中位数和众数的数量关系 1.当数据呈对称分布对称分布时,三者合而为一。三者合而为一。 2.当数据呈左偏分布左偏分布时,说明数据存在极小值存在极小值,必然拉动均值向极小值一方靠均值向极小值一方靠,则从左至右依次是均值、中位均值、中位数和众数。数和众数。 3.当数据呈右偏分布右偏分布时,说明数据存在极大值存在极大值,必然拉动均值向极大值一方靠均值向极大值一方靠,则从左至右依次是众数、中位众数、中位数和均值。数和均值。

15、三、均值、中位数和众数的比较三、均值、中位数和众数的比较( (二二) ) 均值、众数和中位数的特点及应用场合均值、众数和中位数的特点及应用场合 *均值均值是对对数值型数值型数据数据的计算计算,利用了全部数据信息,具有优良的数学性质,是实际中应用最广泛应用最广泛的集中趋势测度值。 *中位数中位数是一组数据中间位置上的代表值,其特点是不受数据极端值不受数据极端值的影响,主要适合于作为顺序数据的顺序数据的集中趋势测度值集中趋势测度值。 *众数众数是一组数据分布的峰值数据分布的峰值,它也是一种位置代表值,不受极端值不受极端值的影响,主要适合于作为分类数据的集分类数据的集中趋势测度值中趋势测度值。(P7

16、9P79) 一、极一、极 差差(一)概念:(一)概念:又称全距,是数据中最大值和最小值之差。记为 。 (二)计算(二)计算 1.1.未分组数据的极差为未分组数据的极差为: 表示数据的最大值; 表示数据的最小值。 2.2.分组数据的极差分组数据的极差 极差最大组的上限最小组的下限极差最大组的上限最小组的下限 若存在开口组若存在开口组, ,则则: 最大组的上限前一组的上限组距最大组的上限前一组的上限组距 最小组的下限下一组的下限组距最小组的下限下一组的下限组距其中其中:第第 二二 节节 数据分布离散程度的测定数据分布离散程度的测定( (三三) )修正极差修正极差 1.1.概念概念: :修正极差修正

17、极差(modified range)(modified range)是去掉极端值后的是去掉极端值后的极差极差,又称四分位全距四分位全距(IQR,inter quartile range ),是中间中间5050的数据的间距的数据的间距,即数据分布中第第2525个和第个和第7575个百分位数的间距个百分位数的间距,也即第第1 1个和第个和第3 3个四分位数的间个四分位数的间距距。 2.2.公式:公式: 其中,其中,Q3表示第3个四分位数,即第75个百分位数; Q1表示第1个四分位数,即第25百分位数。 二、平均差二、平均差(一)概念(一)概念 平均差(mean absolute deviation

18、,MAD)是各数据对平各数据对平均数的离差绝对值的平均数均数的离差绝对值的平均数。 (假设有两个球员,五场比赛得分如下,A:8、10、12、13、7; B: 2、30、0、11、7。如果你是教练,你选哪个?试计算平均差 和方差。)(二)样本平均差的计算公式(二)样本平均差的计算公式 1.1.未分组数据:未分组数据: 2.2.分组数据:分组数据: 三、方差和标准差三、方差和标准差( (一一) )概念概念 方差方差(variance)(variance)是各变量值与其均值离差平方的平均数。标准差标准差(standard deviation)(standard deviation)是方差的平方根,又

19、称“均方差均方差”。( (二二) )比较与评价比较与评价 1.1.其内涵与平均差相似其内涵与平均差相似,均为各个数据对其平均数的平均离差。但平均差采用求绝对值消除正负离差,标准差采用平方法消除正负离差,在数学处理上标准在数学处理上标准差比平均差更为科学合理差比平均差更为科学合理。 2.2.方差和标准差是测度数值型数据离散程度的最主方差和标准差是测度数值型数据离散程度的最主要的指标要的指标。 (例:(例:P84P84) 例例4-94-9某电脑公司销售量分组数据如表4-7,计算销售量的方差和标准差 (如何计算均值?) 表4-7某电脑公司销售量分组数据 (三)总体方差和标准差计算示例(三)总体方差和

20、标准差计算示例总体方差和标准差计算示例总体方差和标准差计算示例 根据公式计算可知总体均值总体均值为: 总体方差总体方差为: 总体标准差总体标准差为: 例例4-104-10 根据以下资料,计算企业职工平均工资的标准差。(已知平均工资为760元) 表4-9 某企业职工工资分组数据表总体方差和标准差计算示例总体方差和标准差计算示例 总体方差总体方差为: 总体标准差总体标准差为: ( (四四) )样本方差和标准差样本方差和标准差 1.说明说明 在大多数统计应用中,都针对样本数据来分析总体数量特征。因此通常用样本方差来估计总体方差用样本方差来估计总体方差,用样用样本标准差来估计总体标准差本标准差来估计总

21、体标准差。 2.2.符号符号 样本容量样本容量用n n 表示; 样本方差样本方差用S S2 2 表示; 样本标准差样本标准差用S S 表示。 3.3.计算公式计算公式 (P86P86) 与总体方差和标准差公式类似,区别在于分母除以n-1。 四、离散系数四、离散系数 ( (一一) )概念:概念:离散系数(离散系数(coefficient of variationcoefficient of variation)也)也称变异系数,称变异系数,是一组数据的离散指标的绝对数与其相应离散指标的绝对数与其相应的均值之比的均值之比,是离散指标的相对数形式。(二)表现形式(二)表现形式 有全距系数全距系数、平

22、均差系数平均差系数和标准差系数标准差系数。最常用的是标最常用的是标准差系数。准差系数。(三)计算公式(三)计算公式 总体体标准差系数准差系数 样本本标准差系数准差系数四、离散系数四、离散系数 ( (四四) )应用:应用:用于比较不同总体数据分布的离散程度比较不同总体数据分布的离散程度。 例题例题4-114-11 甲乙企业职工的年均收入分别为20 000元和50 000元,收入的标准差分别为3 000和5 000元,哪家企业职工的收入差距小一些? 分析分析 不同企业的年均收入不同,不能直接比较标准不同企业的年均收入不同,不能直接比较标准差,只能比较标准差系数。差,只能比较标准差系数。 结论结论

23、乙企业职工收入差距小于甲企业。乙企业职工收入差距小于甲企业。甲企甲企业标准差系数 乙企乙企业标准差系数一、偏态及其测定一、偏态及其测定(一)偏态(一)偏态(skewness) 是指数据分布的不对称性数据分布的不对称性,其度量值称为偏态系数偏态系数SKSK。(二)计算(二)计算 未分组数据未分组数据: 分组数据分组数据: 是样本标准差的三次方。 第第 三三 节节 数据分布偏态与峰态的测定数据分布偏态与峰态的测定一、偏态及其测定一、偏态及其测定(三)偏态系数大小的说明(三)偏态系数大小的说明 偏态系数 SK SK 0 ,说明数据为对称分布。对称分布。偏态系数 SK SK 0 ,说明数据为偏态分布。

24、偏态分布。其中:其中: SK SK 0 说明数据为正偏(右偏)分布;正偏(右偏)分布; SK SK 0 说明数据为负偏(左偏)分布。负偏(左偏)分布。二、峰态及其测定二、峰态及其测定 (一)峰态(一)峰态(kurtosis)(kurtosis)是指正态分布数据正态分布数据的平平峰峰或尖峰尖峰程度,其度量值为峰态系数峰态系数。(二)峰态(二)峰态通常是与标准正态分布相比较与标准正态分布相比较而言的。若数据服从标准正态分布标准正态分布,则峰态系数峰态系数0 0。若数据服从非标准正态分布非标准正态分布,则峰态系数峰态系数0 0。当峰态系数峰态系数0 0时为尖峰分布尖峰分布,即比正态分布更尖。比正态分

25、布更尖。当峰态系数峰态系数0 0时为平峰分布平峰分布,即比正态分布偏平。比正态分布偏平。本章本章小结小结 1.1.数数据据集集中中趋趋势势的的测测定定介绍了各种均值、中位数、众数的概念和特点,比较了均值、中位数、众数的特点,重点介绍其计算方法和应用场合。 2.2.数数据据离离散散程程度度的的测测定定介绍了极差、平均差、方差、标准差、离散系数的概念和计算方法。重点是方差、标准差及标准差系数的计算。 3.3.数据偏态与峰态的测定数据偏态与峰态的测定简单介绍了偏态和峰态的基本概念及测定方法。 ( (趣味小语:读史使人明智、读诗使人灵秀、趣味小语:读史使人明智、读诗使人灵秀、数学使人周密、科学使人精深、伦理学使人数学使人周密、科学使人精深、伦理学使人庄重庄重) )END

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号