数据分布特征的统计描述

上传人:re****.1 文档编号:569714374 上传时间:2024-07-30 格式:PPT 页数:183 大小:1.56MB
返回 下载 相关 举报
数据分布特征的统计描述_第1页
第1页 / 共183页
数据分布特征的统计描述_第2页
第2页 / 共183页
数据分布特征的统计描述_第3页
第3页 / 共183页
数据分布特征的统计描述_第4页
第4页 / 共183页
数据分布特征的统计描述_第5页
第5页 / 共183页
点击查看更多>>
资源描述

《数据分布特征的统计描述》由会员分享,可在线阅读,更多相关《数据分布特征的统计描述(183页珍藏版)》请在金锄头文库上搜索。

1、1 除了统计图和统计表之外,还可以用少量除了统计图和统计表之外,还可以用少量的的特征值(代表值)特征值(代表值)对数据分布的数量规对数据分布的数量规律进行精确、简洁的描述。律进行精确、简洁的描述。第三章第三章 数据分布数据分布特征的统计描述特征的统计描述澄键山痹温就入常割溶杏渍揍芒瘤碰涪义哨醒锦兢设触草惟谗陶腻遵校瘩数据分布特征的统计描述数据分布特征的统计描述2 大量的数据经过整理后,已经能初步反映总大量的数据经过整理后,已经能初步反映总体分布的特征。体分布的特征。 为了更加准确的了解数据分布的特征和规律,为了更加准确的了解数据分布的特征和规律,需要找到反映数据分布特征的需要找到反映数据分布特

2、征的代表值代表值 三类:集中趋势、离中趋势、分布形态三类:集中趋势、离中趋势、分布形态说明:说明:刑嘿粤抠癌槛幅值人针堤鸭季铬弱探舷拱靡典拱颤入空侮剂晨塘赛悔迪撰数据分布特征的统计描述数据分布特征的统计描述3集中趋势集中趋势:即反映各数据向中心值靠拢的程度:即反映各数据向中心值靠拢的程度返回本节首页集中趋势集中趋势集中趋势集中趋势 ( (位置位置位置位置) )俊滇屉台降琵框搜者殿让柑象叛寡晴耳荣殊妖驳榜襄骤魂侍景摹相语钩翼数据分布特征的统计描述数据分布特征的统计描述4离中趋势离中趋势:即反映各数据远离中心值的程度:即反映各数据远离中心值的程度离中趋势离中趋势离中趋势离中趋势 ( (分散程度分散

3、程度分散程度分散程度) )两个不同的曲线表示两个不同的总体,它们的两个不同的曲线表示两个不同的总体,它们的两个不同的曲线表示两个不同的总体,它们的两个不同的曲线表示两个不同的总体,它们的集中趋势相同但离中趋势不同。集中趋势相同但离中趋势不同。集中趋势相同但离中趋势不同。集中趋势相同但离中趋势不同。因为即使现象的集中趋势相同,其离中趋势因为即使现象的集中趋势相同,其离中趋势也可能不同。也可能不同。申猩酣曳挟文矫甩贞甘循俊临旋稀腕敬哈匝玫丈啥拉嗜纂运智窒漓总后另数据分布特征的统计描述数据分布特征的统计描述5实际中还会遇到:集中趋势和离中趋势均相同实际中还会遇到:集中趋势和离中趋势均相同实际中还会遇

4、到:集中趋势和离中趋势均相同实际中还会遇到:集中趋势和离中趋势均相同的现象,其分布的形态也可能不同。的现象,其分布的形态也可能不同。的现象,其分布的形态也可能不同。的现象,其分布的形态也可能不同。这表明:除了集中和离中趋势外,分布还这表明:除了集中和离中趋势外,分布还这表明:除了集中和离中趋势外,分布还这表明:除了集中和离中趋势外,分布还有其他方面的特征:有其他方面的特征:有其他方面的特征:有其他方面的特征:分布的形态分布的形态分布的形态分布的形态。指:数据分布的对称程度和扁平(高低)程度指:数据分布的对称程度和扁平(高低)程度指:数据分布的对称程度和扁平(高低)程度指:数据分布的对称程度和扁

5、平(高低)程度测度指标是偏度测度指标是偏度测度指标是偏度测度指标是偏度测度指标是峰度测度指标是峰度测度指标是峰度测度指标是峰度是相对于是相对于是相对于是相对于对称分布对称分布对称分布对称分布而言而言而言而言相对于相对于相对于相对于正态分布正态分布正态分布正态分布而言而言而言而言框碍滇登弧那茂蔷掌做臣扎瑰谦棚芝钻言囱唤绦尔诱案膏舔游太支悠矗铀数据分布特征的统计描述数据分布特征的统计描述6偏度:测定分布的偏斜程度的指标偏度:测定分布的偏斜程度的指标偏度:测定分布的偏斜程度的指标偏度:测定分布的偏斜程度的指标偏斜是相对于偏斜是相对于偏斜是相对于偏斜是相对于对称分布对称分布对称分布对称分布而言而言而言

6、而言峰度:测定分布的高低(尖峭)程度的指标峰度:测定分布的高低(尖峭)程度的指标峰度:测定分布的高低(尖峭)程度的指标峰度:测定分布的高低(尖峭)程度的指标尖峭是相对于尖峭是相对于尖峭是相对于尖峭是相对于正态分布正态分布正态分布正态分布而言而言而言而言蔡肋激啡粹贺代测土羽穿堆村钎婶粪射陨盗毡媒尾弓注俺疏担禁减曝炉系数据分布特征的统计描述数据分布特征的统计描述7偏态偏态偏态偏态(形状)(形状)(形状)(形状)峰态峰态峰态峰态 ( (形状形状形状形状) )正态分布正态分布正态分布正态分布对称分布对称分布对称分布对称分布米智臂婆冷眷键稽椭笔甘咆均捣侠汤脑宿蹲啄杉饺视衫蓉音绰唉泵暴镁颧数据分布特征的统

7、计描述数据分布特征的统计描述8扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布峰态峰态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与正态分布与正态分布与正态分布与正态分布比较!比较!比较!比较!偏态偏态偏态偏态与对称分与对称分与对称分与对称分布比较布比较布比较布比较祝魂卉携擒哮超诊浑炔蔑赴跑入鹏钥嘶垒跪昌镶晃屁嘱脸镶饲钳协馆啊茹数据分布特征的统计描述数据分布特征的统计描述9正态分布中有两个参数:正态分布中有两个参数:一般记为:一般记为:、2 是正态分布的参数,不确定常数。是正态分布的参数,不确定常数。 不同的不同的、不同的、不同的2对应不同的正态分布

8、对应不同的正态分布屯鬼袒巧洼狸沛忍输玖吵珊斯勋汕株池通询赴嚷枝办颧砰谆使扔尹词峦欣数据分布特征的统计描述数据分布特征的统计描述10标准正态分布是正态分布中的一种标准正态分布是正态分布中的一种记为:记为:售塌紫裳某湾怪呼设丘拎达执跪遍汰欺磕脆病堤咸聂换谭镶愈誉鸟蛛艰苗数据分布特征的统计描述数据分布特征的统计描述11本章内容本章内容v第一节第一节 集中趋势的测度集中趋势的测度 v第二节第二节 离散程度的测度离散程度的测度 v第三节第三节 偏度与峰度偏度与峰度 泌粉敷宵俗厅舆缉赠峨住官膛痈嘶伺驻嘱踢愁马敖壶达鹏衣柔挝咀屿耙黄数据分布特征的统计描述数据分布特征的统计描述12 第一节第一节 集中趋势的测

9、度集中趋势的测度v集中趋势集中趋势是指一组数据向其中心值靠拢的倾向是指一组数据向其中心值靠拢的倾向v测度集中趋势测度集中趋势就是寻找一组数据的代表值或中就是寻找一组数据的代表值或中心值,在统计中是使用心值,在统计中是使用平均指标平均指标来测度的。来测度的。泳嘴饲扛铱桨左诫护添懒渭合怒渭样炮砾展冬嫩募沮檬躬柠刑籽赔浅腋谜数据分布特征的统计描述数据分布特征的统计描述13本节内容本节内容v一、平均指标含义一、平均指标含义v二、平均指标的计算二、平均指标的计算 (一)算术平均数(一)算术平均数 (二)调和平均数(二)调和平均数 (三)几何平均数(三)几何平均数 (四)众数(四)众数 (五)中位数(五)

10、中位数v三、各种平均数之间的相互关系三、各种平均数之间的相互关系数值平均数值平均数值平均数值平均位置平均位置平均位置平均位置平均闷饶那尧迂茧盐者癌舆悟掸审糠塌汗碟销转疹剐驳冻苔析逢绢羡涸诬败进数据分布特征的统计描述数据分布特征的统计描述14一、平均指标含义一、平均指标含义1、定义:又称平均数。、定义:又称平均数。 是将同质总体内各单位的数量差异抽是将同质总体内各单位的数量差异抽象化,以反映总体的一般水平。象化,以反映总体的一般水平。被平均的对象必须具有同质性被平均的对象必须具有同质性渐属她术锭凉削陨独瞄瓮跃栋松窘汹翻荧蓬鹃辜然垦蚜删锣墩厄道桃环篷数据分布特征的统计描述数据分布特征的统计描述15

11、2、平均指标有两大类、平均指标有两大类数值平均数值平均:位置平均位置平均:根据总体内全部数据计算:算根据总体内全部数据计算:算根据总体内全部数据计算:算根据总体内全部数据计算:算术平均、调和平均、几术平均、调和平均、几术平均、调和平均、几术平均、调和平均、几 何平均。何平均。何平均。何平均。根据数据在分配数列中的位置根据数据在分配数列中的位置根据数据在分配数列中的位置根据数据在分配数列中的位置确定:众数、中位数。确定:众数、中位数。确定:众数、中位数。确定:众数、中位数。侯尺彪恿走磐眼赞搅悉循萝症殖达谩烷爸涟捡垃怂扳把捆幅列艾舅蹋锈巩数据分布特征的统计描述数据分布特征的统计描述163、平均指标

12、作用、平均指标作用 a、反映总体各单位变量值分布的集中趋势、反映总体各单位变量值分布的集中趋势 b、比较同一现象在不同空间或不同时间的发展、比较同一现象在不同空间或不同时间的发展 水平水平 c、分析现象间的依存关系、分析现象间的依存关系敢通嚷贡冰蠕窿群咨夕捎聘熙更禄卞釉瓜柱驭眩有蛹嗣焉泵园泥姿笺蹈惕数据分布特征的统计描述数据分布特征的统计描述17集中趋势集中趋势:v总体中各单位某一标志值的具体表现是各不相总体中各单位某一标志值的具体表现是各不相v同的,但一般呈正态分布,即很小或很大的标同的,但一般呈正态分布,即很小或很大的标v志值出现的次数较少,接近平均数的标志值出志值出现的次数较少,接近平均

13、数的标志值出v现的次数较多,大多数的标志值都围绕着平均现的次数较多,大多数的标志值都围绕着平均v数左右波动。数左右波动。返回本节首页怎阳维鸡配冠嗓就革丹罐绣闭奈瘸宰辑三码儒迭巡蒸兵答媒脆母唱殉软亮数据分布特征的统计描述数据分布特征的统计描述18商场按销售商场按销售额分(万元)额分(万元) 商场数商场数 (家)(家) 各组商品流通各组商品流通 费用率(费用率( %) 50以下以下 50200 200400 400600 600800 8001000 1000以上以上 25 70 130 75 40 18 10 11.2 10.4 9.9 6.7 5.9 5.5 5.0 注:流通费用率注:流通费用

14、率 = 费用额费用额 / 销售额销售额现象间的依存关系:现象间的依存关系:羞夹聊叭蛊院衍席抛鹃腾萝攘月智淳盼亢且缅穴充畏朗坚剩拎沙高萤逻骂数据分布特征的统计描述数据分布特征的统计描述19二、平均指标计算二、平均指标计算(一)算术平均数(一)算术平均数又称均值。根据掌握的资料不同又称均值。根据掌握的资料不同: 简单法和加权法。简单法和加权法。嘿土挂啤齿哲佩夷仗焙酮荫也谗善罕雀帘莽逢颠侦汀释行丁瘸潮汪莽螺距数据分布特征的统计描述数据分布特征的统计描述201、简单法:适用于没有分组的原始数据、简单法:适用于没有分组的原始数据均值,即算术平均数均值,即算术平均数均值,即算术平均数均值,即算术平均数x

15、标志值或变量值标志值或变量值见见49页例题页例题胯盎烩域汗胆鼎答呢喘垢迫逗临骗嘉还笼茁帆燃兔病编陷朋姆连肛础夯画数据分布特征的统计描述数据分布特征的统计描述212、加权法、加权法:分组且各组标志值出现的次数分组且各组标志值出现的次数 (权数(权数 f )不相等时,公式:)不相等时,公式:返回本节首页x x 为标志值,又称变量值;为标志值,又称变量值;为标志值,又称变量值;为标志值,又称变量值;f f 为各组标志值出现的次数为各组标志值出现的次数为各组标志值出现的次数为各组标志值出现的次数辙萧涩耶竣您牟警硅痒撬枝呀吓翰铱鬃疗府鞭掀眯滔娶果蜗履盼隋部轿映数据分布特征的统计描述数据分布特征的统计描述

16、22计算平均日产量计算平均日产量恫睁嘻摘瘫挡痔嚼髓督烂役产滔充冀募疽陪汗边位孤亩夸勺甲坞伎鸯故啊数据分布特征的统计描述数据分布特征的统计描述23产量产量(件)(件) x 人数人数 f xf192121232325252727292931202224262830146812102088144208336300合计合计-411096茵蔬挫淆孽鸿琴库料趁充佐恼傅姨白砷琅笋簇蛰橙饥镐债跨巨辕忆对亲丹数据分布特征的统计描述数据分布特征的统计描述24用统计功能的计算器计算:用统计功能的计算器计算:2ndF,ON,20 1M+ 22 4M+ 24 6M+26 8M+ 28 12M+ 30 10M+, xM结

17、果为结果为26.73俞搭贰白啃辽烧尚鞠讳彻哈迅劈酥桌膜袍幽砒奠筐肝慕齿藩磺舟芦柱拢禹数据分布特征的统计描述数据分布特征的统计描述25例例1:用计算器对下列数据求平均:用计算器对下列数据求平均 x f 25 25 35 35 45 45 55 55 合计合计合计合计 10 10 70 70 90 90 30 30 200 200抹再阿赛致苹优下投鹰爵搏出蛾雷芦灾江泅花钡跌燕艇节父殿鳞办墨翌颇数据分布特征的统计描述数据分布特征的统计描述26vmode2vShift scl =v 25 Shift;10 DT 35 Shift;70 DT 45 Shift;90DT 55 Shift;30 DTvS

18、hift 注意:注意:注意:注意:DTDT是储存功能的加号是储存功能的加号是储存功能的加号是储存功能的加号铀揪鞭巷枕隘同呵订码看知典搓堪傅疏迸忌编衙焕谢阴奴臻鹃搬霉房拧陵数据分布特征的统计描述数据分布特征的统计描述27 注意:注意:当各组权数均相等时,加权算术平均数当各组权数均相等时,加权算术平均数等于简单算术平均数等于简单算术平均数:返回本节首页请摸丑虫查症暂火汛够杆阳瘟豫光殿匝廷萧修按藤玄巷卓美伪骗遮规芝寐数据分布特征的统计描述数据分布特征的统计描述28产量产量( x )人数人数( f )1213141510101010合计合计40可用简单式计算均值可用简单式计算均值可用简单式计算均值可用

19、简单式计算均值各组权数都相等的数列各组权数都相等的数列僧撑雍阐镭孩透宠僻馋胳茬众巢骚他塘诌耘浙灰毡杂库耐鄂自碉擦粱夫祭数据分布特征的统计描述数据分布特征的统计描述29对称数列:对称数列:产量产量( x )人数人数( f )121314151531030103合计合计56可用简单式计算均值可用简单式计算均值可用简单式计算均值可用简单式计算均值越黄蝗冶得柔阴讶改时与篆腑钦洲娜肛嘿哈廓取乌痔直谩岔腑莲及樊呀柑数据分布特征的统计描述数据分布特征的统计描述303、权数、权数 加权均值的大小受两个因素的影响:加权均值的大小受两个因素的影响: 各组变量值(各组变量值(x) 各组次数,即权数(各组次数,即权数

20、(f)殉禄筛范种启懊风度产倾辅蛋花泻航辖舞纵鸥扬臆普锄兹着构耶酌堤蜘泪数据分布特征的统计描述数据分布特征的统计描述31(1)权数的定义)权数的定义权数:权数:即次数,分布在各组间的总体单位数,即次数,分布在各组间的总体单位数, 因为它对均值的大小起权衡轻重的作因为它对均值的大小起权衡轻重的作 用,故又称权数。用,故又称权数。出现次数多的标志值出现次数多的标志值对平均数的影响大对平均数的影响大脊翠热蜗翼磋沿呢部疵获惨鳞腺浓绘辣郊撩局宋湃氮寂以枯爪克纷稽砂针数据分布特征的统计描述数据分布特征的统计描述32(2)权数的表现及应用)权数的表现及应用 绝对数权数绝对数权数 f 相对数权数相对数权数 第一

21、、权数表现:有两种形式:第一、权数表现:有两种形式:拍具憾点钟隧驾靠计威塑土象大衬昭盆予蛙弟泪怂恐翟符识龙初散夷春蓉数据分布特征的统计描述数据分布特征的统计描述33绝对权数:绝对权数:相对权数:相对权数:计算公式:计算公式:例题见教科书例题见教科书51页表页表33劝徽诬轻华渠旨值椭爽蹄池漱存午沫博掖回显葵挚惊绽鞭烧窍阴翅予酿砸数据分布特征的统计描述数据分布特征的统计描述34第二、权数的实质第二、权数的实质 是相对数权数。是相对数权数。 即权数对均值的影响作用,取决于相对权数即权数对均值的影响作用,取决于相对权数而非绝对权数。而非绝对权数。举例:举例:翘镇凌辕檄丸舞拐标双贷浦跟蒂耍币比汪定雍臀鲜

22、潍稻铝啼鹅累月上删络数据分布特征的统计描述数据分布特征的统计描述35计算平均奖金额计算平均奖金额等级等级奖金额奖金额(X X)人数(人数(F F1 1)人数(人数(F F2 2)一等一等1201208 81212二等二等10010042426363三等三等909030304545合计合计8080120120虽然各组绝对人数变化了,但各组人数的比重未变虽然各组绝对人数变化了,但各组人数的比重未变比重比重%1037.552.5100车炭绷葵尤寇帆蝎许盗伎糠矮组疗汕埃居理猾昼彦离岭庞隧冬灵淹荐局畔数据分布特征的统计描述数据分布特征的统计描述364、平均数应用举例:、平均数应用举例: 统计中有三大综合

23、指标:统计中有三大综合指标: 总量指标、相对指标和平均指标总量指标、相对指标和平均指标反映现象总规模、总水平,用绝对数表示反映现象总规模、总水平,用绝对数表示如:如:2010年中国年中国GDP 39.8万亿元人民币万亿元人民币相对指标相对指标是两个有联系的指标值对比的比率,是两个有联系的指标值对比的比率,如:三次产业比重、企业劳动生产率、产出的如:三次产业比重、企业劳动生产率、产出的计划完成百分数计划完成百分数、经济发展速度和增长速度、经济发展速度和增长速度淆券位烃扭空棉训食忽填辊亲跳媚文咐丈坊案嗅划汪翰瑟拱慧嘻豌遣顷寞数据分布特征的统计描述数据分布特征的统计描述37例例1、10个企业资金利润

24、率资料:个企业资金利润率资料: 资金利资金利润率润率 企业企业数数n 企业资金企业资金(万元)(万元)f 0-1010-2020-30532100500800合计合计101400求:求:10个企业的平均利润率个企业的平均利润率弧桨膛迸叮长弄夺佳慌地迟掐颂甜圣翻忆偏酶柴坠佩垒捧咬毛贬斟倾讨丝数据分布特征的统计描述数据分布特征的统计描述资金利资金利润率润率 企业企业数数n 企业资金企业资金(万元)(万元)fx xf利润额利润额 0-1010-2020-3053210050080051525575200合计合计101400-280“企业的平均利润率企业的平均利润率” 等同于等同于 “企业的总利润率企

25、业的总利润率” 企业的总利润率企业的总利润率 = 利润总额利润总额 / 资金总额资金总额兢仪顾荡堡胶庆诧皮侦重僻幢巷拈葡愤韵尧扩无碧乡超疏颠审鹃秒姬始撕数据分布特征的统计描述数据分布特征的统计描述39利润总额利润总额利润总额利润总额资金总额资金总额资金总额资金总额蔑厨又终娠本譬涣赤锋婶呀籍皑塘牢骤柞拾俯胸膘绚概您座代韶诅如企鸭数据分布特征的统计描述数据分布特征的统计描述40计划完成计划完成百分数百分数 企业企业数数 n 计划产值计划产值fx xf实际值实际值105110110120120130307050570020500225001.0751.151.256127.52357528125合计

26、合计15048700 -57827.5 计算计算150个企业的平均计划完成百分数个企业的平均计划完成百分数例例2、150个企业的资料:个企业的资料:涝倦蠢索漏栅窑潞折畦旧尽磁竹盘砒玩考巳槐骇牛百帖铰续缉拯仿输匡魁数据分布特征的统计描述数据分布特征的统计描述计划完成计划完成百分数百分数 企业企业数数 n 计划产值计划产值fx xf实际值实际值105110110120120130307050570020500225001.0751.151.256127.52357528125合计合计15048700 -57827.5 “150个企业的平均计划完成百分数个企业的平均计划完成百分数” 就是就是“150

27、个企个企业总的计划完成百分数业总的计划完成百分数”。企业总计划完成百分数企业总计划完成百分数 = 总实际数总实际数 / 总计划数总计划数啤滑莎茄脚没永紫漱谋少赊星纯驼仙嗽垄假疾谓泅寝仇井才即禁拒级惫坞数据分布特征的统计描述数据分布特征的统计描述42实际产值实际产值实际产值实际产值计划产值计划产值计划产值计划产值千橇饮抚丝览颁伯焦仲那次感蔬花敌烹家插着正烃晓辙票雨及槐肢得荚腺数据分布特征的统计描述数据分布特征的统计描述435、算术平均数的数学性质、算术平均数的数学性质v见见52页页扶卸坑迟辉恃态说啤倡访该卯曲勤磁藩畜枫氦臣描藐骂厉薪箩理淌透汁班数据分布特征的统计描述数据分布特征的统计描述44(二

28、)调和平均数(二)调和平均数 1、含义:、含义:总体内各个变量值倒数的算术平均总体内各个变量值倒数的算术平均 数的倒数,又称倒数平均数。数的倒数,又称倒数平均数。如有三个变量值:如有三个变量值: 8、10、12,求调和平均数。步骤如下:,求调和平均数。步骤如下:粱假柬榜挺棒沂忆绥培须昭塔风住锄豁即埋呢扎破恃展洽拼强肄眷钥珊渔数据分布特征的统计描述数据分布特征的统计描述45、即为调和平均数即为调和平均数公式:公式:支钎缔侯国像褂冶摈符硫军者疫殖周差镭怎调午踪泞李真讳橱吉塑刺腺窑数据分布特征的统计描述数据分布特征的统计描述46(1)简单式:)简单式:(2)加权式:)加权式:各变量值出现次数相等各变

29、量值出现次数相等各变量值出现次数不等各变量值出现次数不等 设设设设 m m为次数为次数为次数为次数2、 调和平均数的计算调和平均数的计算篆锨垂寒细丰渝厉氦痰苑暖木蛹相蛋御善埂提铆诊腾耕覆歌愚寸芹与钧惊数据分布特征的统计描述数据分布特征的统计描述47举例举例: 某蔬菜单价早中晚分别为某蔬菜单价早中晚分别为0.5、0.4、 0.25(元(元/斤)斤) (1)早中晚各买)早中晚各买1元,求平均价格元,求平均价格 (2)早中晚各买)早中晚各买1斤,求平均价格斤,求平均价格 (3)早中晚各买)早中晚各买2元、元、3元、元、4元,求平均价格元,求平均价格 (4)早中晚各买)早中晚各买2斤、斤、3斤、斤、4

30、斤,求平均价格斤,求平均价格丹喧尝朔舰完笺刘带迟旅欢阳汹傣窖晤提泄也柠硫岳留服松予设呜闯抚等数据分布特征的统计描述数据分布特征的统计描述48(1)问:用调和平均。)问:用调和平均。先求早、中、晚购买的斤先求早、中、晚购买的斤数。早数。早 1/0.5=2(斤斤) 、中、中 1/0.4=2.5(斤斤)、晚、晚 1/0.25=4(斤斤) (2)问:用算术平均)问:用算术平均硕拔拌仇蝉承杖枷瞒连铬伞氟盏掂稚选封贱尤羽军尸欣慧图散鸽洽沪洋膛数据分布特征的统计描述数据分布特征的统计描述49(3)问:用加权调和平均)问:用加权调和平均(4)问:用加权算术平均)问:用加权算术平均者锁冠废薄改呸溅地昭锗享信唇暑

31、牵谍薄留尺粮很项壶硕辗粘鹿玉雕捏训数据分布特征的统计描述数据分布特征的统计描述503、调和平均数和算术平均数间的关系、调和平均数和算术平均数间的关系调和平均数是一种特殊的均值调和平均数是一种特殊的均值(1)两者存)两者存在着变形关系:在着变形关系:莱拐壤确没册蜡饼蛋缮勇锄碾簇胃抵坤肛氢搅柔娃店彦旬塘呵鸡醇鳖福酶数据分布特征的统计描述数据分布特征的统计描述51(2 2)当掌握的资料无法直接计算算术)当掌握的资料无法直接计算算术平均数时,可用调和法计算。平均数时,可用调和法计算。这时两者计算结果相同,只是根据已知这时两者计算结果相同,只是根据已知条件不同,需选择不同的公式。条件不同,需选择不同的公

32、式。敌号丈渴鸦写仁墟峙乌澎肌贪媒市地废嫩氖掀位狞谦赁录翌后炭泛碎摘卫数据分布特征的统计描述数据分布特征的统计描述52 已知对比分母,将分母定为已知对比分母,将分母定为f,求分子,求分子xf,然,然后用加权算术公式,即:后用加权算术公式,即: 已知对比分子,将分子定为已知对比分子,将分子定为m,求分母,求分母mx用加权调和公式,即用加权调和公式,即 :兜矮粘剐锹腋祭蕾田衙山娇尾练危罗陌忻蠢秃猜滚巴榜舀勃浩笋俞芥牺椭数据分布特征的统计描述数据分布特征的统计描述53某公司下属三个部门销售利润资料某公司下属三个部门销售利润资料部门部门销售利润销售利润率()率()x x利润额利润额(万元)(万元)m m

33、销售额销售额m mx xA A121212012010001000B B101020020020002000C C7 710510515001500合计合计- -42542545004500求三个部门的平均利润率。求三个部门的平均利润率。哟铜磨门凑蓟橙冀蹲库致揩蔓氯座摩绒办汪巾沁走城贤茎瞥去怯熊手迁揩数据分布特征的统计描述数据分布特征的统计描述54思考:思考:如果已知销售利润率和销售额资料,如果已知销售利润率和销售额资料,该如何计算?该如何计算?哺嗜佬苹怪唇踞唉服冰谰林餐转歌剐后娠吐豺眉栅占董融孔彼随些绝潘餐数据分布特征的统计描述数据分布特征的统计描述55部门部门销售利润率销售利润率()()x

34、 x销售额(万销售额(万元)元)利润额利润额A A121210001000B B101020002000C C7 715001500合计合计- -45004500劫蔽辈碱员颅厩砷拣泌哭马扶鞭爱饯竿死横橙徽蜀滓科仑舌炙斥档画哆嘘数据分布特征的统计描述数据分布特征的统计描述56计算:计算:计算:计算:2020个商店平均销售计划完成程度及个商店平均销售计划完成程度及个商店平均销售计划完成程度及个商店平均销售计划完成程度及总的流通费用率。总的流通费用率。总的流通费用率。总的流通费用率。讶贼探嫩唯碱字熊袍非倪抽俊伐葵很腕爸晌睡场泽岛逃窟扔虑罕疆你此闺数据分布特征的统计描述数据分布特征的统计描述57计划完

35、计划完成百分成百分数数%计划百计划百分数的分数的组中值组中值%(x1)实际销实际销售额售额 (万元万元) (M或或f )计划销计划销售额售额(M/x)流通费流通费用率用率%(x2)流通费流通费用额用额(万元)(万元)(xf)809090100100110110120859510511545.968.434.494.354.072.032.882.014.813.212.011.06.799.034.1310.37合计合计-243.024.08-30.32嗅倡歉驻榨夹痛瑟嫁输惧犊瑞剐铸避苇菜坟之酥侨宠镰那劳弦哩盆面拔产数据分布特征的统计描述数据分布特征的统计描述58(1)20个商店的平均销售计划

36、完成程度个商店的平均销售计划完成程度(2)20个商店总的流通费用率个商店总的流通费用率搬唾挡糟诵彪垫桂廓滓钦逊听匀车挡幂榔帮捉免匣密贞呸仅醚舅严盈盒韧数据分布特征的统计描述数据分布特征的统计描述59(三)几何平均数(三)几何平均数1.定义:定义: n 个变量值乘积的个变量值乘积的 n 次方根次方根筐幌斤炎脆掺显围碑邮拥她胡蒲疹猖辰攒绞菱戌项镣始惋船劝漂督概痪杉数据分布特征的统计描述数据分布特征的统计描述603、计算方法、计算方法简单法:简单法:加权法:加权法:权形森藤顺犬硫烹还溪贴亏顽盲甫姥聪该什寿葱燎派袒紊尝旁青唆汪梳寇数据分布特征的统计描述数据分布特征的统计描述61 例例1:2004-20

37、08年我国某工业品产量环比发年我国某工业品产量环比发展速度分别为展速度分别为107.6%、102.5%、100.6%、102.7%、102.2%。计算平均每年的发展速度。计算平均每年的发展速度汐冰时氮缺壮凝窘辈浑制滓杂岁凌丈措仁筷蓉弧懒泼躲攀姨控逝次艾寐曙数据分布特征的统计描述数据分布特征的统计描述62按计算器:按计算器:按计算器:按计算器:1.076,1.076, ,1.025, ,1.025, ,1.006, ,1.006, ,1.027, ,1.027, ,1.022,=,2ndF,1.022,=,2ndF, 5,=, 5,=出现结果:出现结果:出现结果:出现结果:1.03091.030

38、9即即即即103.1%103.1%怪充绝愿柒名踪霸奎湖晕币刀减涡躇阶待菏劫内鱼炽牢猛鸵尺真胖黔龋忙数据分布特征的统计描述数据分布特征的统计描述63 例例2:某厂有四个流水连续作业车间,某月:某厂有四个流水连续作业车间,某月的合格率分别为:的合格率分别为:0.95,0.92,0.90,0.80,求四个车间的平均合格率。求四个车间的平均合格率。窃绕蘑圾绒录强廊酗阑沃厌赡菱业淄达丛尝痔讽允份兜蛋奸却迹跳苇秦睬数据分布特征的统计描述数据分布特征的统计描述64例例3:某地区:某地区25年的年经济发展速度分别是:年的年经济发展速度分别是: 1年年103%,4年年105%,8年年108%, 10年年 110

39、%,2年年115%, 求该地区经济的平均年发展速度。求该地区经济的平均年发展速度。庶风阁诫淫躇势谩傅裴缘吁浓询猴迂拖系虑昂蜒脏疵窘羚月蹦氖郴腑北牛数据分布特征的统计描述数据分布特征的统计描述651.03,1.03, ,(,1.05,y,(,1.05,yx,4,), ,(,1.08,y,(,1.08,yx,8,), ,(,1.1,y,(,1.1,yx,10,), ,(,1.15,y,(,1.15,yx,2,), =,2ndF,=,2ndF, 25,=, 25,=出现结果:出现结果:出现结果:出现结果:1.0861.086即即即即108.6%108.6%残繁然澎负遗即习淘桃杂泼拙幢夫罐罪融侗税帆甸

40、努刁忙牢隆囱诛坊睹攘数据分布特征的统计描述数据分布特征的统计描述664、使用几何平均法注意问题使用几何平均法注意问题第一、变量值要是相对数,且不能为第一、变量值要是相对数,且不能为负值或零负值或零第二、这些相对数的连乘积要等于总速度或第二、这些相对数的连乘积要等于总速度或总比率总比率几何平均法适用于对比率数据(相对数)的几何平均法适用于对比率数据(相对数)的平均,平均, 主要用于计算主要用于计算平均比率和平均速度平均比率和平均速度背咳潜籽以检篱洋贩谁妈伏为世着邦秒涂啼痪搀肾私幢准橱送雍叭晌霓潘数据分布特征的统计描述数据分布特征的统计描述67几何平均数是一种特殊的均值:几何平均数是一种特殊的均值

41、:可写成:可写成:可写成:可写成:菩稼毙锻彰匙祷煌滋结绩担游冀岔衅奖静淄滴囤志烤靛当茫捡堤净淘否拉数据分布特征的统计描述数据分布特征的统计描述68(四)众数(四)众数 1、定义:、定义: 一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2、计算:分、计算:分两种情况:两种情况: 品质数列和单项式数列品质数列和单项式数列组距式数列组距式数列凄胡垣挛今配错勺截鄂奸惩蝉袖腺冀革武渤孝獭颂既驹虱肛搜徐顷樱昏随数据分布特征的统计描述数据分布特征的统计描述69不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分百分比比(%) 可口可乐可口可乐 旭日升冰茶旭日升冰茶

42、 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100MMo o可口可乐可口可乐可口可乐可口可乐(1)品质数列计算众数)品质数列计算众数定性变量定性变量定性变量定性变量品暮蝉暖席肪驰盾藕厕裤柔苞岛浑往贱渊渊苗圈杏夹厅晒芒踏金阮韩细隐数据分布特征的统计描述数据分布特征的统计描述70MMo o不满意不满意不满意不满意回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计

43、合计300100.0甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布栏艾抬吞薪怖渊狙汞嗓间购颧漏崖桌疙川觅赫泞钙住沼洛盂软蒜版能容墒数据分布特征的统计描述数据分布特征的统计描述71价格(元)价格(元)销量(公斤)销量(公斤)2.00 2.40 3.00 4.00206014080众数众数是数列中出现次数最多的变量值是数列中出现次数最多的变量值众数众数(2)单项数列计算众数)单项数列计算众数定性变量定性变量定性变量定性变量笺旦旨避莹募娘毁戴嫂寐团等茶耻煮块郴玉漂谈鸵计钒脉尼霸贮宙衷负鸥数据分布特征的统计描述数据分布特征的统计描述72(3)组距式数列计算众数)组距式数列计算众数

44、先确定众数所在的组,然后用公式计算先确定众数所在的组,然后用公式计算分:上限公式和下限公式分:上限公式和下限公式返回本节首页定性变量定性变量定性变量定性变量弟枣巍凸轿康鹊冲辊疾垂茵蝎辑寓帐滔类檬朗犯揭舵炬识伎致雕桅辙素究数据分布特征的统计描述数据分布特征的统计描述73分数分数x 人数人数 f60以下以下 26070 77080 15 8090 10 90以上以上 6 合计合计 40 fm-1fm+1fmL :众数所在组的下限:众数所在组的下限U :众数所在组的上限:众数所在组的上限批默星闺抿膀绽甩妥绵腾旅居陨溺巫印壮狗辗紫血胶杖掘垣脆渗庐魏渺绘数据分布特征的统计描述数据分布特征的统计描述74上

45、限公式:上限公式:下限公式:下限公式:慈主疚蜒啥吮夏癌认曹艳麓骏桐逻筒供昨虎蝉迸卖咨丢脆省洼铀骤沤湾饼数据分布特征的统计描述数据分布特征的统计描述75眯这开县涟撬纷给榆朱足临酚忠描稻疚课乃挞咬浦彩耗刨阔畏租怖娘岛脆数据分布特征的统计描述数据分布特征的统计描述76 3、众数说明、众数说明(1)不受极端值的影响)不受极端值的影响(2)既适用于品质数列,也适用于变量数列)既适用于品质数列,也适用于变量数列(3)一组数据可能没有众数或有几个众数)一组数据可能没有众数或有几个众数返回本节首页盎淬锋朗扎狰夫喷贺罪兢奴霓莱煮淤瞩崎街缝符讽鸡瞥乡普坏箭威敢酱盲数据分布特征的统计描述数据分布特征的统计描述77无

46、众数无众数原始数据原始数据: 10 5 9 12 6 8多于一个众数多于一个众数多于一个众数多于一个众数原始数据原始数据原始数据原始数据: : 25 25 28 2828 28 36 36 42 4242 42一个众数一个众数一个众数一个众数原始数据原始数据原始数据原始数据: 6 : 6 5 5 9 8 9 8 5 55 5怖只奸楞啦伺焰惺车来伎肩侵崩巨慢掳忘椿英今丢砒二风莲屑嚏按绥通芥数据分布特征的统计描述数据分布特征的统计描述78(五)中位数(五)中位数 1、中位数的含义:、中位数的含义: 将各单位标志值按大小排列,居于中间位将各单位标志值按大小排列,居于中间位 置的那个标志值。置的那个标

47、志值。返回本节首页MMe e50%50%题赃邦巾脚姨洞篙昆囤该凡笼瞩乾桓那匡拔琢累吻拦琼抓结真穆腻耿沂傅数据分布特征的统计描述数据分布特征的统计描述792、中位数的计算、中位数的计算分两种情况:分两种情况:(1)未分组原始资料)未分组原始资料(2)组距式数据)组距式数据返回本节首页篡骤心渗彪纲情尾慨杂腺奸婴蓟糊名涝缄碱鬃狼僧坯午芝儒裴列急译擦失数据分布特征的统计描述数据分布特征的统计描述80(1)未分组原始资料)未分组原始资料 先将数据从小到大排序先将数据从小到大排序 项数为奇数时,中间位置项数为奇数时,中间位置上的标志值即为中位数上的标志值即为中位数项数为偶数时,中间位置项数为偶数时,中间位

48、置上上2个标志值的平均为中位数个标志值的平均为中位数环乏慢易督茨直果恢降捐零措颅殖僻椭鸭外稽钉品匹飘睁耐八逃形者逆甥数据分布特征的统计描述数据分布特征的统计描述81 有有9个数值:个数值: 2、3、5、6、9、10、11、13、14 中位数为第中位数为第5个,即个,即9 有有10个数值个数值: 2、3、5、6、9、10、11、13、14、15 中位数为第中位数为第5、第、第6个数据的平均值,即个数据的平均值,即9.5庭膳靳棺幻笨凡掸估弗栓布揖梅污律磊靡腊旋束忿琅桔津辣抛恨卓蘑漫修数据分布特征的统计描述数据分布特征的统计描述82分数分数人数人数向上累计向上累计向下累计向下累计60以下以下6070

49、7080809090以上以上271510629243440403831166合计合计 40-(2)组距数列)组距数列fmS SMe+1Me+1S SMe-1Me-1在宰粟狮拇胯悠游最吁富语金脓伸培从碗苗斟咐士感呜楼必橱论台桂池龄数据分布特征的统计描述数据分布特征的统计描述83B、确定中位数所在的组:确定中位数所在的组: 本例为:本例为: 40/2=20,即中位数应在将分数从,即中位数应在将分数从 高到低排列后的第高到低排列后的第20个学生的分数上个学生的分数上A、先将次数进行累计先将次数进行累计 C、利用公式计算中位数利用公式计算中位数 ( 公式公式 见见56页页 )算事狮岸瞻蓑戎瑞躇琴矽瞥超

50、称抹售赠尚亚张表束棺隘缕苇纂真堤河摆恬数据分布特征的统计描述数据分布特征的统计描述84公式:公式:下限公式下限公式=上限公式上限公式=魔粥袁总按汽惠中戴宅佳骚遵九灯可畴蜡壤估揩搓积挛描括守掐刘耍挖内数据分布特征的统计描述数据分布特征的统计描述85带入资料得:带入资料得:v v (分)v v (分)协蚁鬼雨粟坛筐稀留幽准涡谷蹄蚀顷切之贷亨虞喀恿融催邱坍裳久喉幢滴数据分布特征的统计描述数据分布特征的统计描述86附:四分位数附:四分位数四分位数:四分位数:是指位于全部数据是指位于全部数据 位置和位置和 位位置上的数据,分别称为下四分位数和上四分位置上的数据,分别称为下四分位数和上四分位数。也称为第一

51、个四分位数数。也称为第一个四分位数 和和 第三个四分位数。第三个四分位数。即:排序后处于即:排序后处于25%和和75%位置上的值。位置上的值。实际上,中位数就是第二个四分位数实际上,中位数就是第二个四分位数QQ1 1QQMeMeQQ3 325%25%25%25%傍若虞游傻牧凿若歇驱慑菜邮翔趟柒啮冰弯屯烯剐杉容兔住钱壹野笆椰媳数据分布特征的统计描述数据分布特征的统计描述87四分位的位置:四分位的位置:伸癣酸丢粳赣弥胸循袄琳疵茬匙袒冗鸡绎仑枝铬伤站辖饺蠕此通怂著戎咯数据分布特征的统计描述数据分布特征的统计描述88箱线图:可以观察数据分布的特征箱线图:可以观察数据分布的特征4 46 68 81010

52、1212QQ3 33QQ1 11X X最大值最大值最大值X X最小值最小值最小值Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图Me挠故厅捣尔丛锗伶珠够唆岂介丁桑凛脑掌沉敲幻怒讲丁钡纂姜累茁带鞋犬数据分布特征的统计描述数据分布特征的统计描述89某某某某电电电电脑脑脑脑公公公公司司司司20052005年年年年前前前前四四四四个个个个月月月月120120天天天天的的的的销销销销售售售售量量量量数数数数据据据据,试利用箱线图对数据分布特征进行分析。试利用箱线图对数据分布特征进行分析。试利用箱线图对数据分布特征进行分析。试利用箱线图对数据分布特征进行

53、分析。奈蹦亭授否准饺女劝灼糙磺稻棱罐票吻蕊甸湖泼饰椽赫尹嫁挡出奋谷赛疽数据分布特征的统计描述数据分布特征的统计描述90未分组数据未分组数据单批数据箱线图单批数据箱线图最小值最小值最小值最小值最小值最小值141141141最大值最大值最大值最大值最大值最大值237237237中位数中位数中位数中位数中位数中位数182182182下四分位数下四分位数下四分位数下四分位数下四分位数下四分位数170.25170.25170.25上四分位数上四分位数上四分位数上四分位数上四分位数上四分位数197197197140 150 160 170 180 190 200 210 220 230 240140 15

54、0 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240某电脑公司销售量数据的某电脑公司销售量数据的Median/Quart./Rang箱线图箱线图豁迄嗅梆育裔猪护瘪压仅敝笺恃棚孔赚方爬桶滞委狡漳酱胯但放淆全毕鸡数据分布特征的统计描述数据分布特征的统计描述91某电脑公司销量分组表某电脑公司销量分组表群孙绳勉脆或扼棍魏犊论卖针闹誊低夺钮太瘟锑伤芯辊外鹃件三许语馒姿数据分布特征的统计描述数据分布特征的统计描述未分组数据未分组数据多批数据箱线图多批数据箱线图从从从从某某某某大大大大学学学学经经经经

55、济济济济管管管管理理理理专专专专业业业业二二二二年年年年级级级级学学学学生生生生中中中中随随随随机机机机抽抽抽抽取取取取1111人人人人 , 对对对对 8 8门门门门主主主主要要要要课课课课程程程程的的的的考考考考试试试试成成成成绩绩绩绩进进进进行行行行调调调调查查查查,所所所所得得得得结结结结果果果果如如如如表表表表。试试试试通通通通过过过过多多多多批批批批箱箱箱箱线线线线图图图图分分分分析析析析各各各各科科科科考考考考试试试试成成成成绩绩绩绩的的的的分分分分布特征。布特征。布特征。布特征。11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号123456789

56、1011英语英语经济数学经济数学西方经济西方经济市场营销市场营销财务管理财务管理基础会计基础会计统计学统计学计算机应计算机应用用76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177祈烫匠篙念汝住槽欺癣宦栋痴辊个雨吮轧汝朴勉瓜款绊秃获袋烦试块志邻数据分布特征的统计描述数据分布特征的统计描述93未分组数

57、据未分组数据未分组数据未分组数据多批数据箱线图多批数据箱线图多批数据箱线图多批数据箱线图8门课程考试成绩的门课程考试成绩的Median/Quart./Range箱线图箱线图诊踌川遍被淖崔细徘耳散算走渐侩潜卉朴痛踢寡许纶场维冈锻左杜衅忘扛数据分布特征的统计描述数据分布特征的统计描述941111名学生名学生名学生名学生8 8门课程考试成绩的门课程考试成绩的门课程考试成绩的门课程考试成绩的Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图min-max25%-75%median value455565758595105学生1学生2学生3学生4学生5学

58、生6学生7学生8学生9学生10学生11未分组数据未分组数据未分组数据未分组数据多批数据箱线图多批数据箱线图多批数据箱线图多批数据箱线图塘晃锤牧滔太格好煽缓疲办受柯烤院翟传假孕润艳悟探邓吻霜肃枷型影峙数据分布特征的统计描述数据分布特征的统计描述95鞘综彤玻岭殊访彪鸳给菩牵疑项紊墒蕴忱鹰讫挎罪笼铭陇旗栅学漾暇痉骸数据分布特征的统计描述数据分布特征的统计描述96三、各种平均数之间的关系三、各种平均数之间的关系两者都属于抽象化的代表值,但有区别,两者都属于抽象化的代表值,但有区别,前者容易受极端值的影响,后者不会。前者容易受极端值的影响,后者不会。1、数值平均数和位置平均数的比较:、数值平均数和位置平

59、均数的比较:兜箱汇则姆彭你囚疹炬翌聂伞螟悍券谬投戈淑瘁汇芒飘觉坑已道条臣庚群数据分布特征的统计描述数据分布特征的统计描述97某公司中层干部某公司中层干部2010年的收入,求平均收入年的收入,求平均收入 职位职位 收入收入(元元)财务部经理财务部经理 10 000市场部经理市场部经理 450000人事部经理人事部经理 90 000研发部经理研发部经理 100 000生产部经理生产部经理 10 000 实际中可利用实际中可利用切尾平均法切尾平均法:去掉极端值,:去掉极端值, 将剩余的数据求平均。将剩余的数据求平均。饶接桌睡囤缺澎口铝坡药畸雅木棠女尝超刷盯沟靖扎婿奶羊栏酪衬素衙码数据分布特征的统计描

60、述数据分布特征的统计描述98收入收入(元元) 人数人数1000 53000 255000 5610000 1050000 330000000 1计算其平均收入时,计算其平均收入时,位置平均和数值平均哪一种方法更合适?位置平均和数值平均哪一种方法更合适?惩逞毯帐吩递踏掺琴蟹胚田戎苯贾恶沃渡壹阜排蓑磋啸茧胺频呵喂援管篡数据分布特征的统计描述数据分布特征的统计描述992、三种平均数之间的关系、三种平均数之间的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值

61、均值均值均值均值均值 = = = 中位数中位数中位数中位数中位数中位数 = = 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值有极小值,拉动均有极小值,拉动均有极小值,拉动均有极小值,拉动均值向极小值靠近值向极小值靠近值向极小值靠近值向极小值靠近有极大值,拉动均有极大值,拉动均有极大值,拉动均有极大值,拉动均值向极大值靠近值向极大值靠近值向极大值靠近值向极大值靠近亢盈臆奔恐摊嘴甜锡紫迄加艰素咖遵害灭肄丰武妖莫刘痞竟韶彩至血质钥数据分布特征的统计描述数据分布特征的统计描述100众数、中

62、位数、平均数的众数、中位数、平均数的特点和应用特点和应用 众数:众数:不受极端值影响不受极端值影响 具有不惟一性具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用 中位数:中位数:不受极端值影响不受极端值影响 数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用 平均数:平均数:易受极端值影响易受极端值影响 数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用旗峪掘肢霞物尘暗疥本随亨抓右楔涂醒冷赶裴彻侣逊睫节媳控娠拼纸兹汇数据分布特征的统计描述数据分布特征的统计描述101离散程度离散程度是测定数据分布特征的另一重要指标是测定数据分布特征的另一

63、重要指标 第二节第二节 离散程度测度离散程度测度统计是使用统计是使用变异指标变异指标来测度分布的离散程度来测度分布的离散程度用于测定一组数据中各数值之间的差异程度,用于测定一组数据中各数值之间的差异程度,即:在一个分布中各数值与均值的离差程度即:在一个分布中各数值与均值的离差程度剖弊咏纂孤股乎焰痰复颊沾幼叮欧溯骤掀歌微声栅境妻敬情供俐捻叹蝶箕数据分布特征的统计描述数据分布特征的统计描述102三个集中趋势相同但离中趋势不同的总体三个集中趋势相同但离中趋势不同的总体离散程度指标可从另一个角度说明集中趋离散程度指标可从另一个角度说明集中趋离散程度指标可从另一个角度说明集中趋离散程度指标可从另一个角度

64、说明集中趋势测度值的代表程度。势测度值的代表程度。势测度值的代表程度。势测度值的代表程度。守卵呈您虏敲若厌靶世慎荔眷悠彩肄竖鹃庭器溯鸡膜聚症惠贱芥坟都片英数据分布特征的统计描述数据分布特征的统计描述103一、变异指标的意义和作用一、变异指标的意义和作用二、变异指标的种类二、变异指标的种类(一)全距(一)全距(极差)(极差)(二)平均差(二)平均差(三)标准差(三)标准差(四)离散系数(四)离散系数返回本章首页本节内容本节内容槛踢魔贮真伞攘窘梁沥抖锯熔黔雍菊图唾姐初部讨祭碉柜一笋药啤蝉庙尺数据分布特征的统计描述数据分布特征的统计描述104一、变异指标的意义和作用一、变异指标的意义和作用变异指标的

65、含义变异指标的含义 又称标志变动度、离散程度或离中程度。又称标志变动度、离散程度或离中程度。 是描述总体内各数据之间差别大小程度的指标是描述总体内各数据之间差别大小程度的指标返回本节首页甲:甲:20,40,60,70,80,100,120乙:乙:67,68,69,70,71,72,73如两组数据,请直观判断哪一组的离散程度大如两组数据,请直观判断哪一组的离散程度大咯壕辱揍队诸年亢苗裕括音赁笨沙栏工返稠雇迎疮婴脐入厘驭航该愈娃滁数据分布特征的统计描述数据分布特征的统计描述10570707070返回本节首页翠俏缺粪纳岛咒芭掣恬厢奖误般栈投伯北哩飞卿竿轧较鞠椅斩渡救体肺味数据分布特征的统计描述数据分

66、布特征的统计描述106 标志变动度的作用标志变动度的作用2、能衡量现象变动的均衡性或稳定性、能衡量现象变动的均衡性或稳定性3、能反映各变量值分布的离散程度(离中趋势)、能反映各变量值分布的离散程度(离中趋势) 1、是评价平均数代表性的依据、是评价平均数代表性的依据甲企业甲企业 25 25 25 25 均匀、协调均匀、协调乙企业乙企业 10 15 20 55丙企业丙企业 5 10 15 70 不均匀。不均匀。企业产值各季度计划完成情况企业产值各季度计划完成情况企业产值各季度计划完成情况企业产值各季度计划完成情况索割祟症不酣抿宏判缴凉活众孝舅邯铸晓我杏硼擂蜘中而粪悼惺善学兵邵数据分布特征的统计描述

67、数据分布特征的统计描述107平均数的代表性和标志变动度的关系平均数的代表性和标志变动度的关系标志变动度大,平均数的代表性就小;标志变动度大,平均数的代表性就小;反之反之 ,平均数的代表性就大平均数的代表性就大例如:三组学生的年龄例如:三组学生的年龄(岁)(岁) 20 20 20 20 20 -差距最小,差距最小,20岁的代表性最好岁的代表性最好 18 19 20 21 22 15 16 20 24 25-差距最大,差距最大,20 岁的代表性最差岁的代表性最差悲聪澈阿隧幼衍殷始沂鹤州妨灸淑内戈伸咨留员拙炼渠劈梨渤舅吠兼攒进数据分布特征的统计描述数据分布特征的统计描述108二、标志变异指标的种类二

68、、标志变异指标的种类全距全距 1、含义:总体各单位标志的最大值和最小值、含义:总体各单位标志的最大值和最小值之差。之差。 R = Xmax-Xmin己睛哎映尹农擒跟温雁介拧帘刃碘只靴鞍乙滋驳药屎艺好滓宪怯兔深僚脖数据分布特征的统计描述数据分布特征的统计描述1092、全距的优点和缺点、全距的优点和缺点 优点:计算简单、涵义直观优点:计算简单、涵义直观缺点:易受极端数值的影响缺点:易受极端数值的影响 不能反映中间标志值的变动不能反映中间标志值的变动胺涸趣扯韭森运蒋渐归倘贸挛廖影编垛成熬辗虹飞疤珊蔽呐痘伦艇超勤匠数据分布特征的统计描述数据分布特征的统计描述110附:四分位差(见附:四分位差(见 60

69、 页)页) 四分位差四分位差Qd = Q3 - Q1贱执觉耽逮柠恭服冶虑兽捏剐所鬼蔬俐处萌原轿话舷距莹喝而呸俩竹复霞数据分布特征的统计描述数据分布特征的统计描述111(二)平均差(二)平均差 1、含义、含义 是各变量值与其算术平均数离差绝对值是各变量值与其算术平均数离差绝对值 的算术平均数,即:的算术平均数,即:平均差能全面反映一组数据的离散状况平均差能全面反映一组数据的离散状况平均差能全面反映一组数据的离散状况平均差能全面反映一组数据的离散状况斤品汁纳嚎巢棵虫盯伯哦耐绿汕楼袁她轩宅嚏秋讹依沪椎瞬递潍建蜗莫值数据分布特征的统计描述数据分布特征的统计描述1122、平均差计算:、平均差计算:返回本

70、节首页简单式:简单式:加权式:加权式:窥闷暖肖痪沏赤森分蓝炬抓广闰镜刮淫刘殷娘擂宇偿边萝践随疫质娥迄栓数据分布特征的统计描述数据分布特征的统计描述11318181919202021212222-2-2-1-1 0 0 1 1 2 2 2 2 1 1 0 0 1 1 2 2x x合计合计 - - 6 6一组学生年龄:组学生年龄: 18 19 20 21 22求平均差。求平均差。钵旬瑰唤沧锈询植戍冷越鞋查郧踢晃猪微隔冷劲荧瞻许谬囤披堕轰蔡序桥数据分布特征的统计描述数据分布特征的统计描述114某厂某厂某厂某厂200200个工人产量资料(单位:公斤)个工人产量资料(单位:公斤)个工人产量资料(单位:公

71、斤)个工人产量资料(单位:公斤)日产量日产量日产量日产量3030以下以下以下以下30403040405040505050以上以上以上以上合计合计合计合计求求求求A.DA.D工人数工人数工人数工人数 10 10 70 70 90 90 30 30 200 200豢踏历诅拟爵棱扶肢斟绵帧升臀喧晕列汹陵酪酌筹然咀虐拟振盂句咳感种数据分布特征的统计描述数据分布特征的统计描述115X X2525353545455555合计合计合计合计-17-17 -7 -7 3 3 13 13 - - f f10107070909030302002001717 7 7 3 3 13 13 - - 170 170 490

72、 490 270 270 390 390 1320 1320 250 250 2450 2450 4050 4050 1650 1650 8400 8400象脉又掳饲瞳黔柯劝辙恋谱炔哄傀枷姥插兴他塘耙搓倍激膝瓶嫡剪烩兼吴数据分布特征的统计描述数据分布特征的统计描述116结论:结论:结论:结论:该厂工人平均日产量为该厂工人平均日产量为该厂工人平均日产量为该厂工人平均日产量为4242公斤,但各工人公斤,但各工人公斤,但各工人公斤,但各工人生产水平有差异,其差异平均为生产水平有差异,其差异平均为生产水平有差异,其差异平均为生产水平有差异,其差异平均为6.66.6公斤。公斤。公斤。公斤。掣抬赤疟慢蜘袱

73、嘛担缆泛诈肯砾二甥蔷馏滁遁蜜谱兢炯了萍角妙稼首贺拔数据分布特征的统计描述数据分布特征的统计描述1173、平均差的优缺点、平均差的优缺点v优点:优点:和全距相比,弥补了全距不足,能反和全距相比,弥补了全距不足,能反 映中间标志值的变动。映中间标志值的变动。v缺点:缺点:加绝对值号为计算带来了不便。加绝对值号为计算带来了不便。烬孽茸伪诣抑肆搪但拟谅砂匈铺贾旷醛号乃损棠磷气迭跃怜尘秉韭场奔壹数据分布特征的统计描述数据分布特征的统计描述118(三)标准差(均方差)(三)标准差(均方差)1、概念、概念 是各变量值与其算术平均数离差平方的算术是各变量值与其算术平均数离差平方的算术 平均数的平方根,又称均方

74、差。平均数的平方根,又称均方差。葵仲晨燕吝爪咋若伦掐炊薪埠卑踞星沫坟忠又麻倘键苯统攀腆动缔蓬监肩数据分布特征的统计描述数据分布特征的统计描述119 2、计算:、计算: 已知资料不同采用不同方法:已知资料不同采用不同方法:加权式:加权式:简单式:简单式:沿齐尧赠烃牧钠专镐腊赌僳芝戮爪弘曼清栏铃回湾绢舒侍亲涵翘御秧瀑州数据分布特征的统计描述数据分布特征的统计描述120标准差的平方即为方差标准差的平方即为方差湾右泻庶烩又生涵夸恃箩趴揩型儡夺泉佰宅云羡荚氦样算里账筏氛典脸戚数据分布特征的统计描述数据分布特征的统计描述121一组学生年龄一组学生年龄: 18 19 20 21 2218 -2 419 -1

75、 120 0 021 1 122 2 4 合计 - 10简单式举例简单式举例:挪沼蛰泛懈甜魁擦惑香缚桶渣聊撞仲策哀臣驻漠贬屠食渺琳筐链灵三割悔数据分布特征的统计描述数据分布特征的统计描述122某厂某厂某厂某厂200200个工个工个工个工人产量资料人产量资料人产量资料人产量资料: :(单位:公斤)(单位:公斤)(单位:公斤)(单位:公斤)日产量日产量日产量日产量3030以下以下以下以下30403040405040505050以上以上以上以上合计合计合计合计工人数工人数工人数工人数 10 10 70 70 90 90 30 30 200 200求标准差求标准差加权式举例:加权式举例:猾武帧湖予阀沪

76、磷级硬纹傅轨染盛厌胰寇气刮派瘦事耘饯庶斋氧哉冒岿襟数据分布特征的统计描述数据分布特征的统计描述123x x2525353545455555合计合计合计合计-17-17 -7 -7 3 3 13 13 - - f f1010707090903030200200289289 49 49 9 9169169 - - 2890 2890 3430 3430 810 810 5070 50701220012200 250 250 2450 2450 4050 4050 1650 1650 8400 8400昭阁熟澳捌衫陶乞佣周今顽俏獭璃簇措坍丹驮凹钟滦妨棕函走脓翁槐尝争数据分布特征的统计描述数据分布特征

77、的统计描述124标准差的计算可以用统计功能的计算器。标准差的计算可以用统计功能的计算器。标准差的计算可以用统计功能的计算器。标准差的计算可以用统计功能的计算器。结论:结论:结论:结论:各工人生产产量与平均产量相比,平均相各工人生产产量与平均产量相比,平均相各工人生产产量与平均产量相比,平均相各工人生产产量与平均产量相比,平均相差差差差7.87.8公斤。公斤。公斤。公斤。互锅胰甜萌去哟花寄邦嚣惹狠酷驼隆荆谷桓弥尤收澄氛返意蔼盗令蚀堡带数据分布特征的统计描述数据分布特征的统计描述125计算器的使用计算器的使用v开机:开机:ON,2ndF,ONv进入到统计功能后,用计算平均数的方进入到统计功能后,用

78、计算平均数的方法输数据法输数据v所有的数据输完后,按所有的数据输完后,按 2ndF 键,键,v再按再按xM 健,即为标准差健,即为标准差注意:注意:所有的数据输完后,如果直接所有的数据输完后,如果直接按按xM 健,即为平均数。健,即为平均数。众笋竹夕邮彰沪缄马靡碎追吁咨腔鸟煎韧峡壤漓姓逢材敏投抛贡壬爪伊沦数据分布特征的统计描述数据分布特征的统计描述126统计功能的计算器的使用统计功能的计算器的使用Mode2Shift scl = 25 Shift;10 DT 35 Shift;70 DT45 Shift;90 DT 55 Shift;30 DTShift 鸳闭琉篆赴呆质唱掩肘偶兼蒙衣接篓酱瑟托

79、辙再澳铝副倔垢块曹谓并棕相数据分布特征的统计描述数据分布特征的统计描述1273、标准差的优缺点、标准差的优缺点v优点优点:弥补了平均差和全距的不足。:弥补了平均差和全距的不足。v缺点缺点:利用标准差不能比较性质不同的数列:利用标准差不能比较性质不同的数列(即水平高低不等和计量单位不同)离散程度(即水平高低不等和计量单位不同)离散程度的大小。的大小。踏畦宵究私喧基划糕巴即酥耽缴瘤屎欣松鲜磕孽屁知卷兵匣瓤鞠烬汝声雨数据分布特征的统计描述数据分布特征的统计描述128 如:两组动物体重(单位:公斤)如:两组动物体重(单位:公斤)甲:甲: , , 乙:,乙:,试比较平均数的代表性。试比较平均数的代表性。

80、梢爹吼娟价智哨趣室姥磁释妆踌奄椭瓣潦智票脾筑均焰孔椽琶矢余支卧咒数据分布特征的统计描述数据分布特征的统计描述129悠框栋掣侄诈擂矗搅栏幂鞭闯苹廖溃哺代泣频抿稻磷讯霹腿点苟跨吸入邢数据分布特征的统计描述数据分布特征的统计描述130上述结论不一定正确上述结论不一定正确 因为:两组数据性质不同(水平高低不等或者因为:两组数据性质不同(水平高低不等或者计量单位不同),不能直接用标准差(或平均计量单位不同),不能直接用标准差(或平均差)比较平均数的代表性。须用相对离散程度差)比较平均数的代表性。须用相对离散程度指标指标 离散系数离散系数。绪北疟妹铣乌匿敢纠托牺勇棒旗肛肉草醚妻四侣声哲剔欧裙步皖边份青恫数

81、据分布特征的统计描述数据分布特征的统计描述131(四)离散系数(四)离散系数又称变异系数,是一组相对数形式的变异指标又称变异系数,是一组相对数形式的变异指标有全距系数、平均差系数、标准差系数等等有全距系数、平均差系数、标准差系数等等以标准差系数为例说明其计算。以标准差系数为例说明其计算。僻朋搞咒擅逼菌烂拂稽桌设脏敏楼详匪倔筹另呼肉豪篓喉箩坎傅岭衷供官数据分布特征的统计描述数据分布特征的统计描述132对于上例对于上例枪孵怯焕锰泰往闹钙蛇仟竣巩两音潜散待抵勉怒给芦孟磺筋伦蔽硬噬滁秘数据分布特征的统计描述数据分布特征的统计描述133总结:总结:比较两组数据的离散程度,即比较平均数的代比较两组数据的离

82、散程度,即比较平均数的代表性时:表性时: 如果如果两组数据的平均数相等且计量单位相同,两组数据的平均数相等且计量单位相同,可直接使用标准差比较;可直接使用标准差比较; 除此之外除此之外,均需使用标准差系数比较。,均需使用标准差系数比较。乙龄蜒淋憎邓铀怒竖八砰抬棕代鸳日授铲疏疏帚杂伦侨裳萎症勃心统牢田数据分布特征的统计描述数据分布特征的统计描述134 对称钟形分布特点:对称钟形分布特点:以均值为中心两边对称,以均值为中心两边对称,且中间数据出现的频数多而两尾出现的频数少。且中间数据出现的频数多而两尾出现的频数少。附:标准差的应用附:标准差的应用约有约有68%数据在均值加减数据在均值加减1个标准差

83、的范围之内个标准差的范围之内约有约有95%数据在均值加减数据在均值加减2个标准差的范围之内个标准差的范围之内约有约有99%数据在均值加减数据在均值加减3个标准差的范围之内个标准差的范围之内 1、对称钟形分布中的、对称钟形分布中的法则:法则:贾霞抠迈还妙巡惹贬计惶溶汽导碧较专贵辖饱斌裔哦痕慰朵独棚职腿卤翼数据分布特征的统计描述数据分布特征的统计描述1351、求是非标志(交替标志)的标准差求是非标志(交替标志)的标准差按品质标志分组且只有两种表现的标志按品质标志分组且只有两种表现的标志按品质标志分组且只有两种表现的标志按品质标志分组且只有两种表现的标志 按是否合格分按是否合格分 表表 现现 取值取

84、值 x 次数次数 n 合格合格 不合格不合格 是是非(不是)非(不是) 1 0 n1 n0轧谚宙慑晒饺泅晨绦陪慧嫁排在期球唉显肯盛耸馋赚功橙铁莎募什拐癣钉数据分布特征的统计描述数据分布特征的统计描述136 按是否合格分按是否合格分 数量数量 一等品一等品 二等品二等品 三等品三等品 等外品等外品 1000 10 5 3 合计合计 1018是否是是非标志?是否是是非标志?是否是是非标志?是否是是非标志? 按是否合格分按是否合格分 数量数量 合格品合格品 等外品等外品 1015 3 合计合计 1018送涝翟盏岩榜魄势恶暖攒桂盼哟韩粪护剐题砸孟传缔凸念傈芒单拐稗叔皱数据分布特征的统计描述数据分布特征

85、的统计描述137是非标志是非标志 变量变量 x 次数次数 是是 1 否否 0 求是非标志的平均数及方差求是非标志的平均数及方差 搅茄栋怂铡势默腆哇松舜饭圆函撕诣排侮车沉蝶蓖藉奴熏豫币杯毒三砸芜数据分布特征的统计描述数据分布特征的统计描述138钓椰绝幸怕绘朵员石贾绢汀拒设泉鳞改绞胰西寄泥菇稚渴界覆痪否五护允数据分布特征的统计描述数据分布特征的统计描述139赃澎客级颗湖讥违顺景吴愧尝骸桑苫搂巫伟谗氮撅战赚充豹淑舜貉堂附敲数据分布特征的统计描述数据分布特征的统计描述1403、标准化值(数据的标准得分)、标准化值(数据的标准得分)有两个班(有两个班(1、2班)的同一门课成绩,假定两个班)的同一门课成绩

86、,假定两个班水平类似,但由于两个任课老师的评分标准不班水平类似,但由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不同:同,使得两个班成绩的均值和标准差都不同:那么那么1班得班得90分的张英和分的张英和2班得班得82分的刘抒成分的刘抒成绩能否比较?绩能否比较?1班均值:班均值:78.53,标准差:,标准差:9.432班均值:班均值:70.19,标准差:,标准差:7.0不能直接比,但可以将它们进行标准化后再不能直接比,但可以将它们进行标准化后再对比。对比。吸鸥怀谎凳边街抽碍曾仔茹空几玲田宁雏午阴劣址挞意龙京哭康绢忆婴程数据分布特征的统计描述数据分布特征的统计描述141标准化的方法:

87、标准化的方法:刘抒标准得分:刘抒标准得分:张英的标准得分:张英的标准得分:刘抒的成绩优于张英。刘抒的成绩优于张英。统盗矛昂海乃敲茁粟形桔买锐蛆赢捌孪囊乙妇炸新而绳严焙肛氮突哇魔凯数据分布特征的统计描述数据分布特征的统计描述142标准化值实际上是将不同均值和标准差的标准化值实际上是将不同均值和标准差的总体都转化为均值为总体都转化为均值为0 ,标准差为,标准差为1 的总体。的总体。如:一组数据:如:一组数据:如:一组数据:如:一组数据:2525、2828、3131、3434、3737、4040、4343。试计算其标准化值。试计算其标准化值。试计算其标准化值。试计算其标准化值。首先计算出均值为首先计

88、算出均值为首先计算出均值为首先计算出均值为3434,标准差为,标准差为,标准差为,标准差为6 6蔼专彝冒肯鸥歇锑纲雌存厄酒县县象酸渐照得醉渝斌卉痞厉铸昂窄吞缩快数据分布特征的统计描述数据分布特征的统计描述143均值为均值为均值为均值为3434,标准差为,标准差为,标准差为,标准差为6 6均值为均值为均值为均值为0 0,标准差为,标准差为,标准差为,标准差为1 1标准化后的数据虽然均值和标准差发生了改变标准化后的数据虽然均值和标准差发生了改变标准化后的数据虽然均值和标准差发生了改变标准化后的数据虽然均值和标准差发生了改变但数据内部点的相对位置是没有变化的。但数据内部点的相对位置是没有变化的。但数

89、据内部点的相对位置是没有变化的。但数据内部点的相对位置是没有变化的。诉片无娃洛扛沂型串颁扼糟失挫堰拴猫迸奖遇艰露情牢几居愚身宛箩砒徐数据分布特征的统计描述数据分布特征的统计描述144科目科目 平均分平均分 标准差标准差 甲生甲生 乙生乙生语文语文 70 8 91 71数学数学 56 4 50 64 外语外语 42 5 40 51 政治政治 80 10 85 80物理物理 50 4 60 70 化学化学 40 12 75 45合计合计 - - 401 381原始成绩原始成绩原始成绩原始成绩例:已知某年高考全部考生分科总平均成绩和例:已知某年高考全部考生分科总平均成绩和标准差值,又知两名考生的实际

90、成绩如下:标准差值,又知两名考生的实际成绩如下:计算两考生的计算两考生的标准化值,并标准化值,并进行比较。进行比较。本伍郎跌邯狼玲歹绍米籍革恋晌统颗蛰坊稗掺瓷宏旱咖淘滨练悯带匠限法数据分布特征的统计描述数据分布特征的统计描述145科目科目平均分平均分 标准差标准差 原始成绩原始成绩原始成绩原始成绩 标准化成绩标准化成绩标准化成绩标准化成绩甲生甲生 乙生乙生甲生甲生 乙生乙生语文语文数学数学外语外语政治政治物理物理化学化学705642805040845104129150408560757164518070452.625-1.5 -0.4 0.5 2.5 2.917 0.125 2.01.80.0

91、5.00.417合计合计-4013816.6429.342汀玛酿誉瀑皿疑堑凶伪锻肘痘法俭词钩狈挖企圣斤污编精康樱怨碴鹊薯酸数据分布特征的统计描述数据分布特征的统计描述146 第一、甲考生偏科,数学和英语成绩均低于第一、甲考生偏科,数学和英语成绩均低于 平均成绩;乙考生比较全面,各科成绩都不平均成绩;乙考生比较全面,各科成绩都不 低于平均成绩。低于平均成绩。原因:原因:第二、乙考生在平均分偏低且水平差距较小第二、乙考生在平均分偏低且水平差距较小(标准差)的物理、数学和英语等科目中取得(标准差)的物理、数学和英语等科目中取得了较好的成绩,甲考生则在这些科目上表现不了较好的成绩,甲考生则在这些科目上

92、表现不好,影响了其标准成绩。好,影响了其标准成绩。模舌坷么棒墨但沼瓜檀敏拼弘符卓葛巨芥桌唬砂浮捻爹药职程汾律镭笛膏数据分布特征的统计描述数据分布特征的统计描述1473、总方差、组间方差和组内方差、总方差、组间方差和组内方差 在总体分组的情况下会产生上述三种方差在总体分组的情况下会产生上述三种方差 总总方差方差:各标志值与总平均数的离差:各标志值与总平均数的离差 组间方差组间方差:各组平均数与总平均数的离差:各组平均数与总平均数的离差 组内方差组内方差:各组组内的标志值与各组内平均数:各组组内的标志值与各组内平均数的离差的离差三者关系:三者关系:总方差总方差 = 组间方差组间方差 + 组内方差的

93、算术平均数组内方差的算术平均数蔬臀喜契糕抢嗽怂史歹茎熙落涸浙蝇找金齿多浓峙玉狰旺睁谰价燥唉浴中数据分布特征的统计描述数据分布特征的统计描述148其中其中其中其中 i i 代表总体内的组数代表总体内的组数代表总体内的组数代表总体内的组数刑刊葛竣彩炯趁百侠玄宵誊镐辗全陀刺迫瞄挑砌邀症庞腥鹤符婉顽障原葵数据分布特征的统计描述数据分布特征的统计描述149孙钝腺担洒莉电顺菲链寻蒋弯叔训浊尿含阴痛环趾篷烃叉枷滩匆谩莹掌非数据分布特征的统计描述数据分布特征的统计描述150举例:举例: 某公司某公司7个门市部营业额数据:个门市部营业额数据: 88、90、96、98、110、140、200 分成两组:分成两组:

94、 88、90、96、98 110、140、200 计算总方差、组内方差和组间方差计算总方差、组内方差和组间方差正竞迷交实再辅润纵施韵涂顽绅稗货痹秸乃囊浚盐貉记竣掣酮檬海腻孕骸数据分布特征的统计描述数据分布特征的统计描述151闸妻艇驹董梭史捕炼漫疲爹掺晃贞若晤鸥洲士捎驰累息只会焙流役锐误扰数据分布特征的统计描述数据分布特征的统计描述152组内方差的算内方差的算术平均数:平均数:撵达屉魂骗剑找派椿霓螟严扣靠表崎蔗促您急靶戴郧至潮臀钧载舟篓历丸数据分布特征的统计描述数据分布特征的统计描述153第三节第三节 分布形态的测定分布形态的测定(偏度和峰度)(偏度和峰度)集中趋势和离中趋势是数据分布的两个重要

95、集中趋势和离中趋势是数据分布的两个重要集中趋势和离中趋势是数据分布的两个重要集中趋势和离中趋势是数据分布的两个重要特征。特征。特征。特征。但即使但即使但即使但即使集中趋势和离中趋势均相同的集中趋势和离中趋势均相同的集中趋势和离中趋势均相同的集中趋势和离中趋势均相同的现象,其分布的形态也有可能不同。现象,其分布的形态也有可能不同。现象,其分布的形态也有可能不同。现象,其分布的形态也有可能不同。这表明:除了集中趋势和离中趋势外,分这表明:除了集中趋势和离中趋势外,分这表明:除了集中趋势和离中趋势外,分这表明:除了集中趋势和离中趋势外,分布还有其他方面的特征:分布的形态。布还有其他方面的特征:分布的

96、形态。布还有其他方面的特征:分布的形态。布还有其他方面的特征:分布的形态。谱垂柳园至升续泣胜跪波利闲婶枚违蚊搅笺员鹤模槛悉餐滥舔讼樊明护舒数据分布特征的统计描述数据分布特征的统计描述154反映数据分布形状的指标有两个:偏态和峰度反映数据分布形状的指标有两个:偏态和峰度反映数据分布形状的指标有两个:偏态和峰度反映数据分布形状的指标有两个:偏态和峰度偏态:是测定分布的偏斜方向和偏斜程度的指标偏态:是测定分布的偏斜方向和偏斜程度的指标偏态:是测定分布的偏斜方向和偏斜程度的指标偏态:是测定分布的偏斜方向和偏斜程度的指标是相对于对称分布而言是相对于对称分布而言是相对于对称分布而言是相对于对称分布而言峰度

97、:是测定分布的尖峭程度的指标峰度:是测定分布的尖峭程度的指标峰度:是测定分布的尖峭程度的指标峰度:是测定分布的尖峭程度的指标是相对于正态分布而言是相对于正态分布而言是相对于正态分布而言是相对于正态分布而言秦甘堑竖处任颇沈唾癣心仅署栋哈拥澡铃汤嘛型哼勾噪泌丰篙沾航五蚕态数据分布特征的统计描述数据分布特征的统计描述155偏态偏态偏态偏态(形状)(形状)(形状)(形状)峰态峰态峰态峰态 ( (形状形状形状形状) )正态分布正态分布正态分布正态分布对称分布对称分布对称分布对称分布非旗征杜叠咐催侍漳授谐坠讯缕其峡铜灭尸炎蚂哦临迟删朽蝎箭阑奏络猩数据分布特征的统计描述数据分布特征的统计描述156首先介绍首

98、先介绍“矩矩”的概念的概念矩:矩:又称动差,物理学上的术语。统计上用又称动差,物理学上的术语。统计上用 来刻画数据分布特征的的指标的统称。来刻画数据分布特征的的指标的统称。K K 阶矩:阶矩:阶矩:阶矩:所有变量值与数值所有变量值与数值所有变量值与数值所有变量值与数值a a之离差的之离差的之离差的之离差的K K 次方次方次方次方 的平均数称为变量的平均数称为变量的平均数称为变量的平均数称为变量 x x 关于关于关于关于 a a 的的的的K K 阶矩阶矩阶矩阶矩当:当:当:当:a a等于等于等于等于0 0时称为时称为时称为时称为 K K 阶原点矩阶原点矩阶原点矩阶原点矩 a a等于等于等于等于

99、时称为时称为时称为时称为 K K 阶原点矩阶原点矩阶原点矩阶原点矩 一阶原点阶矩就是算术平均数一阶原点阶矩就是算术平均数一阶原点阶矩就是算术平均数一阶原点阶矩就是算术平均数二阶中心距就是方差二阶中心距就是方差二阶中心距就是方差二阶中心距就是方差隔驱讽徐农丁书讯恶胃元密行聊淡淬撰罢癌溜宁舵志架羚期子墨窥哆可逝数据分布特征的统计描述数据分布特征的统计描述157一阶原点矩一阶原点矩一阶原点矩一阶原点矩 即为均值即为均值即为均值即为均值二阶中心矩二阶中心矩二阶中心矩二阶中心矩 即为方差即为方差即为方差即为方差质霸位甫厉枉砧诵缝掌菩糖撒锭砧哩借窝婚爷判法沿钝恨米煤刑唾振疮缔数据分布特征的统计描述数据分布

100、特征的统计描述1581、偏态:、偏态: 偏态偏态:是对分布的偏斜方向和偏斜程度的测定:是对分布的偏斜方向和偏斜程度的测定测定偏态程度的指标称为测定偏态程度的指标称为偏态系数偏态系数如果次数的分布是完全对称的,称为对称分布如果次数的分布是完全对称的,称为对称分布否为非对称分布,即偏态分布,分左偏和右偏否为非对称分布,即偏态分布,分左偏和右偏和和 对称分布比较而言对称分布比较而言逻潜庄盖贞咬架洽驮虾或铅旨镶癣蹦居劝坐色力输犁氮镑粗抉沮秤光狙趋数据分布特征的统计描述数据分布特征的统计描述159偏态系数:用三阶中心矩定义偏态系数:用三阶中心矩定义该系数为该系数为0时,为对称分布时,为对称分布大于大于0

101、时,为右偏态分布时,为右偏态分布小于小于0时,为左偏态分布时,为左偏态分布越接近越接近0,偏斜程度就越低,偏斜程度就越低 若分布不对称,只有一阶中若分布不对称,只有一阶中若分布不对称,只有一阶中若分布不对称,只有一阶中心矩为心矩为心矩为心矩为0 0,其余的奇数阶中心,其余的奇数阶中心,其余的奇数阶中心,其余的奇数阶中心矩都不为矩都不为矩都不为矩都不为0 0。若分布对称,所。若分布对称,所。若分布对称,所。若分布对称,所有奇数阶中心矩应为有奇数阶中心矩应为有奇数阶中心矩应为有奇数阶中心矩应为0 0,消除消除消除消除量纲量纲量纲量纲臀岁比拌脏卸格纱滇琐犹把二程西网缅左裁池勇枢碑慷樱漆堰昂虏龋街剥数

102、据分布特征的统计描述数据分布特征的统计描述1602、峰度、峰度峰度:是指分布图形的尖峭程度。峰度:是指分布图形的尖峭程度。和标准正态分布比较而言的和标准正态分布比较而言的实际中,标准正态分布曲线的峰顶为正态峰,实际中,标准正态分布曲线的峰顶为正态峰,和标准正态分布曲线相比,陡峭的为尖峰,和标准正态分布曲线相比,陡峭的为尖峰,平缓的为平峰顶。平缓的为平峰顶。测定峰度的指标称为测定峰度的指标称为 峰度系数。峰度系数。挣臀忆蛾权坝辛芒瑞棋睛愁蹄买庭豪具铜丽景议宠晌芦腾料坠润婿伟夯闭数据分布特征的统计描述数据分布特征的统计描述161扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布峰态峰

103、态峰态峰态与正态分布与正态分布与正态分布与正态分布比较!比较!比较!比较!厌樊攘肉闷邑挚范孤董如建瘪较党宰脱整豢穆版柏溃晕陀怎歹炸将虫矮萍数据分布特征的统计描述数据分布特征的统计描述162峰度系数峰度系数:用四阶中心矩定义。因为分布用四阶中心矩定义。因为分布的尖峭程度和偶数阶中心矩数值大小有关的尖峭程度和偶数阶中心矩数值大小有关.所以该系数和所以该系数和所以该系数和所以该系数和3 3比:等于比:等于比:等于比:等于3 3,为正态分布;,为正态分布;,为正态分布;,为正态分布;大于大于大于大于3 3时,为尖峰分布;小于时,为尖峰分布;小于时,为尖峰分布;小于时,为尖峰分布;小于3 3时,平峰分布

104、时,平峰分布时,平峰分布时,平峰分布消除量纲消除量纲消除量纲消除量纲因为:正态分布曲线的四阶中心因为:正态分布曲线的四阶中心因为:正态分布曲线的四阶中心因为:正态分布曲线的四阶中心矩和标准差的矩和标准差的矩和标准差的矩和标准差的4 4次方之比为次方之比为次方之比为次方之比为3 3没宜赖征鸯刁顽盛逐钨孩嘛起炔归紧蜂喘端逞渠簿围截哩媳晋疤校诱氰帅数据分布特征的统计描述数据分布特征的统计描述163尖顶分布(尖顶分布(尖顶分布(尖顶分布(KK3 3)平顶分布(平顶分布(平顶分布(平顶分布(KK3 3)正态分布(正态分布(正态分布(正态分布(KK=3 3)路耍捎蚁胃昂之残模童装欧溯籍埔燥件乙窘睁讣廓甄泥

105、帜敝坝臣趟健搞辗数据分布特征的统计描述数据分布特征的统计描述164v因为对于正态分布因为对于正态分布所以,峰度的标准测定公式为:所以,峰度的标准测定公式为:所以,峰度的标准测定公式为:所以,峰度的标准测定公式为:奖贮辉党筹蔗问基递烦侣嘘灾绪著搜颈伍弦壳桂虏绕殴镀易腻吸静蹭偷汞数据分布特征的统计描述数据分布特征的统计描述165 用用EXCELEXCEL计算描述统计量计算描述统计量v 用用EXCEL计算平均数、标准差等描述性统计计算平均数、标准差等描述性统计 量有两种方法:量有两种方法: 一是用函数一是用函数 二是用二是用“数据分析数据分析”工具工具等钾室囤宏周虞沸敝巫搏踪漓蕾逻耍染辈躇芹构兼檄炽

106、霸税罗长拎夫凑地数据分布特征的统计描述数据分布特征的统计描述166 第一、函数第一、函数均值:均值:average中位数:中位数:median众数:众数:mode标准差:标准差: 总体标准差:总体标准差:stdevp; 样本标准差:样本标准差: stdev分位数:分位数:quartileExcel用于计算描述统计量的函数:用于计算描述统计量的函数:厨爸叁联赚届细液蹄趋紫弃羹纹武泥村绅匆储醋房蓟罕婿肚值戎睛节梗焦数据分布特征的统计描述数据分布特征的统计描述167冗甩取挡戎锨椒声椭丘偏迢川忙废烯棍剔瘸琼吸掀莱弓狼疫列诵株找浓矮数据分布特征的统计描述数据分布特征的统计描述168分位数分位数quart

107、ile的语法结构的语法结构v Quartile(array, quart)Array:计算四分数的数据区域。输入待计算四分数的数据区域。输入待计算四分数的数据区域。输入待计算四分数的数据区域。输入待计算数据的地址即可。计算数据的地址即可。计算数据的地址即可。计算数据的地址即可。Quart:计算的是第几个四分数计算的是第几个四分数计算的是第几个四分数计算的是第几个四分数可输入:可输入:可输入:可输入:0 0、1 1、2 2、3 3、4 4。分别表示最小值、。分别表示最小值、。分别表示最小值、。分别表示最小值、第第第第1 1、2 2、3 3个四分位数和最大值。个四分位数和最大值。个四分位数和最大值

108、。个四分位数和最大值。香啡琵接族藏冀明崖申全射赋祟害会轴茹绊仁怖肃联皋虎吮炼冕蔡房谎葫数据分布特征的统计描述数据分布特征的统计描述169第二、第二、 “数据分析数据分析”工具工具v第一次使用第一次使用“数据分析数据分析”时,需在时,需在EXCEL工工具具 菜单中选菜单中选“加载宏加载宏”,选,选“分析工具库分析工具库”。 这样在这样在“工具工具”菜单中就会出现菜单中就会出现“数据分析数据分析”。门邵碎预纬碳聋滑驻鸥精规拂收然墩叉伐伦盅摧婪某邯阀椒注泼掉陵戳劳数据分布特征的统计描述数据分布特征的统计描述170选择“网上冲浪”工作表。打开“工具”菜单,选择“数据分析”选项,打开数据分析对话框如图所

109、示。悲光畏嗜场靛恕羹试居征皮额宰恫胯根访终靳丽洱语谁噬粗煮怒浅霹涧乎数据分布特征的统计描述数据分布特征的统计描述171双击“描述统计”项或先单击此项再选择“确定”按钮,描述统计对话框打开如图所示。在“输入区域”中输入A1:A21。饶溺旭豹干搐呜独甸凿差狭困祥迸嚷使拘进碱愧驹蜗峻背险队殃前界补诧数据分布特征的统计描述数据分布特征的统计描述172由于所选数据范围包括一个标志名称,单击“标志位于第一行”选项边上的复选框。单击“输出区域”项,旁边出现了一个输入框,单击此框出现插入符,单击C1,在输入框中出现输出地址“$B$1”,这是输出结果的左上角起始位置。单击“汇总统计”,如不选此项,则Excel省

110、略部分输出结果。需课皋状俩讥酶区岁惋钎帆磷园茸彤盅威呆吓缸川戈祭瞧布哦归坪曹皖闰数据分布特征的统计描述数据分布特征的统计描述173平均平均 38.75 38.75标准误差标准误差 2.435348 2.435348中位数中位数 38.5 38.5众数众数 29 29标准差标准差 10.89121 10.89121方差方差 118.6184 118.6184峰度峰度 -1.0812 -1.0812偏度偏度 0.277013 0.277013区域区域 36 36最小值最小值 22 22最大值最大值 58 58求和求和 775 775观测数观测数 20 20单击单击“确定确定”按钮,输出结果如下图所

111、示:按钮,输出结果如下图所示:奖锄淖徐卓散斋愚贺谴乃蠕畸溜旬誓指庭寺小歉怀堑烟科井骨紧颇收洱醉数据分布特征的统计描述数据分布特征的统计描述174案例研究案例研究“Old Faithful”间歇喷泉的喷发间歇喷泉的喷发间歇喷泉是一种向空中喷出热水和热气的温泉,间歇喷泉是一种向空中喷出热水和热气的温泉,其名字的由来是因为这种喷泉要经过一段相对其名字的由来是因为这种喷泉要经过一段相对稳定的状态后才能喷发。有时它喷射的时间间稳定的状态后才能喷发。有时它喷射的时间间隔不太稳定。隔不太稳定。Ohio(俄亥俄俄亥俄)州黄石国家公园中的州黄石国家公园中的“Old Faithful”间歇喷泉是世界上最著名的间歇

112、喷泉间歇喷泉是世界上最著名的间歇喷泉之一。参观者们都希望到公园后不用等多久就之一。参观者们都希望到公园后不用等多久就能看到喷泉的喷发。能看到喷泉的喷发。国家公园的服务部门就在喷泉处安装了一个指国家公园的服务部门就在喷泉处安装了一个指示牌,预报下次喷泉喷发的时间,如下表所示。示牌,预报下次喷泉喷发的时间,如下表所示。斯册撅嘱巫珊肚掸贷辽窝翟择镁斯邑菏睦动痴了具惜童官敛庞嘲敌涎睫寡数据分布特征的统计描述数据分布特征的统计描述175开始时开始时间间持续时持续时间间预测区预测区间间预测下预测下一次喷一次喷发时间发时间6:351分分55秒秒58分分7:33am7:32接近接近4秒秒82分分8:54am8

113、:591分分51秒秒58分分9:57am10:124分分33秒秒89分分11:41am11:461分分42秒秒58分分12:44am中午吃饭中午吃饭 14:061分分41秒秒55分分3:01pm“Old Faithful”间歇喷泉喷发时间表间歇喷泉喷发时间表踏颁雨喳郁翱低晤道波羞卞韭皋恐搁格真并禾宋嫁盆稗旺竣钳苔坠驹乒蔷数据分布特征的统计描述数据分布特征的统计描述176公园是如何得到这个结果的呢?为了了解喷泉喷发间隔公园是如何得到这个结果的呢?为了了解喷泉喷发间隔时间的规律,以时间的规律,以1978年年8月至月至1979年年8月间喷泉月间喷泉222次喷次喷发的间隔时间记录为样本进行分析。发的间

114、隔时间记录为样本进行分析。打开打开“喷泉喷泉“工作表。工作表。单单击击“工工具具”菜菜单单,选选择择“数数据据分分析析”选选项项,打打开开“直方图直方图”对话框。对话框。在输入区域输入单元格在输入区域输入单元格C1:C223,选择,选择“标志标志”,在,在输出区域中输入单元格输出区域中输入单元格“D1”,选择,选择“图表输出图表输出”,单击单击“确定确定”按钮。按钮。 朔郴牛潍迟靠酒焚秸匀恫阀扼坞抒由轧旨舒淬坊政文素宠涪警迪玻崔蝴旅数据分布特征的统计描述数据分布特征的统计描述177从图中可以看出,喷泉喷发的间隔时间一般在从图中可以看出,喷泉喷发的间隔时间一般在40100分分钟内变动。但是,在数

115、据中明显地存在两个子群,它们钟内变动。但是,在数据中明显地存在两个子群,它们的中心大约分别在喷发间隔的中心大约分别在喷发间隔55分钟和分钟和80分钟,这样在图分钟,这样在图形中间形成一个缺口。然而我们利用描述统计分析工具形中间形成一个缺口。然而我们利用描述统计分析工具所得的结果与此便大不一样。所得的结果与此便大不一样。将所得的直方图进行修饰,便得到下图:将所得的直方图进行修饰,便得到下图:帖谅刘肇脸辊翰缄钒条抿叉姨管韧炼姓红樟恫汹钳辗跪汤芦赫茵俞命式蛀数据分布特征的统计描述数据分布特征的统计描述178利用描述统计分析工具分析该喷泉的间隔时间,利用描述统计分析工具分析该喷泉的间隔时间,方法如下:

116、方法如下:打开打开“4数据描述数据描述.xls”工作簿,选择工作簿,选择“喷泉喷泉”工工作表。作表。从从“工工具具”菜菜单单中中选选择择“数数据据分分析析”选选项项,打打开开“描述统计描述统计”对话框。对话框。在在输输入入区区域域中中输输入入“C1:C223”,选选择择标标志志位位于于第第一行。一行。“输出区域输出区域”选择选择D19。选选择择“汇汇总总统统计计”和和“平平均均数数置置信信度度”,单单击击“确定确定”按钮,结果如下表所示。按钮,结果如下表所示。巍测孕佯坝臭击雄姑曰袄止松怨巡难邵亏队执密充谬汽因图酷稚表拔茸纂数据分布特征的统计描述数据分布特征的统计描述179平均平均 71.009

117、01 71.00901中位数中位数 75 75众数众数 75 75标准差标准差 12.799018 12.799018峰度峰度 -1.0812 -1.0812偏度偏度 0.277013 0.277013全距全距 53 53最小值最小值 42 42最大值最大值 95 95观测数观测数 222 222 “Old Faithfaul” 喷泉间隔时间描述统计喷泉间隔时间描述统计表表爸罐捧箩棱夏垢香淫奎炼代墅勇磐洒晒眺王咙昆逾幼逢奔绒发筷录子蔼跌数据分布特征的统计描述数据分布特征的统计描述180由由于于描描述述统统计计指指标标的的概概括括性性与与抽抽象象性性,容容易易使使人人对对事事物物的的真真实实情情

118、况况产产生生误误解解。例例如如:从从上上表表中中可可以以看看出出平平均均间间隔隔时时间间大大约约为为71分分钟钟。事事实实上上,间间歇歇时时间间大大致致呈呈现现双双峰峰分分布布,因因而而这这一一平平均均数数并并不不能能确确切切描描述述上上述述两两个个子子群群中中任任何何一一个个子群的特征。子群的特征。按按喷喷发发持持续续的的时时间间将将观观察察值值分分成成两两组组,可可以以对对两两种种喷喷发发的的不不同同特特性性在在更更多多细细节节上上作作出出检检测测。下下表表是是以以喷喷发发持持续续的的时时间间是是少少于于还还是是大大于于3分分钟钟为为依依据据分分组组,分分别别列列出出喷喷发发间间歇歇时时间

119、间的的主主要要统统计指标。计指标。丑忘篷蛀纳婆饺勃为挤寅挖银滤则志扎龋训贡睫剁隆沥刽霄霄钞惮蹿啃草数据分布特征的统计描述数据分布特征的统计描述181喷泉喷发间歇时间的主要描述统计指标喷泉喷发间歇时间的主要描述统计指标 间歇时间间歇时间统计指标统计指标喷发时间喷发时间3分钟分钟样本数样本数67155平均数平均数54.46378.161标准差标准差6.29896.8911最小值最小值42.00053.000中位数中位数53.00078.000最大值最大值78.00095.000赂门肖赫爷源淆厄蒙福拨毗姨鱼窜巷刃淮磨赋煞臂绑蒋址蝶唬乔涛穆嫡露数据分布特征的统计描述数据分布特征的统计描述182根根据据

120、上上述述统统计计指指标标和和图图表表,可可以以得得出出一一个个简简单单的的预预测测规规律律:一一个个持持续续时时间间少少于于3分分钟钟的的喷喷发发将将必必然然伴伴随随着着一一个个大大约约55分分钟钟的的间间歇歇;一一个个持持续续时时间间大大于于3分分钟钟的的喷喷发发将将必必然然伴伴随随着着一一个个大大约约80分钟的间歇。分钟的间歇。这样,通过一个非常简单的规则,国家公园的这样,通过一个非常简单的规则,国家公园的工作人员能够保证来黄石公园的游客不用等很工作人员能够保证来黄石公园的游客不用等很长时间就会观看到长时间就会观看到“旧费尔斯福旧费尔斯福”间歇喷泉的间歇喷泉的喷发。喷发。晶燃塌绞涪款蚌座村万捻胖阵盲膨钵享壶亥隆俞喂设快靡谷胸驼牛卷陆粤数据分布特征的统计描述数据分布特征的统计描述183Thank you very much!上一页退出返回本章首页挚背失抬诲猪不瞻免掐绍捍翅糠塑咆锨唤坛登斜旦撒母吵介西汤诧袋饰枯数据分布特征的统计描述数据分布特征的统计描述

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号