《统计学 统计数据的描述》由会员分享,可在线阅读,更多相关《统计学 统计数据的描述(147页珍藏版)》请在金锄头文库上搜索。
1、统计学统计学第2章统计数据的描述第第1章章 回顾回顾l知识点l统计学内涵l统计学概念及含义l要求l掌握统计学的涵义l了解统计学产生与发展l掌握统计学几个概念是一门收集、整理、是一门收集、整理、显示和分析统计数据显示和分析统计数据的科学,其目的是探的科学,其目的是探索数据内在的规律性索数据内在的规律性。总体变量样本参数统计量第第2章章 统计数据的描述统计数据的描述l2.1数据的计量尺度l2.2统计数据的来源l2.3统计数据的质量l2.4统计数据的整理l2.5分布集中趋势的测度l2.6分布离散程度的测度l2.7分布偏态与峰度的测度l2.8茎叶图与箱线图l2.9统计表与统计图数据整理数据分析数据显示
2、结果2.1 数据的计量尺度一、列名尺度一、列名尺度二、顺序尺度二、顺序尺度三、间隔尺度三、间隔尺度四、比率尺度四、比率尺度2.1 数据的计量尺度数据的计量尺度l分类方法(4种计量尺度):列名尺度、顺序尺度、间隔尺度和比例(率)尺度。列名尺度列名尺度顺序尺度顺序尺度间隔尺度间隔尺度比例尺度比例尺度精精确确程程度度良好良好19801980134134公斤公斤休斯顿火箭休斯顿火箭俱乐部:健康状况:出生年份:体重:1、列名尺度列名尺度(Nominal Scale)l例如:性别、民族、职业l数据表现为“类别”l各类之间无等级次序l各类别可以用数字代码表示l根据列名尺度得到的数据为分类数据。2、顺序尺度(
3、Ordinal Scale)l例如健康状况、质量等级l数据表现为“类别”l可对等级、大小等排序l未测量出类别之间的准确差值l根据顺序尺度得到的数据为顺序数据。3、间隔尺度Interval Scalel例如年份、摄氏温度l数据表现为“数值”l可以进行加减运算l“0”是只是尺度上的一个点,不代表“不存在”l根据间隔尺度得到的数据为间隔数据。4、比例尺度Ratio Scalel例如体重、身高l数据表现为“数值”l可以进行加减、乘除运算l“0”表示“没有”或“不存在”l根据比例尺度得到的数据为比例数据。间隔尺度与比例尺度的区别间隔尺度中“0”表示一个具体数值,不表示“没有”或“不存在”,比例尺度中“0
4、”表示“没有”或“不存在”。间隔尺度间隔尺度 -273.15 -123.15 0 26.85比例尺度比例尺度 0KM 150KM 300KM课堂练习下列数据中哪些采用了间隔尺度?下列数据中哪些采用了间隔尺度?海拔海拔88488848米米 960960万平方公里万平方公里 100100元元 北纬北纬3838度度四种计量尺度的比较四种计量尺度的比较l1、四种尺度所包含的信息量是依次递增的。l2、根据较高层次的计量尺度可以获得较低层次的计量尺度。四种计量尺度的比较:数学性质四种计量尺度的比较:数学性质“”表示该尺度所具有的特性四种计量尺度的比较四种计量尺度的比较列名尺度列名尺度 顺序尺度顺序尺度 间
5、隔尺度间隔尺度 比例尺度比例尺度 分分类( = , ) 排序排序( ) 间距距( + ,- ) 比比值( , ) 数据和变量类型数据的类型数据的类型分类数据顺序数据定性数据定量数据间隔数据比例数据品质变量AttributeCategorical数量变量Numerical变量类型变量的类型l变量变量是用来描述现象某种令人感兴趣的特是用来描述现象某种令人感兴趣的特征的概念。征的概念。l品质变量品质变量是描述现象有关属性特征的变量,本是描述现象有关属性特征的变量,本质上不能用数字来表示。例如性别。质上不能用数字来表示。例如性别。l数量变量数量变量是描述现象有关数量特征的变量,都是描述现象有关数量特征
6、的变量,都是用数字来表示的。例如人数,年龄等。是用数字来表示的。例如人数,年龄等。l离散型变量离散型变量指的是有限个数值或诸如指的是有限个数值或诸如0,1,2之之类无限可列值的变量。类无限可列值的变量。 l如果某一变量可以取某一区间或多个区间中任意数值,如果某一变量可以取某一区间或多个区间中任意数值,则该变量称为则该变量称为连续型变量连续型变量。2.1 例子例子l请判断下列数据分别属于什么类型?l灯炮使用寿命l将产业划分为三类l广州市8月份各天的气温记录l将服务质量分为五个等级:好、较好、一般、差、较差。分类数据顺序数据比例数据间隔数据2.2 统计数据的来源一、间接获取的数据一、间接获取的数据
7、 二、直接获取的数据二、直接获取的数据 间接取得的数据间接取得的数据间接取得的数据间接取得的数据InternetInternethttp/http/WWW.WWW.中国统计年中国统计年中国统计年中国统计年鉴鉴鉴鉴20012001中中中中国国国国人人人人口口口口统统统统计计计计年年年年鉴鉴鉴鉴中中中中国国国国市市市市场场场场统统统统计计计计年年年年鉴鉴鉴鉴世世世世界界界界发发发发展展展展报报报报告告告告世世世世界界界界经经经经济济济济年年年年检检检检工工工工业业业业普普普普查查查查数数数数据据据据中国统计出版社1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构
8、、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料提供统计数据的部分政府网站提供统计数据的部分政府网站中国政府及相关机构中国政府及相关机构 网址网址数据内容数据内容国家统计局http:/统计年鉴、统计月报等国务院发展研究中心信息网http:/宏观经济、财经、货币金融等中国经济信息网http:/经济信息及各类网站华通数据中心http:/国家统计局授权的数据中心中国决策信息网http:/决策知识及案例三农数据网http:/三农信息、论坛及相关网站提供统计数据的部分政府网站
9、提供统计数据的部分政府网站美国政府机构美国政府机构 网址网址数据内容数据内容人口普查局http:/www.census.gov人口和家庭等联邦储备局http:/www.bog.frb.fed.us货币供应、信誉、汇率等预算编制办公室http:/www.whitehouse.gov/omb财政收入、支出、债券等商务部http:/www.doc.gov商业、工业等直接取得的数据直接取得的数据普查普查(census) 1.为特定目的专门组织的非经常性全面调查2. 通常是一次性或周期性的3. 一般需要规定统一的标准调查时间4. 数据的规范化程度较高5. 应用范围比较狭窄总体总体抽样调查抽样调查(sam
10、pling survey) l1. 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法总体总体总体总体随机样本随机样本随机样本随机样本 2. 具有经济性、时具有经济性、时 效性强、适应面广、效性强、适应面广、准确性高等特点准确性高等特点2.3数据的质量数据的质量l非抽样误差:由于调查过程中各有关环节工作失误造成的。l调查方案有关规定或解释不明确导致填报错误、抄录错误、汇总错误、不完整抽样框导致的误差,调查中不回答产生的误差。l人为干扰:隐瞒、虚报。l从理论上看,这类误差可以避免。l加强培训l掌握获取完整抽样框的方法,科学抽样的方法与技术。l抽样误差:利用
11、样本推断总体时产生的误差。l不可避免l可以计量、可以控制抽样框全部总体单元或范围。2.3 统计数据的质量数据的误差数据的误差抽样误差抽样误差(sampling error)1.由于抽样的随机性所带来的误差2.所有样本可能的结果与总体真值之间的平均性差异3.影响抽样误差大小的因素l样本容量的大小l总体的变异性非抽样误差非抽样误差(non-sampling error)1.相对于抽样误差而言2.除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中4.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差数据来源与数据质量数据来源与数据质量l1936年,罗斯
12、福和兰登竞选总统。文学摘要调查了240万人,预测兰登以57%对43%获胜;Gallup(盖洛普)调查了50000人,结论是罗斯福以56%获胜。实际结果是罗斯福以62%获胜。l1952年至1988年,Gallup公司在每次调查中只抽取3439至8144人,实际预测误差在0.2至4.4个百分点之间。数据来源与数据质量数据来源与数据质量l第二次世界大战期间,美国国家民意调查中心(TheNationalOpinionResearchCenter)派两组调查人员对一个南方城市的500名黑人进行提问,一组调查人员由白人组成,另一组由黑人组成。3个问题:l问题一:“如果日本占领美国,你认为黑人的境况会得到改
13、善还是变得更糟?”l黑人调查组中,9的被调查者回答“变好”,25回答“变坏”;l白人调查组中,2回答“变好”,45回答变坏。l问题二:用“纳粹分子”代替“日本”,两组的结果大体相同。l问题三:“你认为目前致力于打败轴心国比在本国内进一步推进民主更重要吗?”l黑人调查组中,选择“打败轴心国”的比例是39,l而白人调查组则是62。l是什么原因造成了调查结果的差异呢?误差的控制误差的控制1.抽样误差可计算和控制2.非抽样误差的控制l调查员的挑选l调查员的培训l督导员的调查专业水平l调查过程控制l调查结果进行检验、评估l现场调查人员进行奖惩的制度2.4 统计数据的整理一、统计数据的分组一、统计数据的分
14、组 二、次数分配二、次数分配三、次数分配直方图三、次数分配直方图 四、洛伦茨曲线四、洛伦茨曲线统计数据的分组统计数据的分组2.4数据的整理数据的整理统计数据的分组统计数据的分组l按照统计研究目的,将数据分别列入不同的组内。l按品质标志分组:列名尺度和顺序尺度。l按数量标志分组:间隔尺度和比例尺度。2.4 数据的整理数据的整理次数分配次数分配l次数分配是观察值按其分组标志分配在各组内的次数。分组目的:找出数据分布的规律。l步骤:l分多少组?确定组数l每一组的范围?确定组距=(Max.-Min.)/组数l等组距分组、不等组距分组l开口组l经验:组数不少于5组,也不应多于15组l原则:“不重不漏”、
15、上组限(一个组的最大值)不在内l累积次数分配l向下累积:由表的上方向表的下方累加l向上累积:由表的下方向表的上方累加组距分组组距分组 (步骤步骤)1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的2.确定组距:组距(classwidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即l组距组距( 最大值最大值 - 最小值最小值) 组数组数3.统计出各组的频数并整理成频数分布表频数(frequency):每个组中的数据个数,也称次数。频率(relativefrequency):频数/总数据个数。补充补充Sturges提出的经验公式:分组组数K应满足其中
16、n 为数据的个数(总体单位数或样本数),一般对结果取整数。组距分组组距分组 (几个概念几个概念)l1. 下限下限(low limit) :一个组的最小值l2. 上限上限(upper limit) :一个组的最大值l3. 组距组距(class width) :上限与下限之差l4. 组中值组中值(class midpoint) :下限与上限之间的中点值下限值下限值+上限值上限值2组中值组中值 =次数分配表的编制次数分配表的编制(例题分析例题分析)【例例例例】某某车车间间3030名名工工人人每每周周加加工工某某种种零零件件件件数数如如右右表表试试对对 数数 据据 进进 行行分组。分组。 Max=12
17、8Min=84频数分布表频数分布表Max=128Min=84(Max-Min)/5=(128-84)/5=8.810上组限(一个组的最大值)不在内。90、100、110、120这几个数究竟属于哪一组?课堂练习:课堂练习:某月啤酒公司某月啤酒公司60个销售点的销量个销售点的销量l487152533641695847605329l417281374358684273625944l515347665952344973294716l395843294652384680585167l545758634940546158664750l单位:桶Max=81Min=16(Max-Min)/8=(81-16)/
18、8=8.1259啤酒销售量的频数分布销售桶数销售桶数 销售点数销售点数 频率频率(%)1019 1 1.72029 3 5.03039 5 8.34049 16 26.75059 20 33.36069 9 15.07079 4 6.78089 2 3.3 合计合计 60 100.0频数/次数次数分配直方图次数分配直方图Excel直方图直方图 (histogram)1.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图2.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面面积积来表示各组的频数分布分组数据的图示分组数据的图示(直方图的绘制直
19、方图的绘制)某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图 我我一一眼眼就就看看出出来来了了,周周加加工工零零 件件 在在 100100110110之之 间间 的的 人人数最多数最多! !折线图折线图 (frequency polygon)1.折线图也称次数多边形图2.折线图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉3.折线图的两个终点要与横轴相交,具体的做法是l第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴lS直方图=S折线图,二
20、者所表示的频数分布是一致的分组数据的图示分组数据的图示(折线图的绘制折线图的绘制)SS直方图直方图直方图直方图=S=S折线图折线图折线图折线图某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图 次数分布曲线次数分布曲线l次数分布曲线:当观察次数越多,组距越小且组数越多,所给出的折线图就会越光滑,然后直方图抹掉,就只剩一条光滑的曲线,用于反映数据或统计量的分布规律。l正态分布曲线l偏态曲线lJ形曲线lU形曲线次数分配的类型次数分配的类型对称分布对称分布对称分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布正正正J J J型分布型分布型分布反
21、反反J J J型分布型分布型分布U UU型分布型分布型分布几种常见的频数分布几种常见的频数分布几种常见的频数分布几种常见的频数分布洛伦茨曲线与基尼系数洛伦茨曲线与基尼系数洛伦茨曲线洛伦茨曲线20世纪初美国经济学家、统 计 学 家 洛 伦 茨(M.E.Lorentz)根据意大利经济学家帕累托(V. Pareto)提出的收入分配公式绘制而成。描述了收入和财富分配性质的,这条曲线用于分析某国家或地区收入分配的公平程度。AB累积的人口百分比累积的人口百分比 累累积积的的收收入入百百分分比比 绝对公平线绝对公平线 基尼系数基尼系数1.20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线计算出一个数
22、值,用这个统计指标可以衡量收入分配的平等程度。2.A表示实际收入曲线与绝对平均线之间的面积3.B表示实际收入曲线与绝对不平均线之间的面积4.如果A=0,则基尼系数=0,表示收入绝对平均5.如果B=0,则基尼系数=1,表示收入绝对不平均6.基尼系数在0和1之间取值AB0.4,分配不公洛伦茨曲线与基尼系数计算步骤:洛伦茨曲线与基尼系数计算步骤:假假设一个国家有一个国家有100100个人,个人,计算算这个国家的基尼系数分个国家的基尼系数分为下面下面四步:四步: 1.1.将将这100100人按收入从低往高排列,第一名是收入最低的,人按收入从低往高排列,第一名是收入最低的,第一百名是收入最高的;第一百名
23、是收入最高的; 2.2.画一个画一个边长为一的正方形,并将左下角与右上角的一的正方形,并将左下角与右上角的对角角线相相连; 3.3.依次依次计算前十名,前二十名,前三十名算前十名,前二十名,前三十名一直到前一直到前九十名所九十名所拥有的收入占整个有的收入占整个100100人的收入的比人的收入的比值; 4.4.以正方形的左下角以正方形的左下角为原点,用水平原点,用水平边标记累累计人口,人口,垂直垂直边标记累累积的收入比,将在上面的收入比,将在上面计算出的累算出的累计收入比收入比值,在正方形中在正方形中标出。然后,将出。然后,将这些点同原点以及正方形的右上些点同原点以及正方形的右上角角连接,就可以
24、得到一条曲接,就可以得到一条曲线。 这条曲条曲线被称被称为洛洛伦茨茨曲曲线。 基尼系数就是基尼系数就是对角角线与与洛洛伦茨茨曲曲线之之间的面的面积,与,与对角角线以下的三角形的面以下的三角形的面积之比。之比。各国基尼系数的比较各国基尼系数的比较l美国40.8%英国36.1%法国32.7%俄罗斯31.0%韩国31.6%德国30%意大利27.3%匈牙利26.9%瑞典25%日本24.9%0.4,分配不公1978-2005中国基尼系数变化情况中国基尼系数变化情况亚行揭露:中国基尼系数扩大到亚行揭露:中国基尼系数扩大到0.473,己达到拉美平均水平,勇夺亚洲冠军己达到拉美平均水平,勇夺亚洲冠军l2007
25、年8月8日,亚洲开发银行发表了减少不平等,中国需要具有包容性的增长的新闻稿并公布了亚洲的分配不均的研究报告。l在22个纳入亚行研究范围的国家中,中国勇夺贫富差距之冠,在衡量分配不平等的两个常见指标中,收入最高的20%人口的平均收入与收入最低的20%人口的平均收入的比率,中国是11倍,高出其它国家一大截;l基尼系数,2004年中国的数值是0.4725,仅比尼泊尔的0.4730低微小,远远高于印度、韩国、台湾。l亚行指出,从1993到2004年,中国的基尼系数从0.407扩大到0.473,己达到拉丁美洲的平均水平,不得不让人怀念“公平的增长”的典范:韩国和台湾(地区)。)。l贫富差距排名贫富差距排
26、名l国家最高20%人口收入/最低20%人口收入基尼系数ll中国11.37倍0.4725l尼泊尔9.47倍0.4730l菲律宾9.11倍0.4397l土库曼斯坦8.33倍0.4302l泰国7.72倍0.4196l马来西亚7.7倍0.4033l柬埔寨7.04倍0.3805l斯里兰卡6.83倍0.4018l越南6.24倍0.3708l台湾6.05倍0.3385l阿塞拜疆5.95倍0.3650l哈萨克斯坦5.61倍0.3383l印度5.52倍0.3622l印度尼西亚5.52倍0.3430l韩国5.47倍0.3155l蒙古5.44倍0.3284l老挝5.4倍0.3463l塔吉克斯坦5.14倍0.3263
27、l亚美尼亚5.08倍0.338l文莱5.03倍0.3408l巴基斯坦4.46倍0.3118l吉尔吉斯4.43倍0.3032.5 分布集中趋势的测度一、一、众数(mode)二、二、中位数(median)三、四三、四分位数四、四、均值(mean)五、五、几何平均数(geometric mean)六、六、切尾均值(trimmed mean)七、众数、中位数和均值的比较七、众数、中位数和均值的比较集中趋势集中趋势l常用的集中趋势的测度指标:l算术平均数l调和平均数l几何平均数l中位数l众数l集中趋势:一组数据向其中心值靠拢的倾向和程度。l集中趋势测度:寻找数据水平的代表值或中心值。众数众数众数众数 M
28、o (mode)1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据众数众数(不惟一性不惟一性)l无众数无众数原始数据:10591268一个众数一个众数原始数据:65 985 5多于一个众数多于一个众数原始数据:2528 28 3642 42众数(众数(mode)Mol数据按大小顺序排队形成次数分配后,在统计分布中有明显集中趋势的数值。l正态分布和一般偏态分布中,分布的最高峰点所对应的数值就是众数。l是一种位置代表值。众数众数l对于分组数据来说,计算众数的近似公式为:其中:lL:表
29、示众数所在组的下组限l1:表示众数组次数与下一组次数之差l2:表示众数组次数与上一组次数之差li:表示众数所在组的组距众数的计算:分组资料众数的计算:分组资料* ,例子,例子l1、众数所在的组:80-90。l2、或者:众数等于众数所在组的组中值85。成绩频数60以下360-70870-801280-901590以上4合计42【例】【例例】一一家家市市场场调调查查公公司司为为研研究究不不同同品品牌牌饮饮料料的的市市场场占占有有率率,对对随随机机抽抽取取的的一一家家超超市市进进行行了了调调查查。调调查查员员在在某某天天对对5050名名顾顾客客购购买买饮饮料料的的品品牌牌进进行行了了记记录录,如如果
30、果一一个个顾顾客客购购买买某某一一品品牌牌的的饮饮料料,就就将将这这一一饮饮料料的的品品牌牌名名字字记记录录一一次次 。右边就是记录的原始数据右边就是记录的原始数据绿色绿色绿色绿色健康饮品健康饮品健康饮品健康饮品例题分析结果例题分析结果MMo o可口可乐可口可乐可口可乐可口可乐用用Excel求出求出 Mo插入插入插入插入函数函数函数函数 modemode中位数中位数中位数中位数 Me (median)1.排序后处于中间位置上的值MMe e50%50%2.不受极端值的影响不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数
31、据4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即中位数中位数 (位置的确定位置的确定)原始数据:原始数据:分组数据:分组数据:数值型数据的中位数数值型数据的中位数【例例】 9个家庭的人均月收入数据原始数据原始数据: 15007507801080850960200012501630排排 序序: 7507808509601080 1250150016302000位位 置置:1234 56789中位数中位数 1080数值型数据的中位数数值型数据的中位数【例例】:10个家庭的人均月收入数据排排 序序: 660 750780850960 10801250150016
32、302000位位 置置:1234 5 678910中位数的计算:分组资料中位数的计算:分组资料*l对分组资料的一种计算方法:中位数的计算:例子中位数的计算:例子l根据考试成绩的数据计算考试成绩的中位数。-42合合计42490以上以上381580-90231270-8011860-703360以下以下累计频数累计频数频频数数成成绩第第21个个数所在数所在的组的组分组数据:分组数据:四分位数四分位数四分位数四分位数 (quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QQL LQQMMQQU U25%25%25%
33、25%四分位数四分位数 (位置的确定位置的确定)原始数据:原始数据:分组数据:分组数据:数值型数据的四分位数数值型数据的四分位数【例例】:9个家庭的人均月收入数据原始数据原始数据: 15007507801080850960200012501630排排 序序: 750780 850960108012501500 16302000位位 置置:12 34567 89数值型数据的四分位数数值型数据的四分位数【例例】:10个家庭的人均月收入数据排排 序序: 660 750 780850960108012501500 16302000位位 置置:12 34 5678 910位置 2 2.75 3 数值 7
34、50 7800.75(780-750)分位数分位数l与中位数性质相似。l四分位数、十分位数、百分位数l十分位数(Decile):D1D2D9l百分位数(percentile):P1P2P99均值均值均值均值 (mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据算术平均数算术平均数设设一组数据为:一组数据为:x x11,x x22,x xn n总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值加权均值加权均值 (weighted mean)设设一组数据为:一组数据为:x x11,x
35、 x22,x xn n相应的频数为:相应的频数为:f f11, f f22,f fk k总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值加权均值加权均值 (例题分析例题分析)l均值均值 (数学性质数学性质)l1. 各变量值与均值的离差之和等于零2.各变量值与均值的离差平方和最小几何均值几何均值几何均值几何均值 (geometric mean)1.n 个变量值乘积的 n 次方根2.适用于对比率数据的平均3.主要用于计算平均增长率4.计算公式为5.5.可看作是均值的一种变形可看作是均值的一种变形几何均值几何均值 (例题分析例题分析)【例例】一位投资者购持有一种股票,在2000年、2
36、001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率是多少?算术平均:算术平均:算术平均:算术平均: 几何平均:几何平均:几何平均:几何平均:切尾均值切尾均值切尾均值切尾均值 (trimmed Mean)1.去掉大小两端的若干数值后计算中间数据的均值2.在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用3.计算公式为n n 表示观察值的个数; 表示切尾系数, a=0,切尾均值=算术平均数a1/2,切尾均值=中位数切尾均值切尾均值 (例题分析例题分析)【例例】某次比赛共有11名评委,对某位歌手的给分分别是:经
37、整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为去掉一个最高去掉一个最高去掉一个最高去掉一个最高分和一个最低分和一个最低分和一个最低分和一个最低分,分,分,分,a a 取取取取1/111/11 众数、中位数和均值的比较众数、中位数和均值的比较一个故事一个故事l周先生开办了一个小工厂。周先生开办了一个小工厂。管理人员:周先生、他的弟弟和六个亲戚。管理人员:周先生、他的弟弟和六个亲戚。工作人员:工作人员:5个领工和个领工和10个工人。个工人。工厂经营得很顺利,现在需要招聘一个新工人。工厂经营得很顺利,现在需要招聘一个新工人。现在周先生正在面试王先生。现
38、在周先生正在面试王先生。周:我们这里报酬不错。周:我们这里报酬不错。平均薪金平均薪金是每周是每周300元。你在元。你在学徒期间每周得学徒期间每周得75元,不过很快就可以加工资。元,不过很快就可以加工资。王先生工作了几天之后,要求见厂长。王先生工作了几天之后,要求见厂长。王:周厂长你欺骗我!我已经找其他工人核对过了没王:周厂长你欺骗我!我已经找其他工人核对过了没有一个人的工资超过每周有一个人的工资超过每周100元。平均工资怎么可能是元。平均工资怎么可能是一周一周300元呢?元呢?周:啊,王先生,不要激动。平均工资真的是周:啊,王先生,不要激动。平均工资真的是300元。元。我要向你证明这一点。我要
39、向你证明这一点。周先生每周付出的酬金如下:周先生每周付出的酬金如下:l我得我得2400元元l我弟弟得我弟弟得1000元元l我的六个亲戚每人得我的六个亲戚每人得250元,元,250*6=1500l五个领工每人得五个领工每人得200元,元,10个工人每人个工人每人100元,元,共共2000l总共是每周总共是每周6900元,付给元,付给23个人个人周先生拿出了工资表周先生拿出了工资表平均工资:平均工资:6900/23=3006900/23=300元元对话继续:对话继续:王:?你是对的,平均工资是每周王:?你是对的,平均工资是每周300元。可好像你还是蒙元。可好像你还是蒙骗了我。骗了我。周:我不同意!
40、你实在是不明白。我把工资表都告诉你了,周:我不同意!你实在是不明白。我把工资表都告诉你了,看,工资的中位数是看,工资的中位数是200元,可这不是平均工资,而是中元,可这不是平均工资,而是中等工资。等工资。王:每周王:每周100元又是怎么回事呢?元又是怎么回事呢?周:那是众数,是大多数人挣的工资。老弟,你的问题是出周:那是众数,是大多数人挣的工资。老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。在你不懂平均数、中位数和众数之间的区别。王:好,现在我可懂了。我辞职,我要先去学习统计了王:好,现在我可懂了。我辞职,我要先去学习统计了?众数、中位数和均值的关系众数、中位数和均值的关系左偏分布
41、左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值 = = = 中位数中位数中位数中位数中位数中位数 = = 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值众数、中位数、均值的众数、中位数、均值的特点和应用特点和应用1.众数l不受极端值影响l具有不惟一性l数据分布偏斜程度较大时应用2.中位数l不受极端值影响l数据分布偏斜程度较大时应用
42、3.均值l易受极端值影响l数学性质优良l数据对称分布或接近对称分布时应用2.6 分布离散程度的测度一、极差一、极差二、内距二、内距三、方差和标准差三、方差和标准差四、离散系数四、离散系数极差极差 R (range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010 R =max(xi)-min(xi)5.计算公式为计算公式为内距内距 (Inter-Quartile Range,IQR)1.也称四分位差2.上四分位数与下四分位数之差l内内 距距= Q3 Q13.反映了中间50%数据的离散程
43、度4.不受极端值的影响5.可用于衡量中位数的代表性方差和标准差方差和标准差方差和标准差方差和标准差 (Variance and Standard deviation)l1.离散程度的测度值之一l2.最常用的测度值l3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差46810124681012 x x = = 8 8总体方差和标准差总体方差和标准差 (Population variance and Standard deviation)l未分组数据:组距分组数据组距分组数据组距分组数据组距分组数据:未分组数
44、据未分组数据未分组数据未分组数据:组距分组数据组距分组数据组距分组数据组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式样本方差和标准差样本方差和标准差 (simple variance and standard deviation)l未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:注意:样本方差用自样本方差用自样本方差用自样本方差
45、用自由度由度由度由度nn-1-1去除去除去除去除!样本方差样本方差 自由度自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值4.样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2
46、时,它是2的无偏估计量例:方差和标准差例:方差和标准差l某工会随机调查了5名工人上月的加班时间如下表,计算数据的方差和标准差。加班小时数绝对离差离差平方13130018185251212111515247 7636合计合计1466离散系数离散系数离散系数离散系数 (coefficient of variation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5.计算公式为离散系数离散系数 (例题分析例题分析)某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)
47、产品销售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【 例例 】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售售数数据如表。试比较产品销售额与销售利润的离散程度。据如表。试比较产品销售额与销售利润的离散程度。离散系数离散系数 (例题分析例题分析)结结论论: 计算结果表明,v1=198) Stem width: 10.00 Each leaf: 1 case(s)箱线图箱线图 (box plot)1.用于显示未分组的原始数据的分布2
48、.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成3.箱线图的绘制方法l首先找出一组数据的5个特征值,即最最大大值值、最最小小值值、中中位位数数Me和两个四四分分位位数数(下四分位数QL和上四分位数QU)l连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接箱线图箱线图 (箱线图的构成箱线图的构成)中位数中位数QUQLLX最大值最大值X最小值最小值4681012简单箱线图简单箱线图简单箱线图简单箱线图箱线图箱线图 (例题分析例题分析)最小值最小值最小值848484最大值最大值最大值128128128中位数中位数中位数105105105下四分位数下四分位数下四分位数96969
49、6上四分位数上四分位数上四分位数109109109808590951001051101501201251308085909510010511015012012513080859095100105110150120125130周加工零件数的箱线图周加工零件数的箱线图周加工零件数的箱线图周加工零件数的箱线图分布的形状与箱线图分布的形状与箱线图 对称分布对称分布对称分布对称分布对称分布对称分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU右偏分布右偏分布右偏分
50、布右偏分布右偏分布右偏分布Q QQL LL 中位数中位数中位数中位数中位数中位数 Q QQU UU不同分布的箱线图不同分布的箱线图不同分布的箱线图不同分布的箱线图未分组数据未分组数据多批数据箱线图多批数据箱线图 (例题分例题分析析)【例例例例】 从从某某大大学学经经济济管管理理专专业业二二年年级级学学生生中中随随机机抽抽取取1111人人 , 对对 8 8门门 主主要要课课程程的的考考试试成成绩绩进进行行调调查查,所所得得结结果果如如表表。试试绘绘制制各各科科考考试试成成绩绩的的批批比比较较箱箱线线图图,并并分分析析各各科科考考试试成成绩绩的的分分布布特特征征11名学生各科的考试成绩数据名学生各
51、科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据未分组数据多批数据箱线图
52、多批数据箱线图 (例题分析例题分析)8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图1111名学生名学生名学生名学生8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图min-max25%-75%medianvalue455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据未分组数据多批数据箱线图多批数据箱线图 (例题分例题分析析)2.9 统计表与统计图一、统计表一、统计表二、统计图二、统计图统计表统计表l统计表是显示统计数据的基本工具。l表头l行标题l
53、列标题l数字资料l下方:表外附加l三线表统计表的构成统计表的构成 表表 3-1 2003年我国就业基本情况年我国就业基本情况 项目项目20012002 2003经济活动人口(万人)就业人员合计(万人)城镇登记失业人数(万人)城镇登记失业率() 74432730256813.675360737407704.076075744328004.3 资料来源:2004年统计年鉴中国统计出版社注:1990年至2000年,就业人员总计、城镇和乡村就业人员小计资料根据第五次全国人口普查资料重新调整,2001年及以后资料根据人口变动抽样调查资料推算,因此分地区、分类型、分行业的分项资料相加不等于总计。行行标标题
54、题表头表头列列标标题题数数字字资资料料附加附加统计图统计图l统计图是统计数据的直观表现形式。如何用图形来表示数据?常用统计图常用统计图数据类型数据类型品质数据品质数据定量数据定量数据条条形形图图饼饼 图图线线 图图茎茎叶叶图图箱箱线线图图直直方方图图条形图(条形图(Bar Chart)l用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。2003我国就业人员情况圆形图圆形图 (Pie Chart)l也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占比例等。2003年我国国内生产总值中各产业比重线
55、图线图(Line Chart) l利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据,以反映事物发展变化的规律和趋势。1996年-2003年城乡居民人民币储蓄存款年底余额 雷达图雷达图l适合多维数据即多个变量的图示,在显示或对比各变量的数值总和时十分有用。l可用于研究多个样本之间的相似程度。2003年我国城镇和农村居民家庭平均每人全年消费性支出构成年我国城镇和农村居民家庭平均每人全年消费性支出构成 绘制统计图时的注意事项绘制统计图时的注意事项l1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。l时间一般绘在横轴,指标数据绘在纵轴
56、。l长宽比例要适当 ,其长宽比例大致为10:7。l一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。绘制统计图时的注意事项绘制统计图时的注意事项l2、图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。l3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。l4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。下图增长速度惊人。下图增长速度惊人。上图增长速度缓慢。上图增长速度缓慢。不恰当的统计图形举例:纵横比例不
57、恰当的统计图形举例:纵横比例不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。不恰当的统计图形举例:三维效果不恰当的统计图形举例:三维效果不恰当的统计图形举例:图形类型不恰当的统计图形举例:图形类型1960: $1.001970: $1.601980: $3.101990: $3.80Minimum Wage不好的图形不好的图形好的图形好的图形Minimum Wage0241960197019801990$不恰当的统计图形举例:压缩纵轴不恰当的统计图形举例:压缩纵轴Quarterly Sales不好的图形不好的图形0100200Q1Q2Q3Q4$好的图形好的图形Quarterly Sales02550Q1Q2Q3Q4$不恰当的统计图形举例:纵轴无零点不恰当的统计图形举例:纵轴无零点好的图形好的图形Monthly Sales不好的图形不好的图形36394245JFMA M J$Monthly Sales 0394245JFMAMJ$36本章小结本章小结l知识点l描述性统计的方法l要求l分布集中趋势的测度l分布离散程度的测度l学习运用工具制作统计图作业作业l课后思考与练习:练习题114l统计学实验一: