《第2章数据的描述统计学统计学第三版贾俊平培训资料》由会员分享,可在线阅读,更多相关《第2章数据的描述统计学统计学第三版贾俊平培训资料(92页珍藏版)》请在金锄头文库上搜索。
1、统计学统计学STATISTICS2 - 1第2章数据的描述统计学统计学第三版贾俊平 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life, there is hope。有生命必有希望。有生命必有希望统计学统计学STATISTICS2 - 2学习目标学习目标1.了解数据的计量尺度了解数据的计量尺度2.了解统计数据的来源和数据的质量要求了解统计数据的来源和数据的质量要求3.掌握数值型数据的整理方法掌握数值型数据的整理方法4.掌握数据集中趋势和离散程度的测度方法掌握数据集中趋势和离散程度的测度方法5.掌握茎叶图和箱线图的制作方法掌握茎
2、叶图和箱线图的制作方法6.掌握分布偏态与峰度的测度方法掌握分布偏态与峰度的测度方法7.掌握统计表和统计图的使用掌握统计表和统计图的使用统计学统计学STATISTICS2.1 数据的计量尺度数据的计量尺度一、列名尺度一、列名尺度二、顺序尺度二、顺序尺度三、间隔尺度三、间隔尺度四、比率尺度四、比率尺度统计学统计学STATISTICS2 - 4四种计量尺度四种计量尺度统计学统计学STATISTICS2 - 5列名尺度列名尺度(Nominal scale)1.也称名义尺度或分类尺度2.计量层次最低3.对事物进行平行的分类4.各类别可以指定数字代码表示5.使用时必须符合类别穷尽和互斥的要求6.数据表现为
3、“类别”7.具有=或的数学特性统计学统计学STATISTICS2 - 6顺序尺度顺序尺度(Ordinal scale)1.也称定序尺度2.对事物分类的同时给出各类别的顺序3.比定类尺度精确4.未测量出类别之间的准确差值5.数据表现为“类别”,但有序6.具有或的数学特性统计学统计学STATISTICS2 - 7间隔尺度间隔尺度(Interval scale)1.也称定距尺度2.对事物的准确测度2. 比定序尺度精确3. 数据表现为“数值”4. 没有绝对零点5. 具有 + 或 - 的数学特性统计学统计学STATISTICS2 - 8比率尺度比率尺度(Ratio scale)1.也称定比尺度2.对事物
4、的准确测度2. 与定距尺度处于同一层次3. 数据表现为“数值”4. 有绝对零点5. 具有 或 的数学特性统计学统计学STATISTICS2 - 9四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较定类尺度定类尺度 定序尺度定序尺度 定距尺度定距尺度 定比尺度定比尺度 分分类类( = , ) 排序排序( ) 间间距距( + ,- ) 比比值值( , ) 计量尺度计量尺度数学特性数学特性“”表示表示该该尺度所具有的特性尺度所具有的特性统计学统计学STATISTICS2.2 统计数据的来源数据的来源一、间接获取的数据一、间接获取的数据 二、直
5、接获取的数据二、直接获取的数据 统计学统计学STATISTICS间接取得的数据间接取得的数据统计学统计学STATISTICS2 - 12间接取得的数据间接取得的数据InternetInternethttp/http/WWW.WWW.中国统计年中国统计年中国统计年中国统计年鉴鉴鉴鉴20012001中中中中国国国国人人人人口口口口统统统统计计计计年年年年鉴鉴鉴鉴中中中中国国国国市市市市场场场场统统统统计计计计年年年年鉴鉴鉴鉴世世世世界界界界发发发发展展展展报报报报告告告告世世世世界界界界经经经经济济济济年年年年检检检检工工工工业业业业普普普普查查查查数数数数据据据据中国统计出版社1.1.统统计计部
6、部门门和和政政府府部部门门公公布布的的有有关关资资料料,如各类统计年鉴如各类统计年鉴2.2.各各类类经经济济信信息息中中心心、信信息息咨咨询询机机构构、专专业调查机构等提供的数据业调查机构等提供的数据3.3.各各类类专专业业期期刊刊、报报纸纸、书书籍籍所所提提供供的的资资料料4.4.各各种种会会议议,如如博博览览会会、展展销销会会、交交易易会会及及专专业业性性、学学术术性性研研讨讨会会上上交交流流的的有有关关资料资料5.5.从互联网或图书馆查阅到的相关资料从互联网或图书馆查阅到的相关资料 统计学统计学STATISTICS2 - 13提供统计数据的部分政府网站提供统计数据的部分政府网站中国政府及
7、相关机构中国政府及相关机构中国政府及相关机构中国政府及相关机构 网址网址网址网址数据内容数据内容数据内容数据内容国家统计局国家统计局http:/http:/统计年鉴、统计统计年鉴、统计月报等月报等国务院发展研究中心国务院发展研究中心信息网信息网http:/http:/宏观经济、财经、宏观经济、财经、货币金融等货币金融等 中国经济信息网中国经济信息网http:/http:/经济信息及各类经济信息及各类网站网站华通数据中心华通数据中心http:/http:/国家统计局授权国家统计局授权的数据中心的数据中心中国决策信息网中国决策信息网http:/http:/决策知识及案例决策知识及案例三农数据网三农
8、数据网http:/http:/三农信息、论坛三农信息、论坛及相关网站及相关网站统计学统计学STATISTICS2 - 14提供统计数据的部分政府网站提供统计数据的部分政府网站美国政府机构美国政府机构美国政府机构美国政府机构 网址网址网址网址数据内容数据内容数据内容数据内容人口普查局人口普查局http:/www.census.gohttp:/www.census.gov v人口和家庭等人口和家庭等联邦储备局联邦储备局http:/www.bog.frb.fehttp:/www.bog.frb.fed.usd.us货币供应、信货币供应、信誉、汇率等誉、汇率等预算编制办公室预算编制办公室http:/w
9、ww.whitehoushttp:/www.whitehouse.gov/ombe.gov/omb财政收入、支财政收入、支出、债券等出、债券等商务部商务部http:/www.doc.govhttp:/www.doc.gov商业、工业等商业、工业等统计学统计学STATISTICS直接取得的数据直接取得的数据统计学统计学STATISTICS2 - 16普查普查(census) 1.1.为特定目的专门组织的非经常性全面调查2. 通常是一次性或周期性的3. 一般需要规定统一的标准调查时间4. 数据的规范化程度较高5. 应用范围比较狭窄总体总体统计学统计学STATISTICS2 - 17抽样调查抽样调查
10、(sampling survey) 1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法 总体总体总体总体随机样本随机样本随机样本随机样本 2. 具有经济性、时 效性强、适应面广、准确性高等特点统计学统计学STATISTICS2.3 统计数据的质量数据的质量统计学统计学STATISTICS2 - 19数据的误差数据的误差统计学统计学STATISTICS2 - 20抽样误差抽样误差(sampling error)1.由于抽样的随机性所带来的误差 2.所有样本可能的结果与总体真值之间的平均性差异 3.影响抽样误差大小的因素样本量的大小样本量的大小总体的变异
11、性总体的变异性统计学统计学STATISTICS2 - 21非抽样误差非抽样误差(non-sampling error)1.相对于抽样误差而言2.除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中概率抽样,非概率抽样,全面性调查概率抽样,非概率抽样,全面性调查4.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差统计学统计学STATISTICS2 - 22误差的控制误差的控制1.抽样误差可计算和控制2.非抽样误差的控制调查员的挑选调查员的挑选调查员的培训调查员的培训督导员的调查专业水平督导员的调查专业水平调查过程控制调查过程控制 调查结果进行检验、
12、评估调查结果进行检验、评估 现场调查人员进行奖惩的制度现场调查人员进行奖惩的制度统计学统计学STATISTICS2.4 统计数据的整理数据的整理一、统计数据的分组一、统计数据的分组 二、次数分配二、次数分配三、次数分配直方图三、次数分配直方图四、洛伦茨曲线四、洛伦茨曲线统计学统计学STATISTICS统计数据的分组统计数据的分组统计学统计学STATISTICS2 - 25组距分组组距分组 (要点要点)1.将变量值的一个区间作为一组2.适合于连续变量3.适合于变量值较多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距分组 统计学统计学STATISTICS2 - 26组距分组
13、组距分组(步骤步骤)1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的2.确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距组距( 最大值最大值 - 最小值最小值) 组数组数3.统计出各组的频数并整理成频数分布表 统计学统计学STATISTICS2 - 27组距分组组距分组(几个概念几个概念)1. 下限下限(low limit) :一个组的最小值2. 上限上限(upper limit) :一个组的最大值3. 组距组距(class width) :上限与下限之差4. 组中值组中值(class midpoint)
14、 :下限与上限之间的中点值下限值下限值+上限值上限值2组中值组中值 =统计学统计学STATISTICS2 - 28次数分配表的编制次数分配表的编制(例题分析例题分析)【例例例例】某某车车间间3030名名工工人人每每周周加加工工某某种种零零件件件件数数如如右右表表试试对对 数数 据据 进进 行行分组。分组。 统计学统计学STATISTICS2 - 29次数分配表次数分配表统计学统计学STATISTICS2 - 30使用使用Excel频数函数频数函数 (FREQUENCY)ExcelExcel的的“ “直直方方图图” ”工工具具的的缺缺陷陷是是:频频数数分分布布和和直直方方图图没没有有与与数数据据
15、联联系系起起来来,这这样样,如如果果你你改改变变任任何何一一个个数据,频数分布表和直方图不会跟着改变数据,频数分布表和直方图不会跟着改变使使用用ExcelExcel中中的的统统计计函函数数“ “FREQUENCYFREQUENCY” ”来来创创建建频频数数分分布布表表和和直直方方图图,可可解解决决这这一一问问题题。创创建建频频数数分分布布表的步骤是表的步骤是 选选择择与与接接受受区区域域相相临临近近的的单单元元格格区区域域,作作为为频频数数分分布布表表输出的区域输出的区域 选择统计函数中的选择统计函数中的“ “FREQUENCYFREQUENCY” ”函数函数 在在对对话话框框Date-arr
16、ayDate-array后后输输入入数数据据区区域域,在在Bins-arrayBins-array后后输输入接受区域入接受区域 同时按下同时按下ctrl-shift-Enterctrl-shift-Enter组合键,即得到频数分布组合键,即得到频数分布统计函数统计函数统计函数统计函数FREQUENCYFREQUENCY统计学统计学STATISTICS次数分配直方图次数分配直方图Excel统计学统计学STATISTICS2 - 32直方图直方图(histogram)1.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面面积积来表示各组的频数分布2.在直角坐标中,用横轴表示数据分组,纵轴表
17、示频数或频率,各组与相应的频数就形成了一个矩形,即直方图3.直方图下的总面积等于1统计学统计学STATISTICS2 - 33分组数据的图示分组数据的图示(直方图的绘制直方图的绘制)某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图 我我一一眼眼就就看看出出来来了了,周周加加工工零零件件在在100100110110之之 间间 的的 人人数最多数最多! !统计学统计学STATISTICS2 - 34折线图折线图(frequency polygon)1.1.折线图也称频数多边形图折线图也称频数多边形图2.2.是是在在直直方方图图的的基基础础上上
18、,把把直直方方图图顶顶部部的的中中点点( (组组中值中值) )用直线连接起来,再把原来的直方图抹掉用直线连接起来,再把原来的直方图抹掉3.3.折线图的两个终点要与横轴相交,具体的做法是折线图的两个终点要与横轴相交,具体的做法是 第第一一个个矩矩形形的的顶顶部部中中点点通通过过竖竖边边中中点点(即即该该组组频频数数一一半半的的位位置置)连连接接到到横横轴轴,最最后后一一个个矩矩形形顶顶部部中中点点与其竖边中点连接到横轴与其竖边中点连接到横轴 折折线线图图下下所所围围成成的的面面积积与与直直方方图图的的面面积积相相等等,二二者者所表示的频数分布是一致的所表示的频数分布是一致的统计学统计学STATI
19、STICS2 - 35分组数据的图示分组数据的图示(折线图的绘制折线图的绘制)折线图与直方图折线图与直方图下的面积相等!下的面积相等!某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图 统计学统计学STATISTICS2 - 36次数分配的类型次数分配的类型对称分布对称分布对称分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布正正正J J J型分布型分布型分布反反反J J J型分布型分布型分布U UU型分布型分布型分布几种常见的频数分布几种常见的频数分布几种常见的频数分布几种常见的频数分布统计学统计学STATISTICS洛伦茨曲线洛伦茨曲
20、线统计学统计学STATISTICS2 - 38洛伦茨曲线洛伦茨曲线1.1.20世纪初美国经济学家、统计学家洛伦茨(M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成2.2.描述收入和财富分配性质3.3. 的曲线分析该国家或地区4. 分配的平均程度 AB累积的人口百分比累积的人口百分比 累累积积的的收收入入百百分分比比 绝对公平线绝对公平线 统计学统计学STATISTICS2 - 39基尼系数基尼系数 1.1.2020世世纪纪初初意意大大利利经经济济学学家家基基尼尼(G. (G. Gini)Gini)根根据据洛洛伦伦茨茨曲曲线线给给出出了了衡收入分
21、配平均程度的指标衡收入分配平均程度的指标2.2. A A表示实际收入曲线与绝对平均线之间的面积表示实际收入曲线与绝对平均线之间的面积3.3.B B表示实际收入曲线与绝对不平均线之间的面积表示实际收入曲线与绝对不平均线之间的面积4.4.如果如果A=0A=0,则基尼系数,则基尼系数=0=0,表示收入绝对平均,表示收入绝对平均5.5.如果如果B=0B=0,则基尼系数,则基尼系数=1=1,表示收入绝对不平均,表示收入绝对不平均6.6.基尼系数在基尼系数在0 0 和和1 1之间取值之间取值7.7.一一般般认认为为,基基尼尼系系数数若若小小于于0.20.2,表表明明分分配配平平均均;基基尼尼系系数数在在0
22、.20.2至至0.40.4之之间间是是比比较较适适当当的的,即即一一个个社社会会既既有有效效率率又又没没有有造造成成极极大大的的分分配配不不公公;基基尼尼系系数数在在0.40.4被被认认为为是是收收入入分分配配不不公公平平的的警警戒线,超过了戒线,超过了0.40.4应该采取措施缩小这一差距。应该采取措施缩小这一差距。 AB统计学统计学STATISTICS2.5 分布集中趋势的测度分布集中趋势的测度一、众数一、众数二、中位数二、中位数三、四分位数三、四分位数四、均值四、均值五、几何均值五、几何均值六、切尾均值六、切尾均值七、众数、中位数和均值的比较七、众数、中位数和均值的比较统计学统计学STAT
23、ISTICS众数众数统计学统计学STATISTICS2 - 42众数众数(mode)1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据统计学统计学STATISTICS2 - 43众数众数(不惟一性不惟一性)无众数无众数原始数据: 10 5 9 12 6 8一个众数一个众数原始数据: 6 5 9 8 5 5多于一个众数多于一个众数原始数据: 25 28 28 36 42 42统计学统计学STATISTICS中位数中位数统计学统计学STATISTICS2 - 45中位数中位数(med
24、ian)1.1.排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%2.不受极端值的影响不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即统计学统计学STATISTICS2 - 46中位数中位数(位置的确定位置的确定)原始数据:原始数据:顺序数据:顺序数据:统计学统计学STATISTICS2 - 47数值型数据的中位数数值型数据的中位数 (9个数据的算例个数据的算例)【例】【例】 9个家庭的人均月收入数据原始数据原始
25、数据原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排 序序序序: : 750 780 850 960 750 780 850 960 1080 1080 1250 1250 1500 1630 20001500 1630 2000位位位位 置置置置: : 1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9中位数中位数 1080统计学统计学STATISTICS2 - 48数值型数据的中位数数值型数据的中位数 (10个数据的算例个数据的
26、算例)【例】:【例】:10个家庭的人均月收入数据排排排排 序序序序: : 660660 750 780 850 750 780 850 960 1080960 1080 1250 1500 1630 2000 1250 1500 1630 2000位位位位 置置置置: : 1 2 3 4 1 2 3 4 5 65 6 7 8 9 10 7 8 9 10 统计学统计学STATISTICS四分位数四分位数统计学统计学STATISTICS2 - 50四分位数四分位数(quartile)1.1.排序后处于25%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分
27、类数据QQL LQQMMQQU U25%25%25%25%统计学统计学STATISTICS2 - 51四分位数四分位数(位置的确定位置的确定)原始数据:原始数据:分组数据:分组数据:统计学统计学STATISTICS2 - 52数值型数据的四分位数数值型数据的四分位数 (9个数据的算例个数据的算例)【例】:【例】:9个家庭的人均月收入数据原始数据原始数据原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排 序序序序: : 750 750 780 850780
28、 850 960 1080 1250 960 1080 1250 1500 16301500 1630 2000 2000位位位位 置置置置: : 1 1 2 32 3 4 4 5 5 6 6 7 87 8 9 9统计学统计学STATISTICS2 - 53数值型数据的四分位数数值型数据的四分位数 (10个数据的算例个数据的算例)【例】:【例】:10个家庭的人均月收入数据排排排排 序序序序: : 660660 750 780750 780 850 960 1080 1250 850 960 1080 1250 1500 16301500 1630 2000 2000位位位位 置置置置: : 1
29、 1 2 32 3 4 4 5 65 6 7 7 8 98 9 10 10 统计函数统计函数统计函数统计函数QUARTILEQUARTILE统计学统计学STATISTICS均值均值统计学统计学STATISTICS2 - 55均值均值(mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据统计学统计学STATISTICS2 - 56简单均值简单均值(simple mean)设一组数据为:设一组数据为: x x1 1 ,x x2 2 , ,x xn n总体均值总体均值总体均值总体均值样本均值样本均值样
30、本均值样本均值统计学统计学STATISTICS2 - 57加权均值加权均值(weighted mean)设一组数据为:设一组数据为: x x1 1 ,x x2 2 , ,x xn n相应的频数为:相应的频数为: f f1 1 , f f2 2 , ,f fk k总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值统计学统计学STATISTICS2 - 58加权均值加权均值 (例题分析例题分析) 统计学统计学STATISTICS2 - 59均值均值(数学性质数学性质)1.各变量值与均值的离差之和等于零 2. 各变量值与均值的离差平方和最小统计学统计学STATISTICS几何均值几何均
31、值统计学统计学STATISTICS2 - 61几何均值几何均值(geometric mean)1.1. n n 个变量值乘积的个变量值乘积的 n n 次方根次方根2.2.适用于对比率数据的平均适用于对比率数据的平均3.3.主要用于计算平均增长率主要用于计算平均增长率4.4.计算公式为计算公式为5. 5. 可看作是均值的一种变形可看作是均值的一种变形统计学统计学STATISTICS2 - 62几何均值几何均值 (例题分析例题分析) 【例例例例】一一位位投投资资者者购购持持有有一一种种股股票票,在在20002000年年、20012001年年、20022002年年和和20032003年年收收益益率率
32、分分别别为为4.5%4.5%、2.1%2.1%、25.5%25.5%、1.9%1.9%。计计算算该该投投资资者者在在这这四四年年内内的的平平均均收收益率益率 算术平均:算术平均:算术平均:算术平均: 几何平均:几何平均:几何平均:几何平均:统计学统计学STATISTICS切尾均值切尾均值统计学统计学STATISTICS2 - 64切尾均值切尾均值(trimmed Mean)1. 去掉大小两端的若干数值后计算中间数据的均值2.在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用3.计算公式为n n 表示观察值的个数;表示观察值的个数; 表示切尾系数,表示切尾系数, 统计学统计学
33、STATISTICS2 - 65切尾均值切尾均值 (例题分析例题分析) 【例】【例】【例】【例】谋次比赛共有谋次比赛共有1111名评委,对某位歌手的给分分别是:名评委,对某位歌手的给分分别是: 经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取1/111/11 统计学统计学STATISTICS众数、中位数和均值的比较众数、中位数和均值的比较统计学统计学STATISTICS2 - 67众数、中位数和均值的关系众数、中位数和均值的关系
34、左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值 = = = 中位数中位数中位数中位数中位数中位数 = = 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值统计学统计学STATISTICS2 - 68众数、中位数、均值的众数、中位数、均值的众数、中位数、均值的众数、中位数、均值的特点和应用特点和应用特点和应用特点和应用1.1.
35、众数众数 不受极端值影响不受极端值影响 具有不惟一性具有不惟一性 数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用2.2.中位数中位数 不受极端值影响不受极端值影响 数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.3.均值均值 易受极端值影响易受极端值影响 数学性质优良数学性质优良 数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用统计学统计学STATISTICS2.6 分布离散程度的测度分布离散程度的测度一、极差一、极差二、内距二、内距三、方差和标准差三、方差和标准差四、离散系数四、离散系数统计学统计学STATISTICS2 - 70极差极差(range)1.1.一
36、组数据的最大值与最小值之差一组数据的最大值与最小值之差2.2.离散程度的最简单测度值离散程度的最简单测度值3.3.易受极端值影响易受极端值影响4.4.未考虑数据的分布未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010 R = max(xi) - min(xi)5.计算公式为计算公式为统计学统计学STATISTICS2 - 71内距内距(Inter-Quartile Range,IQR) 1.也称四分位差2.上四分位数与下四分位数之差 内内 距距= Q3 Q13.反映了中间50%数据的离散程度4.不受极端值的影响5.可用于衡量中位数的代表性统计学统计学STATISTI
37、CS方差和标准差方差和标准差统计学统计学STATISTICS2 - 73方差和标准差方差和标准差(Variance and Standard deviation)1. 离散程度的测度值之一2. 最常用的测度值3. 反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 124 6 8 10 12 x x = = 8.38.3统计学统计学STATISTICS2 - 74总体方差和标准差总体方差和标准差 (Population (Population variancevariance and and
38、Standard deviationStandard deviation) )未分组数据:未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式统计学统计学STATISTICS2 - 75样本方差和标准差样本方差和标准差 (simple (simple variancevariance and and standard deviationstandard deviation) )未分组数据:未分组数据:组距分组数据:组距分组数据:未分组数
39、据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n nn-1-1-1去除去除去除! !统计学统计学STATISTICS2 - 76样本方差样本方差自由度自由度(degree of freedom)1.1.一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数2.2.当当样样本本数数据据的的个个数数为为 n n 时时,若若样样本本均均值值 x x 确确定定后后, ,只只有有n n-1-1个个数数据据可可
40、以以自自由由取取值值,其其中中必必有有一一个个数数据据则不能自由取值则不能自由取值3.3.例例如如,样样本本有有3 3个个数数值值,即即x x1 1=2=2,x x2 2=4=4,x x3 3=9=9,则则 x x = = 5 5。当当 x x = = 5 5 确确定定后后,x x1 1,x x2 2和和x x3 3有有两两个个数数据据可可以以自自由由取取值值,另另一一个个则则不不能能自自由由取取值值,比比如如x x1 1=6=6,x x2 2=7=7,那么,那么x x3 3则必然取则必然取2 2,而不能取其他值,而不能取其他值4.4.样样本本方方差差用用自自由由度度去去除除,其其原原因因可可
41、从从多多方方面面解解释释,从从实实际际应应用用角角度度看看,在在抽抽样样估估计计中中,当当用用样样本本方方差差去估计总体方差去估计总体方差 2 2时,它是时,它是 2 2的无偏估计量的无偏估计量统计学统计学STATISTICS离散系数离散系数统计学统计学STATISTICS2 - 78离散系数离散系数(coefficient of variation)1. 标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5. 计算公式为统计学统计学STATISTICS2 - 79离散系数离散系数 (例题分析例题分析)某管理局所属某
42、管理局所属某管理局所属某管理局所属8 8家企业的产品销售数据家企业的产品销售数据家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【 例例例例 】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售售数数据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度统计学统计学STATISTICS2 - 80离散系数离散系数 (例题分析
43、例题分析)结结论论: 计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度 v v1 1= =536.25536.25309.19309.19= =0.5770.577v v2 2= =32.521532.521523.0923.09= =0.7100.710统计学统计学STATISTICS2.7 茎叶图与箱线图茎叶图与箱线图一、茎叶图一、茎叶图二、箱线图二、箱线图统计学统计学STATISTICS2 - 82茎叶图茎叶图(stem-and-leaf display)1.1.用于显示未分组的原始数据的分布用于显示未分组的原始数据的分布2.2.由由“ “茎茎” ”和和“ “叶叶”
44、 ”两两部部分分构构成成,其其图图形形是是由由数数字字组成的组成的3.3.以该组数据的高位数值作树茎,低位数字作树叶以该组数据的高位数值作树茎,低位数字作树叶4.4.树叶上只保留一位数字树叶上只保留一位数字5.5.茎叶图类似于横置的直方图,但又有区别茎叶图类似于横置的直方图,但又有区别直直方方图图可可观观察察一一组组数数据据的的分分布布状状况况,但但没没有有给出具体的数值给出具体的数值茎茎叶叶图图既既能能给给出出数数据据的的分分布布状状况况,又又能能给给出出每一个原始数值,保留了原始数据的信息每一个原始数值,保留了原始数据的信息统计学统计学STATISTICS2 - 83茎叶图茎叶图(例题分析
45、例题分析)统计学统计学STATISTICS2 - 84茎叶图茎叶图(扩展的茎叶图扩展的茎叶图)统计学统计学STATISTICS2 - 85箱线图箱线图(box plot)1.1.用于显示未分组的原始数据的分布2.2.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成3.3.箱线图的绘制方法 首首先先找找出出一一组组数数据据的的5 5个个特特征征值值,即即最最最最大大大大值值值值、最最最最小小小小值值值值、中中中中位位位位数数数数MMe e和和两两个个四四四四分分分分位位位位数数数数( (下下四四分分位位数数QQL L和和上上四分位数四分位数QQU U) 连连接接两两个个四四分分(
46、位位)数数画画出出箱箱子子,再再将将两两个个极极值值点点与箱子相连接与箱子相连接 统计学统计学STATISTICS2 - 86箱线图箱线图(箱线图的构成箱线图的构成)中位数中位数4 46 68 810101212QQU UUQQL LLX X最大值最大值最大值X X最小值最小值最小值简单箱线图简单箱线图简单箱线图简单箱线图统计学统计学STATISTICS2 - 87箱线图箱线图(例题分析例题分析)最小值最小值最小值848484最大值最大值最大值128128128中位数中位数中位数105105105下四分位数下四分位数下四分位数969696上四分位数上四分位数上四分位数10910910980 8
47、5 90 95 100 105 110 150 120 125 13080 85 90 95 100 105 110 150 120 125 13080 85 90 95 100 105 110 150 120 125 130周加工零件数的箱线图周加工零件数的箱线图周加工零件数的箱线图周加工零件数的箱线图统计学统计学STATISTICS2 - 88分布的形状与箱线图分布的形状与箱线图 对称分布对称分布对称分布对称分布对称分布对称分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q QQL LL中位数中位数中位数中位数中位数
48、中位数 Q QQU UU右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布Q QQL LL 中位数中位数中位数中位数中位数中位数 Q QQU UU不同分布的箱线图不同分布的箱线图不同分布的箱线图不同分布的箱线图统计学统计学STATISTICS2 - 89未分组数据未分组数据多批数据箱线图多批数据箱线图 (例题分析例题分析)【例例例例】 从从某某大大学学经经济济管管理理专专业业二二年年级级学学生生中中随随机机抽抽取取1111人人 , 对对 8 8门门 主主要要课课程程的的考考试试成成绩绩进进行行调调查查,所所得得结结果果如如表表。试试绘绘制制各各科科考考试试成成绩绩的的批批比比较较箱箱线线图图,并
49、并分分析析各各科科考考试试成成绩绩的的分分布布特特征征1111名学生各科的考试成绩数据名学生各科的考试成绩数据名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481
50、706972787578918866948085718674687962818155787075687177统计学统计学STATISTICS2 - 90未分组数据未分组数据多批数据箱线图多批数据箱线图(例题分析例题分析)8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图统计学统计学STATISTICS2 - 911111名学生名学生名学生名学生8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图min-max25%-75%median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据未分组数据多批数据箱线图多批数据箱线图 (例题分析例题分析)统计学统计学STATISTICS2 - 92本章小结本章小结1.数据的计量尺度数据的计量尺度 2.统计数据的来源统计数据的来源3.统计数据的质量统计数据的质量4.统计数据的整理统计数据的整理5.分布集中趋势的测度分布集中趋势的测度6.分布离散程度的测度分布离散程度的测度7.茎叶图与箱线图茎叶图与箱线图