《数据的频数分析与展》由会员分享,可在线阅读,更多相关《数据的频数分析与展(60页珍藏版)》请在金锄头文库上搜索。
1、第第3讲讲 数据的图表展示数据的图表展示3.1 3.1 品质数据的图表展示品质数据的图表展示3.2 3.2 数值型数据的图表展示数值型数据的图表展示3.3 3.3 合理使用图表合理使用图表3.13.1、品质数据的频数分析、品质数据的频数分析 . 分类数据分类数据 . 顺序数据顺序数据一、分类数据的频数分析一、分类数据的频数分析. 什么是什么是分类数据?分类数据? 旭日升冰茶旭日升冰茶可口可乐可口可乐旭日升冰茶旭日升冰茶汇源果汁汇源果汁露露露露 露露露露旭日升冰茶旭日升冰茶可口可乐可口可乐露露露露可口可乐可口可乐 旭日升冰茶旭日升冰茶可口可乐可口可乐可口可乐可口可乐百事可乐百事可乐旭日升冰茶旭日
2、升冰茶 可口可乐可口可乐百事可乐百事可乐旭日升冰茶旭日升冰茶可口可乐可口可乐百事可乐百事可乐 百事可乐百事可乐露露露露露露露露百事可乐百事可乐露露露露 可口可乐可口可乐旭日升冰茶旭日升冰茶旭日升冰茶旭日升冰茶汇源果汁汇源果汁汇源果汁汇源果汁 汇源果汁汇源果汁旭日升冰茶旭日升冰茶可口可乐可口可乐可口可乐可口可乐可口可乐可口可乐 可口可乐可口可乐百事可乐百事可乐露露露露汇源果汁汇源果汁百事可乐百事可乐 露露露露可口可乐可口可乐百事可乐百事可乐可口可乐可口可乐露露露露 可口可乐可口可乐旭日升冰茶旭日升冰茶百事可乐百事可乐汇源果汁汇源果汁旭日升冰茶旭日升冰茶例3-3:饮料品牌的市场占有率。随机调查50
3、名顾客,变量:购买饮料的品牌问卷调研后问卷调研后的原始数据的原始数据. 分类数据如何处理?分类数据如何处理?频数频数(frequency) :落在特定类别中的数据个数。Step 1: Step 1: 找频数找频数(frequency)(frequency)。本例:“露露”的频数为5;“可口可乐”的频数为15Step 2: Step 2: 列出频数分布图列出频数分布图(frequency distribution)(frequency distribution)。饮料品牌饮料品牌频数频数 可口可乐可口可乐1515 旭日升冰茶旭日升冰茶1111 百事可乐百事可乐9 9 汇源果汁汇源果汁6 6 露露
4、露露9 9 合合 计计50501)比例(或频率)比例(或频率) :某一类别数据占全部数据的比值。 2)比率(ratio) :样本(或总体)不同类别频率的比值。Step 3: Step 3: 根据频数根据频数(frequency)(frequency),求出相关的指标。,求出相关的指标。3)百分比(percentage) :将比例乘以100得到的数值。饮料品牌频数比例比例百分比百分比(%)(%) 可口可乐150.330 旭日升冰茶110.2222 百事可乐90.1818 汇源果汁60.1212 露露90.1818 合 计5011001)柱形图)柱形图( column chart )Step 4:
5、 Step 4: 频数分布的图形显示。频数分布的图形显示。分类数据的图示分类数据的图示柱形图柱形图( (例题分析例题分析) ) 2)饼图()饼图(pie chart)。)。3)折线图()折线图(line chart)。)。课堂作业:p80 3-1 统计数据的表现形式统计数据的表现形式 (1)绝对数)绝对数: 绝对数绝对数是统计数据的基本表现形式,表明事物(现象)的总体规模或一般水平。 如:如:一地区的总人口、GDP、商品零售额等绝对统计数据的计量单位绝对统计数据的计量单位: 实物单位实物单位(吨、公里、小时) 价值单位价值单位(元、万元)、 复合单位复合单位(吨公里、元/人)(2)相对数)相对
6、数 相对数相对数是两个绝对数的比值,反映事物的相对数量 相对数的表现形式相对数的表现形式: 比例比例、比率比率 比例比例(ProportionProportion) :一个总体中各个部分的数量占一个总体中各个部分的数量占总体数量的比重,通常反映总体的构成或结构总体数量的比重,通常反映总体的构成或结构。 例例5 5:一数量为N的总体被分为K个部分,各部分的数量分别为 Ni,则比例定义为:Ni/N。显然有: 比率比率(Ration) :各不同类别的数量比值。各不同类别的数量比值。1)可以是同一总体中不同部分的数量对比 如:如:总人口中:男性/女性; GDP中:固定资产投资/居民消费 GDP中:三次
7、产业增加值之比 2)可以是同特征在不同时间或空间上的数量比 如:如: 不同年份GDP之比 经济增长率 不同地区GDP之比 两个地区经济水平差异 百分数(百分数(Percentage):):将对比的基数抽象将对比的基数抽象化为化为100100而计算的相对数。而计算的相对数。 练习:例练习:例3.43.4:电脑销售的对比图。:电脑销售的对比图。2、顺序数据的整理与图示11、什么是顺序数据?、什么是顺序数据? 例:例:例:例: “您对您家庭目前的住房状况是否满意?【变量】您对您家庭目前的住房状况是否满意?【变量】您对您家庭目前的住房状况是否满意?【变量】您对您家庭目前的住房状况是否满意?【变量】1
8、1 1 1非常不满意;非常不满意;非常不满意;非常不满意;2 2 2 2不满意;不满意;不满意;不满意;3 3 3 3一般;一般;一般;一般;4 4 4 4满意;满意;满意;满意;5 5 5 5非常满意。非常满意。非常满意。非常满意。 顺序变量顺序变量户数户数百分比百分比 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24241081089393454530308 83636313115151010合合 计计300300100.0100.0 数据具有一定顺序的类别变量称为顺序变量。顺序变量对数据具有一定顺序的类别变量称为顺序变量。顺序变量对应的数据称为顺序数据。应的数
9、据称为顺序数据。22、顺序数据的处理顺序数据的处理3 3) 累积频数:将各类别频数的逐级累加。累积频数:将各类别频数的逐级累加。4 4) 累积频率:将各类别频率的逐级累加。累积频率:将各类别频率的逐级累加。 1 1) 频数图频数图2 2) 频率图频率图同同“分类数据分类数据”相同相同 问题:累积频率的加总和为多少?例例3.5 3.5 顺序数据的频数分布表(甲城市)顺序数据的频数分布表(甲城市)【例例例例】在在一一项项城城市市住住房房问问题题的的研研究究中中,研研究究人人员员在在甲甲乙乙两两个个城城市市各各抽抽样样调调查查300300户户,其其中中的的一一个个问问题题是是:“ “您您对对您您家家
10、庭庭目目前前的的住住房房状状况况是否满意?是否满意? 1 1 非非 常常 不不满满意意;2 2不不满满意意;3 3一一般般;4 4满满意;意;5 5非常满意。非常满意。 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761
11、687530100.092562510合计合计300100.0乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布回答类别回答类别乙城市乙城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合计合计300100.0例例3.5
12、 3.5 顺序数据的频数分布表(乙城市)顺序数据的频数分布表(乙城市)3、甲乙两城市家庭对住房状况评价的折线图、甲乙两城市家庭对住房状况评价的折线图问题:这个折线图是如何做出来的?问题:这个折线图是如何做出来的?243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向上累积向上累积27616830300750100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向上累积向上累积4、“甲城市甲城市”家庭对住房状况评价的家庭对住房状况评价的“累积累积”折线图折线图问题:这个折线图是如何做出来的?问题:这个
13、折线图是如何做出来的?55、甲乙两城市满意度比较的、甲乙两城市满意度比较的环形图环形图 ( (例题例题3.5)3.5)8%36%31%15%7%33%26%21%13%10% 非常不满意 不满意 一般 满意 非常满意 甲乙两城市家庭对住房状况的评价甲乙两城市家庭对住房状况的评价问题:这个折线图是如何做出来的?问题:这个折线图是如何做出来的?环形图和饼图的区别环形图和饼图的区别1.饼图只能显示一个总体(或样本)各部分所占的比例2.环形图则可以同时绘制多个总体(或样本)各部分的比例,每一个总体(或样本)的数据系列为一个环。3.环形图可用于结构比较研究 4.环形图主要用于展示分类和顺序数据5.总体中
14、的每一部分数据用环中的一段表示3.2 数值型数据的图表展示数值型数据的图表展示1. 1. 数据分组和图表展示数据分组和图表展示2. 2. 未分组数据的处理未分组数据的处理(一)为什么要进行数据的分组?(一)为什么要进行数据的分组? 一、一、 通过数据分组展示数据通过数据分组展示数据141159166172177182188196203214143160167173177183189196203215144160168173178184189196205218149161168174178185189196206223150161168174178186190196207225152162170
15、174179186190197208226153163171175179187191197209228153163171175179187192198210233154164172175180187194198210233155165172175180187194200211234156165172176181188195201211234158165172176182188195202213237因为数据太多了(二)数据分组的方法(二)数据分组的方法组距分组组距分组等距分组等距分组不等距距分组不等距距分组分类数据分类数据顺序变量顺序变量(每个(每个datadata自然就归为一组)自然就归为一
16、组)(要对(要对datadata进行归类整合)进行归类整合)单变量值分组单变量值分组1. 1. 将一个将一个“变量值变量值”作为一组作为一组2. 2. 适合于适合于“离散变量离散变量”3. 3. 适合于变量值适合于变量值“较少较少”的情况的情况满意满意不太满意不太满意不满意不满意非常不满意非常不满意组组1组组1组组2组组3组组4组距分组组距分组1.将变量值的一个区间作为一组2.适合于连续变量3.适合于变量值较多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距分组 组组1组组1组组2组组3组组43、组距分组的步骤组距分组的步骤1.确定组组数数:组数的确定应以能够显示数据的分
17、布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K2.2.确确定定组组组组距距距距:组组距距(Class (Class Width)Width)是是一一个个组组的的上上限限与与下下限限之之差差,可可根根据据全全部部数数据据的的最最大大值值和和最最小小值值及及所所分分的组数来确定,即的组数来确定,即 组距组距组距组距( ( 最大值最大值最大值最大值 - - 最小值最小值最小值最小值) ) 组数组数组数组数 3.3.统计出各组的统计出各组的频数频数频数频数并整理成频数分布表。并整理成频数分布表。 组距分组的组距分组的几个概念几个概念1. 1. 下限下限(low l
18、imit) (low limit) :一个组的最小值2. 2. 上限上限(upper limit) (upper limit) :一个组的最大值3. 3. 组距组距(class width) (class width) :上限与下限之差4. 4. 组中值组中值(class midpoint) (class midpoint) :下限与上限之间的中点值下限值下限值下限值下限值+ +上限值上限值上限值上限值2 2组中值组中值组中值组中值 = = 分组所遵循的分组所遵循的主要原则主要原则是是“不重不漏不重不漏”(each data ”(each data value belongs to one c
19、lass and only one class)value belongs to one class and only one class)。数数据在每组中的归属习惯上采用据在每组中的归属习惯上采用“上组限不在内上组限不在内”。 5,10)5,10),10,15)10,15),15,20)15,20)。四、数值型数据分组和频数分布表的编制四、数值型数据分组和频数分布表的编制【例例例例】某某电电脑脑公公 司司 20022002年年 前前四四个个月月各各天天的的销销售售量量数数据据( (单单位位:台台) )。试试对对数据进行分组。数据进行分组。 1.确定组数:根据 Sturges 提出的经验公式得
20、组数K为:2.确定各组的组距: 组距组距( 237 - 141) 10=9.6 103.用用Excel制作频数分布表制作频数分布表 3、数字型数据分组后的频数、频率表、数字型数据分组后的频数、频率表问题:是等距分组还是不等距分组?问题:是等距分组还是不等距分组? 开口组开口组特殊的情况的处理特殊的情况的处理原因:数据的最大值和最小值与其他数据相距悬殊。原因:数据的最大值和最小值与其他数据相距悬殊。标志:采取标志:采取“在在.以上以上” ” ”在在.以下以下”这样的开口组,避免出现空这样的开口组,避免出现空白组。白组。140140 150150210210直方图下的面直方图下的面积之和等于积之和
21、等于1 1某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图我我一一眼眼就就看看出出来来了了,销销售售量量在在170170180180之之间间的的天天数数最最多多! !190190 200200180180160160 170170频频频频频频数数数数数数( (天天天天天天) )25252020151510105 53030220220 230230 240240 (五)(五)(五)(五)分组数据的图形展示分组数据的图形展示分组数据的图形展示分组数据的图形展示直方图和折线图直方图和折线图直方图和折线图直方图和折线图分组数据的图示(折线图的绘制)折线图与直方图折线图与直方图下的面积相等!下
22、的面积相等!140140 150150210210某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图190190 200200180180160160 170170220220 230230240240频频频频频频数数数数数数( (天天天天天天) )25252020151510105 53030思考: 1、对于等距分组等距分组的数据,可用距形的高度高度直接表示频数的分布;对于不等距分组不等距分组的数据,用距形的面积面积(而不是高度)表示各组的频数分布。不等距分组各组的频数受组距大小不同的影响。 2、从本质上说,直方图应用频数密度频数
23、密度来绘制,这样可使直方图总面积为1。因此需要计算频数密度(频数密度(= =频数频数/ /组距),组距),才能准确反映频数分布的实际。而频率和频数密度是有区别的:频率频率= =频数频数/ /总量。频率的加总一定等于总量。频率的加总一定等于1 1;而频数密度的;而频数密度的加总不一定等于加总不一定等于1.1.频数(频率)分布的类型频数(频率)分布的类型 日常经济生活中,常见的频数分布曲线主要有正态分布正态分布、偏态偏态分布、分布、J型分布、型分布、U型分布型分布等几种类型等几种类型。 其次还有双峰型双峰型、孤岛型孤岛型及锯齿型锯齿型等其他类型。STATISTICASTATISTICA二、二、未未
24、分组数据的处理分组数据的处理(一)不分组也可以看出数字的特征(一)不分组也可以看出数字的特征14115916617217718218819620321414316016717317718318919620321514416016817317818418919620521814916116817417818518919620622315016116817417818619019620722515216217017417918619019720822615316317117517918719119720922815316317117517918719219821023315416417217518
25、0187194198210233155165172175180187194200211234156165172176181188195201211234158165172176182188195202213237教材p58【例3-6】电脑每日的销售量调研数据 (二)处理方式(二)处理方式: 茎叶图茎叶图 Fig , Stem-and-leaf display for the Audit-Time Data(days) 1 2 3 4 4 5 5 6 7 8 8 8 9 2 0 1 2 2 3 7 8 3 3 例:例:一会计事务所对其20家客户(clients)年底帐目辑核(audits)的时间
26、长度(天)的统计数据如下:Table Year-End Audit Times(in days) 12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13树茎树叶 茎叶图茎叶图是一种既给出数据的分布状况,又能显是一种既给出数据的分布状况,又能显示每一个原始数值的图形。示每一个原始数值的图形。 A stem-and-leaf display can be used to rank order data and provide an idea of the shape of the distribution of a set of qu
27、antitative data. 茎叶图由两部分组成茎叶图由两部分组成:茎茎(stem)与叶叶(leaf) 茎:茎:通常由每组数的高位数值(leading digits)形成,按组竖立在左边; 叶:叶:通常由每组数的低位数值(last digits)形成,按组横排在“茎”的右边。 上面茎叶显得过于拥挤,尤其是第一行有太多数,可将期扩展为Fig5的形式。 Fig5所表现的数据分布特征与直方图十分相似。但茎叶图有明显优势明显优势: 1. The stem-and-leaf display is easier to construct; 2. The stem-and-leaf display pr
28、ovides more information because it shows the actual data values. Fig 5, Stem-and-leaf display for the Audit-Time Data 1 2 3 4 4 1 5 5 6 7 8 8 8 9 2 0 1 2 2 3 2 7 8 3 3【例3-6】表3.12的茎叶图(p58)表表3.12 扩展的茎叶图扩展的茎叶图总结:茎叶图总结:茎叶图(stem-and-leaf display)1.用于显示未分组的原始数据的分布2.由“茎”和“叶”两部分构成,其图形是由数字组成的3.以该组数据的高位数值作树茎,
29、低位数字作树叶4.树叶上只保留一位数字5.对于n(20 n 300)个数据,茎叶图最大行数不超过 L = 10 lg(n) 6. 茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息(二)箱线图(二)箱线图 (box plot)中位数中位数QQU UUQQL LLX X最大值最大值最大值X X最小值最小值最小值1 1、箱线图的结构、箱线图的结构、箱线图的结构、箱线图的结构 对于一组数据,绘制一个箱线图即可。对于一组数据,绘制一个箱线图即可。 对于多组数据,要绘制多批箱线图。对于多组数据
30、,要绘制多批箱线图。未分组数据多批数据箱线图 (例题分析)【例例例例】 从从某某大大学学经经济济管管理理专专业业二二年年级级学学生生中中随随机机抽抽取取1111人人 , 对对 8 8门门 主主要要课课程程的的考考试试成成绩绩进进行行调调查查,所所得得结结果果如如表表。试试绘绘制制各各科科考考试试成成绩绩的的批批比比较较箱箱线线图图,并并分分析析各各科科考考试试成成绩绩的的分分布布特特征征11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学
31、统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177 以科目分组的多批数据箱线图以科目分组的多批数据箱线图( (例题分析例题分析) )8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图1111名学生名学生名学生名学生
32、8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图Min-Max25%-75%Median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11以学生分组的多批数据箱线图以学生分组的多批数据箱线图(三)、时间序列数据(三)、时间序列数据线图线图(line plot)(line plot)绘制线图时应注意以下几点绘制线图时应注意以下几点1.时间一般绘在横轴(x),指标数据绘在纵轴(y)。2.图形的长宽比例要适当,其长宽比例大致为10:73.一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据
33、与“0”之间的间距过大时,可以采取折断的符号将纵轴折断时间序列数据线图 (例题分析)【例】【例】【例】【例】已知已知1991199120002000年年我国城乡居民我国城乡居民家庭的人均收家庭的人均收入数据如表。入数据如表。试绘制线图试绘制线图¥ 19912000年城乡居民家庭人均收入年城乡居民家庭人均收入年份年份城镇居民城镇居民农村居民农村居民19911992199319941995199619971998199920001700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0708.6 784.0 921.61221.0157
34、7.71926.12091.12162.02210.32254.4时间序列数据线图 (例题分析)作业:p85,3.14.用excel绘制时间序列图4.1 多变量数据雷达图 (例题分析)【例例例例】20002000年年我我国国城城乡乡居居民民家家庭庭平平均均每每人人各各项项生生活活消消费费支支出出构构成成数数据据如如表表。试试绘绘制雷达图。制雷达图。今天的今天的主食是主食是面包面包2000年城乡居民家庭平均每人生活消费支出构成年城乡居民家庭平均每人生活消费支出构成(%)项项 目目城镇居民城镇居民农村居民农村居民 食品食品 衣着衣着 家庭设备用品及服务家庭设备用品及服务 医疗保健医疗保健 交通通讯
35、交通通讯 娱乐教育文化服务娱乐教育文化服务 居住居住 杂项商品与服务杂项商品与服务39.1810.018.796.367.9012.5610.015.17 49.305.754.525.245.5811.1815.473.14(四)多变量数据的显示(四)多变量数据的显示多变量数据雷达图 (例题分析)4.1 多变量数据散点图散点图 (例题分析)【例例例例】20002000年年我我国国城城乡乡居居民民家家庭庭平平均均每每人人各各项项生生活活消消费费支支出出构构成成数数据据如如表表。试试绘绘制雷达图。制雷达图。今天的今天的主食是主食是面包面包2000年城乡居民家庭平均每人生活消费支出构成年城乡居民家
36、庭平均每人生活消费支出构成(%)项项 目目城镇居民城镇居民农村居民农村居民 食品食品 衣着衣着 家庭设备用品及服务家庭设备用品及服务 医疗保健医疗保健 交通通讯交通通讯 娱乐教育文化服务娱乐教育文化服务 居住居住 杂项商品与服务杂项商品与服务39.1810.018.796.367.9012.5610.015.17 49.305.754.525.245.5811.1815.473.14(四)多变量数据的显示(四)多变量数据的显示数据类型及图示 (小结)3.3 3.3 合理使用图表合理使用图表 图表的设计(图表的设计(3 3选选1 1)哪个表更好?哪个表更好?如何实现?如何实现?本章小结1.1.分类和顺序数据的整理与显示方法分类和顺序数据的整理与显示方法2.2.数值型数据的整理与显示方法数值型数据的整理与显示方法3.3.合理使用统计表合理使用统计表4.4.用用ExcelExcel作作频数分布表和图形频数分布表和图形第3章讲完了。谢谢大家!