管理统计学第2章-样本数据特征初步分析

上传人:n**** 文档编号:55571983 上传时间:2018-10-02 格式:PPT 页数:114 大小:1.24MB
返回 下载 相关 举报
管理统计学第2章-样本数据特征初步分析_第1页
第1页 / 共114页
管理统计学第2章-样本数据特征初步分析_第2页
第2页 / 共114页
管理统计学第2章-样本数据特征初步分析_第3页
第3页 / 共114页
管理统计学第2章-样本数据特征初步分析_第4页
第4页 / 共114页
管理统计学第2章-样本数据特征初步分析_第5页
第5页 / 共114页
点击查看更多>>
资源描述

《管理统计学第2章-样本数据特征初步分析》由会员分享,可在线阅读,更多相关《管理统计学第2章-样本数据特征初步分析(114页珍藏版)》请在金锄头文库上搜索。

1、第2章 样本数据特征的初步分析,2.1 样本数据结构的基本特征:频次与频率 2.2 观察刻度级样本数据结构的茎叶图与直方图方法 2.3 样本数据的位置特征:对数据中心的描述 2.4 样本数据的离散特征 2.5 样本数据特征的综合表达:箱形图,2.1 样本数据结构的基本特征: 频次与频率,数据集合的最基本的结构特征:频次与频率 主要方法:表格法、条形图和饼图法,2.1.1 频次与频率的基本概念,频次:在有限的样本数据集合中,同样的 数据值(样本值)出现的次数。,某样本值的频率=该样本值出现的频次/该数据集合的数据总数,,使列出来的价格数据看得更清楚些。,例2.1.2 在对某小区的家庭家具的抽样调

2、查后,得到客户家具的基色调的数据:,本例中数据是名义级的,它们自身不存在大小排序的问题。,大致可看清楚样本数据(家具基色调)结构的特点,例2.1.3:抽样调查某单位16人的受教育程度的数据,按照受教育程度排序,统计出各个样本值出现的频次和频率,可以较为清楚地看到“受教育程度”样本数据集合的结构特征。,2.1.2 观察样本数据基本特征(频次与频率)的图形方法,饼图表示频次与频度适用于所有测度等级的数据。 但要求不同样本值的个数(不重复的样本值个数)不能很多。,表示频度与频次的饼图绘制的方法: (1)画一个大小适当的圆圈,给每一个不同的样本值一个与其频次(频率)相当的圆心角,就像切割的一块饼。 (

3、2)每个不同的样本值所占据的圆心角的大小由下式计算:,条形图适用于不重复的样本值的个数不多的情况。,一般情况,条形图只适用于顺序级以上的样本集合。 人们也可“强行”抹去横坐标的从左向右的顺序概念, “规定”横坐标没有大小之分。,2.1.3 样本数据集合的基本特征的延伸:累积频率,顺序级以上的样本数据(包括顺序级数据),才存在累积频率。,例2.1.3的样本数据集合的累积概率,例2.1.3的样本数据集合的累积概率,2.2 观察刻度级样本数据结构的茎叶图与直方图方法,2.2.1 茎叶图的概念与作法,茎叶图适用于刻度级的样本数据的频率结构。 不适用名义级。 顺序级的样本数据本质上是半定量的。也可使用茎

4、叶图。最好使用条形图。,如果对某个样本数据集合规定,所有的样本值的百位数为“茎节”(茎节的宽度为100),所有的十位数和个位数为“叶”。,2.2 观察刻度级样本数据结构的 茎叶图与直方图方法,2.2.1 茎叶图的概念与作法,样本值=“茎节.叶”表达“茎节”的宽度 一个样本数据集合中的所有不相同的茎节,从小到大连接起来,构成了样本数据的”茎“。 确定”茎“的位数基本依据是样本数据的分布范围。 茎节的宽度,就是茎的宽度。 确定”茎节”的宽度的原则:样本数据集合中的”茎节“必须是有变化的。,(1)依据样本数据集合中数字的大小范围,确定”茎“的数字位和”叶“的数字位; (2)把样本数据集合中的所有的样

5、本数据,分成”茎节“、”叶“两部分; (3)把样本数据集合中的所有的”茎节“,从小到大,从上到下纵向排列,并在”茎节“后标出小数点,小数点要纵向对齐; (4)按照”茎节“的从小到大的顺序,依次把样本数据集合中的所有”茎节“相同的数据取出来,把这些数据的”叶“,按照从小到大的顺序,写在这个”茎节“后小数点的右边,从左到右横向排列,直至把样本数据集合中的所有数据处理完。,2.茎叶图的作法,常见的细分茎节的方法之一,是把茎节分成两个子茎节,也就是把该“茎节”右侧的“叶”,处于0-4的,归为“L”子茎节(低段子茎节);“叶”的数字处于“5-9”的,归为“H”子茎节(高段子茎节)。,例如:可把每个“茎节

6、”分解成相等的5个“子茎节”,即每个“子茎节”所覆盖的“叶”的依次为0-1,2-3,4-5,6-7,8-9.这样,每个子茎节的长度,就是原来每个茎节长度的1/5。,茎节长度的概念:茎叶图中,每个“茎节”所允许覆盖的“叶”的数字范围。,茎节长度=允许覆盖最大值-允许覆盖最小值+1,练习1:,某篮球运动员在某赛季各场得分情况如下: 12,15,24,25,31,31,36,36,37,39,44,49,50. 试分析该运动员的整体水平及发挥的稳定程度?,解:上述运动员的得分可用下面茎叶图来表示。 频次 茎 叶 2 1 . 25 2 2 . 456 3 . 116679 2 4 . 491 5 .

7、0,结论:该运动员平均得分在30到40之间,且分布较对称,集中程度高,说明其发挥比较稳定。,练习2,某赛季,两篮球运动员本赛季每场比赛的得分如下,试比较这两位运动员的得分水平。 甲:9,17,18,25,28,32,35,36,37,36,32,40,50. 乙:11,9,13,16,22,23,22,24,32,33,38,41,52.,解:画出甲、乙两人得分的茎叶图,为便于对比分析,可将茎放在中间共用,叶分列左、右两侧。甲 乙叶 茎 叶9 . 0 . 078 . 1 . 13658 . 2 . 2234 225667 . 3 . 2380 . 4 . 10 . 5 . 2,甲运动员的得分大

8、致对称,平均得分30多分;乙运动员的得分也大致对称,平均得分是20多分。但甲运动员总体得分情况比乙好。,从全年级的两个班考试成绩中每班任意抽取20名的数学成绩如下(总分150分) 甲班:,乙班:,试用茎叶图分析,哪个班成绩比较稳定。,解:画出甲、乙两班成绩的茎叶图。甲 乙叶 茎 叶2588 . 9 . 67388 . 10 . 47028 . 11 . 457016 . 12 . 014456789245 . 13 . 2450268 . 14 . 7,甲班成绩波动较大,乙班成绩总体集中在120-130分之间,且分布大致对称,因此乙班成绩比较稳定,总体情况比甲班好。,总结:(茎叶图的特征),1

9、. 用茎叶图刻画数据有两个优点:一是从统计图上没有原始数据信息的损失,所有的信息都可以从这个茎叶图中得到;二是茎叶图便于记录和表示。 2. 但茎叶图表示三位数以上的数据时不够方便。,2.2.2 直方图的概念与作法,这就是直方图。区间长度为5厘米,区间个数为7,起点为160,终点为195。,2. 直方图的基本作法:,(1)按照样本值的大小,选择恰当的区间长度(通常要求区间是等长度的),对所有的样本值分组; (2)统计所有组(区间)内的样本值的频次或频率; (3)用横坐标,按照顺序表示不同的区间(组),用竖立于区间上的矩形条,表示相应区间的样本值的频次或频率。,3. 直方图的使用范围,当刻度级样本

10、数据很多或者精度相对高,使得数据集合中重复出现的样本值过少时,就需要对数据分组,用直方图观察不同组数据的频次与频率。,4. 直方图与条形图的区别,直方图要对数据分组;而条形图不对数据分组,直接统计不同样本值的重复次数。 直方图适用于大量不重复样本值的数据集合;条形图适用于不重复的样本值的个数不多的情况。 直方图只适用于刻度级的样本数据;条形图主要适用于顺序级以上的样本数据。,5. 直方图的具体作法,(1)数据分组 数据分组,一般采取等区间长度的原则。 数据分组,一般先确定区间长度,然后按下式确定组的个数:,式中,R表示用四舍五入法,把括号中的数据表达为整数。,(2)确定分组区间长度,讨论例2.

11、2.1的数据分组的区间长度问题。 首先,确定区间长度的量纲。定为“米” or ”分米“ or ”厘米“?,分米(即10厘米),组的个数=R(190-160)/10)+1=4 组太少,区间长度减半 组的个数=R(190-160)/5)+1=7 确定出:分组的区间长度为5厘米,区间个数为7。,(3)确定分组区间起点位置的方法,确定第一个区间(最左边的区间)起点位置的方法 取出样本数据集合中的最小数据(量纲为确定区间长度时所选定的量纲),记为y1。 例如在3.2.1中,y1=16(分米), 确定备选的第一个区间起点的位置: a.当分组区间长度为0.2(某量纲单位)时,备选的第一个区间的起点位置(坐标

12、x1)可能是:y1+0, y1+0.2, y1+0.4, y1+0.6, y1+0.8。式中,y1表示对y1取整。例,16.1=16,16.9=16,等。 b.当分组区间长度为0.25(某量纲单位)时,备选的第一个区间的起点位置(坐标x1)可能是:y1+0, y1+0.25, y1+0.5, y1+0.75。 c.当分组区间长度为0.5(某量纲单位)时,备选的第一个区间的起点位置(坐标x1)可能是:y1+0, y1+0.5。 d.当分组区间长度为1(某量纲单位)时,备选的起始区间的起点位置(坐标x1)可能是:y1+0。,确定备选的第一个区间的起点位置可概括为: 备选的x1=y1+k区间长度,k

13、=0,1,同时, k区间长度1, 包含最小值在内,哪个备选区间的起点位置x1与y1最近,就确定该位置为第一个区间的起始位置。 例如3.2.1的身高数据的分组问题。 已选定分组区间长度为0.5分米,而y1=16,备选的第一个区间的起点坐标可能是: y1+0=16分米,或者 y1+0.5=16.5分米。显然,第一个坐标离y1最近。所以,确定第一个区间是16,16.5)。 注意:若某样本数据正好处于两个区间的分界点上,一般应把它归为右边的区间。,直方图中的一些概念,组中值:区间中心位置的坐标x。 x=(组上界+组下界)/2 组频次:组内数据出现的次数。 组距:组区间的长度。 组频率:组频次/样本数据

14、集合中的样本个数。 频次直方图(频数直方图):纵坐标表示频次(频数)的直方图。 频率直方图:纵坐标表示频率的直方图。,(4)绘制直方图,在横坐标上,从小到大,依次标出分组区间的边界; 在纵轴方向,按照各个区间的组频次或组频率的大小,绘制不同高度的矩形。,区间长度为5厘米,区间个数为7,起点为160,终点为195。,男生身高频次直方图,练习:,某中学为了了解本校学生的身体发育情况,对同年龄的40名女生的身高进行了测量,结果如下(数据均为整数,单位:cm): 168,160,157,161,158,153,158,164,158,163,158,157,167,154,159,166,159,15

15、6,162,158,159,160,164,164,170,163,162,154,151,146,151,160,165,158,149,157,162,159,165,157 请对上述数据分组,确定出数据的分组个数、组距、分组区间起点位置,画出频次直方图。并根据所画的直方图说明:大部分同学处于哪个身高段?身高的整体分布情况如何?,解:(1)根据题意,选定初始区间长度为10cm。数据中最小的为146cm,最大的为170cm。则,组的个数=R(170-146)/10)+1=3,组数少,区间长度减半,则,组的个数= R(170-146)/5)+1=6,组数合适,由此,确定出区间长度为5cm,组的个数为6组。 (2)确定起始区间位置 由题意知,y1=14,备选的第一个区间起始坐标可能是: y1=14, y1+0.5=14.5。由此可确定第一个区间是14.5,15)。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号