第3章_样本数据特征初步

上传人:n**** 文档编号:57705178 上传时间:2018-10-24 格式:PPT 页数:62 大小:682KB
返回 下载 相关 举报
第3章_样本数据特征初步_第1页
第1页 / 共62页
第3章_样本数据特征初步_第2页
第2页 / 共62页
第3章_样本数据特征初步_第3页
第3页 / 共62页
第3章_样本数据特征初步_第4页
第4页 / 共62页
第3章_样本数据特征初步_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《第3章_样本数据特征初步》由会员分享,可在线阅读,更多相关《第3章_样本数据特征初步(62页珍藏版)》请在金锄头文库上搜索。

1、第3章 样本数据特征的初步分析,管理统计学 谢湘生 广东工业大学管理学院,提示,将你收集到的数据中的信息概括、集中并表示出来,3.1 样本数据结构的基本特征:频次与频率,3.1.1 频次与频率的基本概念,频次(Frequency):在样本数据集合中,同样的数据值(样本值)出现的次数。 频率(Percentage或Relative Frequency) 某样本值的频率=该样本值出现的频次/该数据集合的数据总数,例 3.1.1,某商品在抽样商店的单价(单位:元),某商品在不同商店价格排序结果,某商品价格出现的频次、频率统计表,例 3.1.2,某单位16人受教育程度,某单位职工受教育程度的结构,例

2、3.1.3,家具基色调出现的频次,数据集合中所有取值不同的数据出现的频率,称为该数据集合的频率分布,3.1.2 观察样本数据基本特征(频次和频率)的图形方法,1. 表示频次和频率的饼图(Pie Chart),用饼图表示适用于所有测度等级的数据。但是要求不同的样本值的个数(即不重复的样本值个数)不是太多。,表示频次和频率的饼图的绘制方法,(1)画一个适当大小的圆,然后在圆中对每一个不同的样本数据值画一个具有适当圆心角的扇形。,(2)每一个不同样本值所占据扇形的圆心角的大小由下式计算:,某样本值对应的圆心角的大小=该样本值的频率3600,某商品标不同价格的商店数(频次),某单位职工受教育程度的比例

3、(频率),家具基色调使用比例(频率),饼图主要用于表示分类变量的频率(或频次)结构,但须注意分类变量不重复的取值不能太多。,2. 表示频次和频率的条形图,表示频次和频率的条形图的构成是,(1)横坐标表示样本数据的不同取值。如果样本数据的测度是顺序级以上的,横坐标上的样本数据就应该从小到大排列。如果是刻度级的数据,还应注意各数据刻度保持一致的比例。 (2)纵坐标表示相应样本值出现的频次或频率,条形图常用于表示分类变量数据集合的频次(或频率)结构,但分类变量不重复的取值也不能太多。,3.1.3 样本数据集合的基本特征的延伸:累积频率(Cumulative Percentage),1.累积频率的概念

4、与表格表示,对数据测度在顺序级以上的样本数据,设x1 x2 1,dhd,选择h:0h1,合适,其中k,h的选择应注意,要使最终得到的区间长度便于在坐标轴上标示出来。,确定分组区间起点位置的方法,首先把样本数据集合中的最小数据y以取定的量纲为单位取整y; 取满足kd1个量纲单位的最大整数k,并以y+0,y+d,y+kd为备选的最小分组区间中点的位置; 选出上述备选中点坐标中与y的差的绝对值最小者,并以该点为最小分组区间的中点。,注:若某个数据恰好位于两个分组区间的分界点上,则习惯上将其划归右边的区间,关于直方图的几个概念,组中值:就是一个分组区间中心位置的坐标x: x =(组上界+组下界)/ 2

5、 组频次:组内包含的样本数据的个数 组频率:组频次 / 样本数据集合中数据的个数,绘直方图:,(1)在横轴上,从小到大依次标出分组区间的边界;,(2)沿纵轴方向,依据各区间的组频次或组频率的大小,分别绘制不同高度的矩形。,身高频次条形图,身高频次直方图,一个数据集,即使是中等规模,对其原始形式直接进行解释也经常是困难的。图形法(以及表格法)提供了组织和汇总数据的方法(手段)。 在经济与商务活动中常将数据分为定性数据(品质数据Qualitative data)和定量数据(数量数据 Quantitative data). 对于不同类型数据的汇总,常用的图形方法如下表所示:,3.3 样本数据的位置特

6、征:对数据中心的描述,样本数据集合的另一重要特征,就是样本数据集合中心所处的位置,它在一定程度上反映了样本集合的位置。测度集中趋势就是寻找数据水平的代表值或中心值,样本数据集合中心通常用下面三个概念刻画。 样本中位数 样本众数 样本均值,3.3.1 样本众数(Sample Mode),样本众数的定义1及例子,样本众数的定义1: 样本数据集合中出现频次最高的那个样本值,称为样本众数,简称为众数。,按此定义,对给定的样本数据集合,样本众数可能不唯一。若样本众数是唯一的,称为单一众数,否则称为复众数。,例如 某单位职工受教育程度的结构为(顺序级数据),则对应的样本数据集合的众数为“大学”。,家具基色

7、调出现的频次(名义级数据),则对应的样本数据集合的众数为“Y(即淡黄褐色)”。,某商品价格出现的频次(刻度级数据),对应的样本数据集合的众数为9.99、10.00和10.01(复众数),样本众数定义2及例子,样本众数的定义2:对刻度级的样本数据集合,其直方图中,最高的矩形(即直方图中的峰peak)对应的数据区间,称为该数据集合的众数区间,简称为众数。,如右图表示的数据集合的众数区间为,1752.5(厘米),众数区间也有单一众数区间与复众数区间之分。,3.3.2 样本中位数(Sample median),设对样本集合中所有数据的排序结果为x1 x2 xn, n为样本容量,则在上述排序的序列中,处

8、于“正中间位置”上的数据,称为样本中位数。,当样本数据集合中的所有数据排序后,正中间位置的数据即中位数Me按下式确定:,正中间位置:,数据集合(已经排序),17.0 17.1 17.2 17.5 17.5 17.6 17.6,其中位数为Me=x4=17.5,数据集合(已经排序),16.8 17.0 17.1 17.2 17.5 17.5 17.6 17.6,其中位数为,对名义级数据,不考虑中位数;对顺序级数据,只在样本容量n为奇数时,考虑中位数。,3.3.3 样本均值(Sample Mean),样本均值仅适合于刻度级数据。,样本数据集合的样本均值(又称为样本平均值),是把样本数据集合中所有数据

9、加起来,然后再除以样本数据集合中样本个数(样本容量)所得到的结果。样本均值的数学定义为:,式中, x1 , x2 , , xn, n为样本容量,有一个叫做萨姆的工人到吉斯莫先生的工厂应聘,吉斯莫对他说:我们这里报酬不错,平均薪金每周300元。你在学徒期间每周得75元,不过很快就可以加工资。萨姆感到工资水平不低,自己好好干,至少可以很快接近平均工资,便应约上班了,我公司员工收入很高,周平均工资300元,吉斯莫,萨姆,收入不低嘛?,但没过几天,萨姆就找吉斯莫理论:你骗了我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢?吉斯莫回答:平均工资是300元,

10、我可以向你证明这一点。这是我每周付出的酬金表,共6900元,共分给23个人。我得2400元,我的弟弟得1000元,六个亲戚每人得250元,5个领工每人得200元,10个工人每人100元。你自己算吧。萨姆也不是好惹的:这样算平均工资当然是每周300元,可你还是蒙骗了我!吉斯莫不愿因此惹官司,不得不“开导”萨姆:看来,是你把平均数理解成了中位数或者中等工资。我们这里的中位数是200元。萨姆问:每周100元又是怎么回事呢?吉斯莫回答:那称为众数,是大多数人挣的工资。老弟,你的问题是出在不懂平均数、中位数和众数之间的区别。萨姆竟无言以对,只好愤而辞职。,3.4 样本数据的离散特征,3.4.1 对样本数据的离散特征的点状描述:极值、四分点和百分位点 1. 极大值(maximum)与极小值(minimum),极大值是数据集合中的最大值。极小值是数据集合中的最小值。 这两个样本值从一定视角反映了样本数据集合中样本值的离散程度。极值的概念适用于顺序级以上的数据。,2. 下四分点(Lower Quartile)与上四分点(Upper Quartile),

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号