第3章样本数据特征的初步研究报告

资源描述

《第3章样本数据特征的初步研究报告》由会员分享，可在线阅读，更多相关《第3章样本数据特征的初步研究报告（64页珍藏版）》请在金锄头文库上搜索。

1、第3章样本数据特征的初步分析,管理统计学谢湘生广东工业大学管理学院,提示,如何将你收集的数据中的信息概括或集中起来,3.1 样本数据结构的基本特征：频次与频率,3.1.1 频次与频率的基本概念,频次(Frequency)：在样本数据集合中，同样的数据值（样本值）出现的次数。频率(Percentage或Relative Frequency) 某样本值的频率=该样本值出现的频次/该数据集合的数据总数,频次与频率的概念适用于所有测度级别的数据,例 3.1.1,某商品在抽样商店的单价（单位：元）,某商品在不同商店价格排序结果,例 3.1.2,某单位16人受教育程度,某单位职工受教育程度的结构,

2、例 3.1.3,家具基色调出现的频次,数据集合中所有取值不同的数据出现的频率，称为该数据集合的频率分布,3.1.2 观察样本数据基本特征（频次和频率）的图形方法,1. 表示频次和频率的饼图(Pie Chart),用饼图表示适用于所有测度等级的数据。但是要求不同的样本值的个数（即不重复的样本值个数）不是太多。,表示频次和频率的饼图的绘制方法,（1）画一个适当大小的圆，然后在圆中对每一个不同的样本数据值画一个具有适当圆心角的扇形。,（2）每一个不同样本值所占据扇形的圆心角的大小由下式计算：,某样本值对应的圆心角的大小=该样本值的频率3600,某商品标不同价格的商店数（频次）,某单位职工受教育程度的

3、比例（频率）,家具基色调使用比例（频率）,饼图主要用于表示分类变量的频率（或频次）结构，但须注意分类变量不重复的取值不能太多。,用SPSS作的饼图,未经编辑,经过编辑,2. 表示频次和频率的条形图,表示频次和频率的条形图的构成是,（1）横坐标表示样本数据的不同取值。如果样本数据的测度是顺序级以上的，横坐标上的样本数据就应该从小到大排列。如果是刻度级的数据，还应注意各数据刻度保持一致的比例。（2）纵坐标表示相应样本值出现的频次或频率,条形图常用于表示分类变量数据集合的频次（或频率）结构，但分类变量不重复的取值也不能太多。,注: 利用Excel作图, 对颜色进行了编辑.,3.1.3 样本数据集合

4、的基本特征的延伸：累积频率(Cumulative Percentage),1.累积频率的概念与表格表示,对数据测度在顺序级以上的样本数据，设x1 x2 xm, 是样本数据集合中的不重复的样本值。m n, n是样本数据集合中样本值的总个数。若把样本值小于等于某个样本数据xi的频率(Percentage)都累加起来，就得到“小于等于xi”的累积频率。,商品价格 xi的累积频率,受教育程度xi的累积频率,3.2 观察刻度级样本数据结构的茎叶图与直方图方法,3.2.1茎叶图(Stem-and Leaf Plot)的概念与作法 1. 茎叶图的基本概念与适用范围,茎叶图适用于刻度级的样本数据，不适用于名义

5、级的样本数据。顺序级的样本数据本质上是半定量的。如果一定要用茎叶图来表示，也是可以的，但它不能比条形图提供更多的信息。,茎叶的基本含义是，按照某个一致的规则，把所有的样本值分成“茎节”和“叶”两个部分。“茎节”在左，“叶”在右。“茎节”、“叶”之间用小数点隔开。,例如若对某个样本数据集合，规定样本的百位数开始，左边的数字为“茎节”（这时称“茎节”的宽度为100），其余右边的数字则为“叶”。若912、634、123、1021分别是该集合中的样本数据，则,明显地，样本值=茎节.叶茎节的宽度,将所有的样本数据的不同“茎节”按从小到大的顺序连接起来，就构成了该样本数据集合的“茎”。样本数据“茎节”

6、的宽度就是样本数据集合的“茎”的宽度。确定“茎节”宽度的原则：样本数据集中，“茎节”必须是有变化的。,2.茎叶图的基本作法,（1）依据样本数据集合中数字的大小，确定“茎”的数字位和“叶”的数字位；（2）把样本数据集合中的所有样本数据，分成“茎节”、“叶”两部分；（3）把样本数据集合中的所有“茎节”，从小到大，从上到下纵向排列，并在“茎节”后标出小数点，小数点纵向对齐；（4）依次将数据集合中的所有“茎节”相同的数据取出来，把这些数据的“叶”，按从小到大的顺序，排列在这个“茎节”后小数点的右边，直到这个样本数据集合中的所有数据处理完。,例 3.2.1,171 182 175 177 178

7、 181 185 168 170 175 177 180 176 172 165 160 178 186 190 176 163 183,某班级男生的身高数据（单位：厘米）,频次茎 & 叶 2 16 . 03 2 16 . 58 3 17 . 012 8 17 . 55667788 4 18 . 0123 2 18 . 56 1 19 . 0 茎宽度: 10 茎节长度： 5,茎节长度=允许的最大叶值允许的最小叶值+1 每个茎节长度都应相等,“L”子茎节（低段子茎节）,“H”子茎节（高段子茎节）,为了避免“叶”过长，还可将茎节再分为几个(通常是2个)子茎节。,3.2.2 直方图(Histogr

8、am)的概念与作法,1 直方图的基本概念与适用范围,所谓直方图就是将样本数据集合（对应着横轴的一个区间）分成若干组，（通常是采用等分上述区间的方法进行分组），然后计算出每组所含样本数据的个数（频次）或每组所含样本数据个数占总个数的比例（频率），并将这一结果在直角坐标系中表示出来。,与条形图的区别：条形图不对样本数据分组，而直方图必须对样本数据分组。因此条形图适合不重复的样本较少的情形，直方图可用于不重复样本数据较多的情形。条形图可以看成直方图的特例。,2. 数据分组,数据分组一般采用等区间长度的原则。,数据分组一般先确定各组区间的长度，然后用下式确定组的个数：,其中R表示用四舍五入法，对括号中

9、的数字取整。,也可先确定组的个数，然后再来确定区间的长度。但这种做法相对较少使用。,确定分组区间长度的方法,以某个量纲单位为初始区间长度(d),区间个数合适？,多了,dkd,结束,少了,选择k:k1,dhd,选择h:0h1,合适,其中k，h的选择应注意，要使最终得到的区间长度便于在坐标轴上标示出来。,确定分组区间起点位置的方法,首先把样本数据集合中的最小数据y以取定的量纲为单位取整y；取满足kd1个量纲单位的最大整数k，并以y+0，y+d，y+kd为备选的最小分组区间中点的位置；选出上述备选中点坐标中与y的差的绝对值最小者，并以该点为最小分组区间的中点。再由d值的大小可确定该区间的起点。,

10、注：若某个数据恰好位于两个分组区间的分界点上，则习惯上将其划归右边的区间,关于直方图的几个概念,组中值：就是一个分组区间中心位置的坐标x： x =（组上界+组下界）/ 2 组频次：组内包含的样本数据的个数组频率：组频次 / 样本数据集合中数据的个数,绘直方图：,（1）在横轴上，从小到大依次标出分组区间的边界；,（2）沿纵轴方向，依据各区间的组频次或组频率的大小，分别绘制不同高度的矩形。,身高频次条形图,身高频次直方图,Excel的直方图,R语言中的直方图,SAS中的直方图,3.3 样本数据的位置特征：对数据中心的描述,样本数据集合的另一重要特征，就是样本数据集合中心所处的位置，它在一定程度上

11、反映了样本集合的位置。样本数据集合中心通常用下面三个概念刻画。样本中位数样本众数样本均值,3.3.1 样本众数(Sample Mode),样本众数的定义1及例子,样本众数的定义1: 样本数据集合中出现频次最高的那个样本值，称为样本众数，简称为众数。,按此定义，对给定的样本数据集合，样本众数可能不唯一。若样本众数是唯一的，称为单一众数，否则称为复众数。,例如某单位职工受教育程度的结构为（顺序级数据）,则对应的样本数据集合的众数为“大学”。,家具基色调出现的频次（名义级数据）,则对应的样本数据集合的众数为“Y（即淡黄褐色）”。,某商品价格出现的频次（刻度级数据）,对应的样本数据集合的众数为

12、9.99、10.00和10.01（复众数）,样本众数定义2及例子,样本众数的定义2：对刻度级的样本数据集合，其直方图中，最高的矩形（即直方图中的峰peak)对应的数据区间，称为该数据集合的众数区间，简称为众数。,如右图表示的数据集合的众数区间为,1752.5(厘米),众数区间也有单一众数区间与复众数区间之分。,3.3.2 样本中位数(Sample median),设对样本集合中所有数据的排序结果为x1 x2 xn, n为样本容量，则在上述排序的序列中，处于“正中间位置”上的数据，称为样本中位数。,当样本数据集合中的所有数据排序后，正中间位置的数据即中位数Me按下式确定：,正中间位置：,数据集合

13、（已经排序）,17.0 17.1 17.2 17.5 17.5 17.6 17.6,其中位数为Me=x4=17.5,数据集合（已经排序）,16.8 17.0 17.1 17.2 17.5 17.5 17.6 17.6,其中位数为,对名义级数据，不考虑中位数；对顺序级数据，只在样本容量n为奇数时，考虑中位数。,3.3.3 样本均值(Sample Mean),样本均值仅适合于刻度级数据。,样本数据集合的样本均值（又称为样本平均值），是把样本数据集合中所有数据加起来，然后再除以样本数据集合中样本个数（样本容量）所得到的结果。样本均值的数学定义为：,式中， x1 , x2 , , xn, n为样本容量

14、,均值、中位数与众数的区别,*中位数的使用是有条件的。,有一个叫做萨姆的工人到吉斯莫先生的工厂应聘，吉斯莫对他说：我们这里报酬不错，平均薪金每周300元。你在学徒期间每周得75元，不过很快就可以加工资。萨姆感到工资水平不低，自己好好干，至少可以很快接近平均工资，便应约上班了。但不久，萨姆就觉得上当了。因为他发现竟然没有一个工人的工资多于100元。吉斯莫先生是否骗了萨姆？,中位数,众数,数据中心与数据分布形状的关系,众数,中位数,均值,左偏分布,右偏分布,对称分布,3.4 样本数据的离散特征,3.4.1 对样本数据的离散特征的点状描述：极值、四分点和百分位点 1. 极大值(maximum)与极小

15、值(minimum),极大值是数据集合中的最大值。极小值是数据集合中的最小值。这两个样本值从一定视角反映了样本数据集合中样本值的离散程度，是一种最粗糙的测度。极值的概念适用于顺序级以上的数据。,2. 下四分点(Lower Quartile)与上四分点(Upper Quartile),（1）概念,下四分点将排序以后的数据集合，分为左右两部分，使左边部分包含25%的样本总个数，右边部分包含75%的样本总个数。,上四分点将排序以后的数据集合，分为左右两部分，使左边部分包含75%的样本总个数，右边部分包含25%的样本总个数。,上、下四分点在一定意义上反映了样本数据的离散程度。,（2）下、上四分点的

16、位置,正中间位置：,下四分点的位置：,上四分点的位置：,（3）下、上四分点的值,当下、上四分点位置为整数时，相应整数位置上的样本值就分别为下四分点Q1的值和上四分点Q3的值。当上述位置计算结果不为整数时，下、上四分点位置不是整数时，下、上四分点的值分别由下两式确定,Q1 = Q1位置左边的样本值 +（Q1位置右边的样本值 - Q1位置左边的样本值） 0.25,Q3 = Q3位置左边的样本值 +（Q1位置右边的样本值 - Q1位置左边的样本值） 0.75,例 3.4.1 考虑如下的样本数据集合,99.8，99.9，100.1，100.2,n=4，下四分点、中位数、上四分点的位置分别为,(4+1) 0.25=1.25,(4+1) 0. 5=2.5,(4+1) 0.75=3.75,Q1的位置,Q2的位置,Q3的位置,现计算下、上四分点Q1、Q3的值和中位数Q2的值.,由前面给出

展开阅读全文

第3章样本数据特征的初步研究报告

最新文档