《《管理统计学》马庆国著-幻灯片》由会员分享,可在线阅读,更多相关《《管理统计学》马庆国著-幻灯片(79页珍藏版)》请在金锄头文库上搜索。
1、第三章 样本数据特征的 初步分析,一、整理样本数据,信息在被操纵或处理后并没有超出其原有的格式,原始数据 -,两种整理原始数据的基本方法,2、整理数据 -数据阵列,保留了数据的原值 ,并按数值的升序或降序显示数据。 易观察到:, 数据集中包含最大观察值和最小观察值, 确认在某个数据集中哪些数组具有相同的值, 很容易发现各个值之间的差异,3、样本数据结构的基本特征:频次与频率,一、一些基本概念 1、频次(频数) 在有限的样本数据集合中,同样的数据值(样本值)出现的次数 称为该样本值出现的频次。 2、频率 该样本值出现的频次 / 该数据集合的数据总数。 常用表示方法: (1)表 ; (2)饼图;
2、(3)条形图;,二、样本数据集合的基本特征的延伸:累积频率 当样本数据的测度在顺次级以上时,把样本值小于等于某个样本数据xi的频率值累加起来,就得到“小于等于xi”的累积频率。 注:名义级的样本数据集合,不存在累积频率问题。 表示法同上。,整理数据 -频数分布,将数据值分成几组,显示各组中有多少数值,很容易发现数据的图形特点,无法保留原始数据的值 ,频数分布, 定义,某个变量所有可能值的集合 显示了变量的图形特点,分布,当数据集为小型时,数据之间的变化特点很容易观察出来 随着数据集变为中型或大型,变量的特性一般表现得越来越不明显,定 义,频数分布的类别,频数分布,频数,每一组包含的观察值数目,
3、组,组限,每一组的上限和下限,组宽,上限和下限之间的间距,如何将数据转换成表格 ? 哪些重要或必要的信息应当包括在内 ?, 确定 “组数”和“组宽 ” 频数分布一般包括与每组有关的频数、累积频数、相对频数和相对累积频数,频数分布,频数分布,累积频数,相对频数,相对累积频数,显示每组范围内或其下有多少观察值,相对频数描述每组范围内观察值所占的百分比,即每组的频数除以观察值的总数目,显示每组范围内或其下观察值所占的百分比,对于定性变量而言 - 常常根据变量结果的种类来选择组,例如,为了研究本班100名学生的性别 -,频数分布,对于定量变量而言 - 选择“组数” 和“组宽 ”是主要问题,频数分布,应
4、当遵循哪些基本原则来确定组 -,1.各个组之间必须是“相互排斥”的,2.各个组必须将“所有数据均包括在内”,3.组数K 的经验法则 2K n ,此处n代表观察值的总数目,4. 各组之间的宽度最好相等,但这并不是必要条件。当组宽相等时, W,频数分布,5.应当尽量避免开口组,6.组宽最好是整数,例如,为了研究某班100名学生的身高 - 我们确定将整个数据分成5组,每组宽度相等,W = 10厘米,频数分布,1. 一张整理有序的表格可以使数据中隐藏的信息清楚地表现出 来 2. 有助于采用图形方式来汇总数据 数据集表格不具有唯一性,频数分布,频数分布,以下数据表示一个当地咖啡馆进行的30笔交易,举例,
5、14 64 15 34 75 24 81 67 19 25 48 57 69 62 41 46 35 27 72 64 48 51 77 64 51 50 26 42 83 38,频数分布,首先-确定“组数” 和“组宽 ”,样本大小 n =30 25 = 32 30 5 组,最小观察值 = 14, 最大观察值 = 83 ,最好采用“整数” W = 15, 组数, 组宽,频数分布,茎叶图形,数据必须按照升序排列 为了构造图形,我们将数值的第一个数字作为茎 茎叶排列使我们可以通过图形来了解数据的分布,茎叶图形,例如,我们想将12个数据转换成一张茎叶图形 : 4.4 3.6 4.4 3.7 7.6
6、3.9 3.6 3.5 3.0 4.5 3.8 2.2,2| 2 3| 0 5 6 6 7 8 9 4| 4 4 5 5| 6| 7| 6,茎叶图形,用直观方式显示定量变量, 三种最常使用的图形类型 - 直方图 频数多边形 分布曲线 在构造图形之前,需要用频数分布来显示数据,用直观方式显示定量变量 -直方图, 应当将数据转换成频数分布表 水平轴代表变量的数值,核对符号代表每一组的中点 垂直轴代表计数频数或百分比频数 每个条形图的高度与每一组的频数或百分比相对应 每个条形图的宽度与每一组的宽度相对应,用直观方式显示定量变量 -直方图,例如,我们在本单元中想通过绘制直方图来表示100名学生的身高分
7、布,用直观方式显示定量变量 -频数多边形,用线段将各组中点和频数(或相对频数)的交叉点连接起来,就可以得到频数多边形图形,身高.,190.0,180.0,170.0,160.0,150.0,累积计数频数,80,60,40,20,0,140.0,100,用直观方式显示定量-分布曲线,图形显示了每一组的累积频数或相对累积频数 它可以用“小于”或“大于”来表示, 定性变量常常用非数值刻度来测量 对这些变量可以进行分类 可以采用两种最为常见的图形来描述定性变量的分布 饼图 条形图,用直观方式显示定性变量, 饼图的圆圈代表了所有观察值的集合 根据定性变量的类型数目将饼图分成几个部分 饼图每一部分的大小与
8、每一类型的相对频数成正比,用直观方式显示定性变量 - 饼图,例如,我们可以用饼图来描述某班100名学生的性别分布状况,用直观方式显示定性变量 - 饼图,对于定性变量而言,条形图表示每一类型的百分比或 计数频数 每个条形图的高度代表每一类型的百分比或比例 条形图的宽度没有意义,所有类型的宽度均相同,用直观方式显示定性变量 -条形图,例如,我们用条形图来显示某班100名学生的性别分布状况,用直观方式显示定性变量 -条形图,SPSS统计软件给我们的工作带来了方便,饼图 : 图形 饼图 对各组情形进行总结,条形图 : 图形 条形图 对各组情形进行总结,SPSS统计软件给我们的工作带来了方便,直方图 :
9、 图形 直方图 选择关心的变量,茎叶图形 : 分析 描述统计学 寻找 选择绘图选项,集中趋势测度 -未分组数据, 定义,所有观察值 的平均值,均值,所有观察值中位于最中心位置的那个值,中位数,出现最频繁的数据值,众数,均值 -,总体均值,样本均值,集中趋势测度 -未分组数据,Kim 测验的平均成绩等于,在此我们可以看到,在汇总Kim的测验成绩时,均值并不能发挥很好的作用。在大多数情况下,Kim的测验成绩低于30分,她只在一次测验中意外地获得了98的高分,因此她的平均成绩被提高到35分。,集中趋势测度 -未分组数据,Kim是一名中等学校的学生,她上星期进行了5次测验,成绩分别如下 7, 98,
10、25, 19, 和26,均值对极值表现得非常敏感 如果数据中存在极值(或者说数据分布有所偏斜),那么均值就不能很好地测度集中趋势,集中趋势测度 -未分组数据,中位数 (Md) -,1.将n个观察值按升序或降序排列 2.如果观察值个数是奇数,则中位数就是位于最中心位置的那个观察值,即数据集中的第 个观察值 3.如果观察值个数是偶数,则中位数就是位于正中心两个观察值的平均值,即数据集中的第 个和第 个观察值的平均值,集中趋势测度 -未分组数据,举例: 有6名工人组成一个样本,请找出他们每周工资的中位数 151 179 163 142 180 195,按升序重新排列每周的工资 142 151 163
11、 179 180 195 最中心位置的两个数值 求这两个数值的平均数 中位数 =,集中趋势测度 -未分组数据,Kim的5次测验成绩 又如何呢?,Kim成绩的中位数为25,看来中位数能更好地测度Kim测验成绩的中心位置 - 中位数不受“极值”的影响,集中趋势测度 -未分组数据,众数 (Mo) -,并不经常用众数来测度中心位置 适用于定性变量 众数不具有唯一性,集中趋势测度 -未分组数据,集中趋势测度 -未分组数据,举例: 有6名工人组成一个样本,请找出他们每周工资的众数, 151 179 163 142 180 195 不存在 众数, 151 180 163 142 180 195 180, 1
12、42 180 163 142 180 195 142 和180 (双峰 ),对两个旅行团的小孩年龄进行了数据调查,以下是调查结果: -,A组 年龄 : 14, 17, 11, 10, 11, 14, 9, 12, 8, 10, 9,均值 ,中位数 11,众数 9, 10 , 11 和 14 (有4 个众数 ),集中趋势测度 -未分组数据,B组 age: 9, 14, 8, 10, 13, 7, 9, 11, 16, 10, 12, 9,均值,中位数 10,众数 9,集中趋势测度 -未分组数据,均值、中位数和众数之间的关系 -,1. 对称分布 (均值 = Md = Mo),均值 = Md = M
13、o,集中趋势测度 -未分组数据,均值、中位数和众数之间的关系 -,2.倾向左侧 (均值 Md Mo),均值,Md,Mo,集中趋势测度 -未分组数据,均值、中位数和众数之间的关系 -,3.倾向右侧 (均值 Md Mo),Md,Mo,均值,集中趋势测度 -未分组数据,集中趋势测度 -分组数据,为了计算分组数据的均值 ,计算每一组的中点,假设观察值都落在各组的中点上, 总体均值 样本均值,集中趋势测度 -分组数据,举例:下列频数分布显示了某家公司50名工人的每周工资收入,估计每周工资的平均水平,集中趋势测度 -分组数据,每周的平均工资,集中趋势测度 -分组数据,为了计算分组数据的中位数 ,计算每一组
14、的累积频数,包括“最中心位置” 观察值的那一组就是“中位数组”,LMd :中位数组的下 限,fMd :中位数组的频数,w :中位数组的宽度,c :位于中位数组之前那一组的累积频数,集中趋势测度 -分组数据,举例: 继续讨论前面的例子,即计算50名工人每周工资收入的中位数,集中趋势测度 -分组数据,LMd = 169.5,fMd = 12,w = 10,c = 19,中位数组 170 179,每周工资收入的中位数,集中趋势测度 -分组数据,为了计算分组数据的众数 ,出现最频繁的那一组就是“众数组”,LMo :众数组的下限,d1 : 众数组的频数减去众数组之前那一组的频数,w :众数组的宽度,d2
15、 : 众数组的频数减去众数组之后那一组的频数,集中趋势测度 -分组数据,举例: 继续讨论前面的例子,即计算50名工人每周工资收入的众数,集中趋势测度 -分组数据,LMo = 169.5,w = 10,d1 = 12 9 = 3,众数组 170 179,每周工资收入的众数,d2 = 12 9 = 3,集中趋势测度,举例:,A列数据: 55 56 57 58 59 60 61 62 63 64 65 均值 = Md = Mo = 60,B列数据: 35 40 45 50 55 60 65 70 75 80 85 均值= Md = Mo = 60,离中趋势测度 -未分组数据,测度离中趋势最常用的三种方法 -,1.全距,2.标准差 (SD),3.变异系数 (CV),离中趋势测度 -未分组数据,全距 =最大观察值 最小观察值,全距有两个主要缺点 -,1.对数据集中的极值显得非常敏感 2. 忽略了位于最大观察值与最小观察值之间的数据是如何分布的, 定