统计数据的描述1

上传人:san****019 文档编号:70898567 上传时间:2019-01-18 格式:PPT 页数:126 大小:4.17MB
返回 下载 相关 举报
统计数据的描述1_第1页
第1页 / 共126页
统计数据的描述1_第2页
第2页 / 共126页
统计数据的描述1_第3页
第3页 / 共126页
统计数据的描述1_第4页
第4页 / 共126页
统计数据的描述1_第5页
第5页 / 共126页
点击查看更多>>
资源描述

《统计数据的描述1》由会员分享,可在线阅读,更多相关《统计数据的描述1(126页珍藏版)》请在金锄头文库上搜索。

1、华南理工大学精品课程,统计学,统计数据的描述,第二章,华南理工大学精品课程,第二章 统计数据的描述,录取中有无歧视? 某高校只有两个系,财经系和工程系。该校报考及录取的总体情况如下:,引例:,华南理工大学精品课程,第二章 统计数据的描述,如果我们只看该校男女生录取的比率,即男生350/800=44%, 女生200/600=33%。这时我们不免会问,是男同学的成绩比女同学好,还是在录取中存在着性别的歧视?学过统计学的同学不会简单地做出结论,而是继续搜集数据并得到两个系各自录取的男女生数据:,引例:,华南理工大学精品课程,第二章 统计数据的描述,引例:,华南理工大学精品课程,第二章 统计数据的描述

2、,有了分系的录取数据,不难看到工程系录取的人数比较多,男女生录取的比率都是50%。 而财经系招生名额较少,男女生录取的比率都是25%。由于女生报财经系的人多,男生报工科的人多,因而导致男生整个录取率偏高,而女生偏低。这个例子告诉我们对数据一是要从不同角度进行分析,二是要注意权数的影响,这就是本章要讨论的问题。,引例:,华南理工大学精品课程,6,引例提问,录取中有无歧视?,Q1,Q2,Q3,统计学怎样对数据进行有效分析?,怎样理解权数对均值的影响?,华南理工大学精品课程,7,本章学习内容,1.学习如何用数据对客观事物进行计量, 如何获取数据以及对数据质量的评价 2.如何对获取的数据进行整理 3.

3、数据分布的集中趋势和离散程度 4.非正态总体的分布偏态和峰度 5.茎叶图和箱线图的特点和优势 6.统计表及统计图,华南理工大学精品课程,8,本章学习目标,了解数据的计量尺度 了解统计数据的来源和数据的质量要求 掌握数值型数据的整理方法 掌握数据集中趋势和离散程度的测度方法 掌握茎叶图和箱线图的制作方法 掌握分布偏态与峰度的测度方法 掌握统计表和统计图的使用,华南理工大学精品课程,9,第一节 数据的计量尺度,2.1,2.2,2.3,2.4,2.5,第二章具体章节结构,第二节 统计数据的来源,第三节 统计数据的质量,第四节 统计数据的整理,第五节 分布集中趋势的测度,华南理工大学精品课程,10,第

4、六节 分布离散程度的测度,2.6,2.7,2.8,2.9,第七节 分布偏态与峰度的测度,第八节 茎叶图与箱线图,第九节 统计表与统计图,第二章具体章节结构,华南理工大学精品课程,第一节 数据的计量尺度,按照计量学的一般分类方法,对数据分为四种计量尺度,即:,一、列名尺度 二、顺序尺度 三、间隔尺度 四、比率尺度,华南理工大学精品课程,12,列名尺度 (Nominal scale),也称名义尺度或分类尺度 计量层次最低 对事物进行平行的分类 各类别可以指定数字代码表示 使用时必须符合类别穷尽和互斥的要求 数据表现为“类别” 具有=或的数学特性,华南理工大学精品课程,13,顺序尺度 (Ordina

5、l scale),也称定序尺度 对事物分类的同时给出各类别的顺序 比定类尺度精确 未测量出类别之间的准确差值 数据表现为“类别”,但有序 具有或的数学特性,华南理工大学精品课程,14,间隔尺度 (Interval scale),也称间隔尺度 对事物的准确测度 比定序尺度精确 数据表现为“数值” 没有绝对零点 具有 + 或 - 的数学特性,华南理工大学精品课程,15,比率尺度 (Ratio scale),也称比率尺度 对事物的准确测度 与定距尺度处于同一层次 数据表现为“数值” 有绝对零点 具有 或 的数学特性,华南理工大学精品课程,16,四种计量尺度的比较,“”表示该尺度所具有的特性,表2-1

6、 四种计量尺度的比较,华南理工大学精品课程,17,本节提问,数据的计量尺度分为哪几种?,Q1,Q2,Q3,不同计量尺度各有什么特点?,间隔尺度和比例尺度有何区别?,华南理工大学精品课程,第二节 统计数据的来源,统计数据来源于直接组织的调 查、观察和科学试验,我们称之为第一手数据或直接的数据;或者来源于已有的数据,我们称之为第二手数据或间接的数据。,一、间接获取的数据 二、直接获取的数据,华南理工大学精品课程,19,间接取得的数据,统计部门和政府部门公布的有关资料,如各类统计年鉴 各类经济信息中心、信息咨询机构、专业调查机构等提供的数据 各类专业期刊、报纸、书籍所提供的资料 各种会议,如博览会、

7、展销会、交易会及专业性、学术性研讨会上交流的有关资料 从互联网或图书馆查阅到的相关资料,华南理工大学精品课程,20,提供统计数据的部分政府网站,表2-2 提供统计数据的部分政府网站,华南理工大学精品课程,21,提供统计数据的部分政府网站,表2-2 提供统计数据的部分政府网站(续表),华南理工大学精品课程,22,普查 (census),为特定目的专门组织的非经常性全面调查 通常是一次性或周期性的 一般需要规定统一的标准调查时间 数据的规范化程度较高 应用范围比较狭窄,华南理工大学精品课程,23,抽样调查 (sampling survey),1.从总体中随机抽取一部分单位作为样本进行调查,并根据样

8、本调查结果来推断总体特征的数据收集方法 2.具有经济性、时效性强、 适应面广、准确性 高等特点,华南理工大学精品课程,24,本节提问,简要说明统计数据的来源?,Q1,Q2,获取直接统计数据的渠道主要有哪些?,华南理工大学精品课程,第三节 统计数据的质量,统计数据的误差:,一、抽样误差 二、非抽样误差,华南理工大学精品课程,26,统计数据的误差,华南理工大学精品课程,27,抽样误差 (sampling error),由于抽样的随机性所带来的误差 所有样本可能的结果与总体真值之间的平均性差异 影响抽样误差大小的因素 样本量的大小 总体的变异性,华南理工大学精品课程,28,非抽样误差 (non-sa

9、mpling error),相对于抽样误差而言 除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异 存在于所有的调查之中 概率抽样,非概率抽样,全面性调查 有抽样框误差、回答误差、无回答误差、调查员误差、测量误差,华南理工大学精品课程,29,误差的控制,抽样误差可计算和控制 非抽样误差的控制 调查员的挑选 调查员的培训 督导员的调查专业水平 调查过程控制 调查结果进行检验、评估 现场调查人员进行奖惩的制度,华南理工大学精品课程,30,本节提问,简要说明抽样误差和非抽样误差?,Q1,Q2,非抽样误差的控制有哪些途径?,华南理工大学精品课程,第四节 统计数据的整理,一、统计数据的

10、分组 二、次数分配 三、次数分配直方图 四、洛伦茨曲线,华南理工大学精品课程,32,统计数据的分组,统计分组是统计整理的第一步,它是按照统计研究的目的,将数据分别分入不同的组内。在本章第一节中,我们将数据分成四种计量尺度,即列名尺度、顺序尺度、间隔尺度和比例尺度。其中列名尺度和顺序尺度的数据是按照事物的性质和属性划分的,因而又称为按品质标志分组;间隔尺度和比例尺度是按照事物的数量标准划分的,又称为数量标志分组。,华南理工大学精品课程,33,组距分组(要点),将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用 不等距分组,华南

11、理工大学精品课程,34,组距分组 (步骤),确定组数:组数的确定应以能够显示数据的分布特征和规律为目的 确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距( 最大值 - 最小值) 组数 统计出各组的频数并整理成频数分布表,华南理工大学精品课程,35,组距分组 (几个概念),1. 下限(low limit) :一个组的最小值 2. 上限(upper limit) :一个组的最大值 3. 组距(class width) :上限与下限之差 4. 组中值(class midpoint) :下限与上限之间的中点值,华南理工大学精品

12、课程,36,案例分析 次数分配表的编制,【例】 某车间30名工人每周加工某种零件件数如右表试对数据进行分组。,表2-3 某车间30名工人周加工零件数 (单位:件),华南理工大学精品课程,37,案例分析 次数分配表,表2-4 某车间30名工人周加工零件数的频数分布,华南理工大学精品课程,38,使用Excel频数函数 (FREQUENCY), Excel的“直方图”工具的缺陷是:频数分布和直方图没有与数据联系起来,这样,如果你改变任何一个数据,频数分布表和直方图不会跟着改变 使用Excel中的统计函数“FREQUENCY”来创建 频数分布表和直方图,可解决这一问题。,华南理工大学精品课程,39,使

13、用Excel频数函数 (FREQUENCY),创建频数分布表的步骤是: 选择与接受区域相临近的单元格区域,作为频数分布表输出的区域 选择统计函数中的“FREQUENCY”函数 在对话框 Date-array 后输入数据区域,在Bins-array后输入接受区域 同时按下ctrl-shift-Enter组合键,即得到频数分布,统计函数FREQUENCY,华南理工大学精品课程,40,分组数据的图示 (直方图的绘制),我一眼就看出来了,周加工零件在100110之间的人数最多!,图2-1 某车间工人周加工零件直方图,华南理工大学精品课程,41,分组数据的图示 (折线图的绘制),折线图与直方图 下的面积

14、相等!,图2-2 某车间工人周加工零件折线图,华南理工大学精品课程,42,次数分配的类型,图2-3 几种常见的频数分布,华南理工大学精品课程,43,洛伦茨曲线,20世纪初美国经济学家、统计学家洛伦茨(M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成 描述收入和财富分配性质 的曲线分析该国家或地区 分配的平均程度,累积的人口百分比,绝对公平线,累积的收入百分比,华南理工大学精品课程,44,基尼系数,20世纪初意大利经济学家基尼(G. Gini)根据洛伦茨曲线给出了衡收入分配平均程度的指标 A表示实际收入曲线与绝对平均线之间的面积 B表示实际收入曲

15、线与绝对不平均线之间的面积 如果A=0,则基尼系数=0,表示收入绝对平均,华南理工大学精品课程,45,基尼系数,5.如果B=0,则基尼系数=1,表示收入绝对不平均 6.基尼系数在0 和1之间取值 7.一般认为: 基尼系数若小于0.2,表明分配平均; 基尼系数在0.2至0.4之间是比较适当的, 即一个社会既有效率又没有造成极大的分配不公; 基尼系数在0.4被认为是收入分配不公平的警戒线, 超过了0.4应该采取措施缩小这一差距。,华南理工大学精品课程,46,本节提问,描述次数分配表的编制过程。,Q1,Q2,Q3,解释洛伦茨曲线及其用途。,说明基尼系数的含义和用途。,华南理工大学精品课程,第五节 分

16、布集中趋势的测度,一、众数 二、中位数 三、四分位数 四、均值 五、几何均值 六、切尾均值 七、众数、中位数和均值的比较,华南理工大学精品课程,48,众数 (mode),一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,华南理工大学精品课程,49,众数 (不惟一性),无众数 原始数据: 11 3 7 12 9 8,一个众数 原始数据: 7 4 6 13 4 4,多于一个众数 原始数据: 17 15 25 33 24 24,华南理工大学精品课程,50,中位数 (median),1.排序后处于中间位置上的值 2.不受极端值的影响 3.主要用于顺序数据,也可用数值型数据,但不能用于分类数据 4.各变量值与中位数的离差绝对值之和最小,即,华南理工大学精品课程,51,中位数 (位置的确定),华南理工大学精品课程,52,案例分析 (9个

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号