应用统计学PPT课件1

上传人:桔**** 文档编号:570364836 上传时间:2024-08-03 格式:PPT 页数:79 大小:1.25MB
返回 下载 相关 举报
应用统计学PPT课件1_第1页
第1页 / 共79页
应用统计学PPT课件1_第2页
第2页 / 共79页
应用统计学PPT课件1_第3页
第3页 / 共79页
应用统计学PPT课件1_第4页
第4页 / 共79页
应用统计学PPT课件1_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《应用统计学PPT课件1》由会员分享,可在线阅读,更多相关《应用统计学PPT课件1(79页珍藏版)》请在金锄头文库上搜索。

1、应用统计学应用统计学PPTPPT课件课件1 1课程的重要性课程的重要性个人参与社会生活的需要 专业学习的需要总学时:54 学 分:3分 第一章第一章 绪论绪论统计学的产生和发展统计学的产生和发展统计数据与统计学统计数据与统计学统计学的分科统计学的分科统计学的基本概念统计学的基本概念学习内容学习内容学习目标学习目标理解统计学的含义理解统计学的含义理解统计学与统计数据的理解统计学与统计数据的关系关系了解统计学的分科了解统计学的分科了解统计学的发展过程了解统计学的发展过程一、统计学的产生与发展一、统计学的产生与发展统计:统计工作、统计数据、统计学统计:统计工作、统计数据、统计学古典统计学阶段(古典统

2、计学阶段(1717世纪中叶世纪中叶1919世纪初)世纪初)国势学派:使用记述、对比的方法研究国家国势学派:使用记述、对比的方法研究国家基本国情基本国情政治算术学派:使用数字、图表等统计方法,政治算术学派:使用数字、图表等统计方法,研究英国、法国、荷兰三国的国情、国力研究英国、法国、荷兰三国的国情、国力概率论学派:研究随机现象概率论学派:研究随机现象近代统计学阶段(近代统计学阶段(1919世纪初世纪初2020世纪初)世纪初)现代统计学阶段(现代统计学阶段(2020世纪初至今)世纪初至今)历史上著名的统计学家历史上著名的统计学家拉普拉斯拉普拉斯高斯高斯卡尔卡尔皮尔皮尔逊逊1749-18271749

3、-18271857-19361857-19361777-18551777-1855二、统计学与统计数据二、统计学与统计数据收集、整理、显示和分析收集、整理、显示和分析统计数据的科学,目统计数据的科学,目的是探索数据的内在的是探索数据的内在数量规律性数量规律性。数据搜集:取得数据数据搜集:取得数据数据表述:图表展示数据数据表述:图表展示数据数据分析:分析数据数据分析:分析数据数据解释:结果的说明数据解释:结果的说明研究过程研究过程解释数据解释数据( (结果说明结果说明结果说明结果说明) )收集数据收集数据( (取得数据取得数据取得数据取得数据) )整理数据整理数据( (处理数据处理数据处理数据处

4、理数据) )分析数据分析数据( (研究数据研究数据研究数据研究数据) )实际问题实际问题统计规律统计规律正常条件下新生婴儿的男女性别比为正常条件下新生婴儿的男女性别比为正常条件下新生婴儿的男女性别比为正常条件下新生婴儿的男女性别比为107:100107:100107:100107:100投掷一枚质地均匀的硬币,出现正面和反投掷一枚质地均匀的硬币,出现正面和反投掷一枚质地均匀的硬币,出现正面和反投掷一枚质地均匀的硬币,出现正面和反面的频率各为面的频率各为面的频率各为面的频率各为1/21/21/21/2;投掷一枚骰子出现;投掷一枚骰子出现;投掷一枚骰子出现;投掷一枚骰子出现1 1 1 16 6 6

5、 6点的频率各为点的频率各为点的频率各为点的频率各为1/61/61/61/6农作物的产量与施肥量之间存在相关关系农作物的产量与施肥量之间存在相关关系农作物的产量与施肥量之间存在相关关系农作物的产量与施肥量之间存在相关关系三、统计学的分科三、统计学的分科1.1.使用方法使用方法描述统计学(描述统计学(descriptive statisticsdescriptive statistics)研究数据收集、整理和描研究数据收集、整理和描述的统计学分支述的统计学分支 内容内容搜集数据搜集数据整理数据整理数据展示数据展示数据描述性分析描述性分析 目的目的描述数据特征描述数据特征找出数据的基本规律找出数据

6、的基本规律0 0 0252525505050Q QQ1 1 1Q QQ2 2 2Q QQ3 3 3Q QQ4 4 4¥x x x = 30 = 30 = 30 s s s2 22 = 105 = 105 = 105 研究对象:确定性现象研究对象:确定性现象推断统计学(推断统计学(inferential statisticsinferential statistics)总体总体总体总体样样样样本本本本研究如何利用样本数研究如何利用样本数据来推断总体特征的据来推断总体特征的统计学分支统计学分支内容内容参数参数估计估计假设检验假设检验目的目的对总体特征作出推断对总体特征作出推断 研究对象:不确定性现

7、象研究对象:不确定性现象描述统计与推断统计的关系描述统计与推断统计的关系反映客观现反映客观现反映客观现反映客观现象的数据象的数据象的数据象的数据描述统计描述统计描述统计描述统计(统计数据的搜集、整(统计数据的搜集、整(统计数据的搜集、整(统计数据的搜集、整理、显示和分析等)理、显示和分析等)理、显示和分析等)理、显示和分析等)样本数据样本数据总体数据总体数据总体内在的总体内在的总体内在的总体内在的数量规律性数量规律性数量规律性数量规律性概率论概率论概率论概率论(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律和中心极限定理等)和中心极限定理等)和中

8、心极限定理等)和中心极限定理等)推断统计推断统计推断统计推断统计(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进行估计和检验等)行估计和检验等)行估计和检验等)行估计和检验等)2.2.应用领域应用领域理论统计学与应用统计学理论统计学与应用统计学理论统计理论统计理论统计理论统计研究统计学的一般理论研究统计学的一般理论研究统计方法的数学原理研究统计方法的数学原理应用统计应用统计应用统计应用统计研究统计学在各领域的具体应用研究统计学在各领域的具体应用国民经济统计学,人口统计学,管理统计学国

9、民经济统计学,人口统计学,管理统计学3.3.统计学与其他学科的关系统计学与其他学科的关系与数学的关系与数学的关系以数学为基础,但不同于数学以数学为基础,但不同于数学与专业课程的关系与专业课程的关系是专业课程的工具,通过使用可以帮助我们发是专业课程的工具,通过使用可以帮助我们发现研究领域所存在的规律,进一步结合专业知现研究领域所存在的规律,进一步结合专业知识对它进行阐释可以形成新的理论识对它进行阐释可以形成新的理论数学:抽象数学:抽象 无量纲无量纲 演绎为主演绎为主 统计学:具体统计学:具体 有量纲有量纲 归纳与演绎归纳与演绎统计工作不是把数字随便填到几个格格里统计工作不是把数字随便填到几个格格

10、里去,而应当是用数字来说明所研究的现象去,而应当是用数字来说明所研究的现象在实际生活中已经充分呈现出来和正在呈在实际生活中已经充分呈现出来和正在呈现出来的各种社会类型。现出来的各种社会类型。 - -列宁全集列宁全集四、几个基本概念四、几个基本概念1. 1. 总体和样本总体和样本总体总体(population)所研究的全部个体的集合,其中的每一个个体称为总所研究的全部个体的集合,其中的每一个个体称为总体单位体单位总体单位具有大量性、同质性、异质性总体单位具有大量性、同质性、异质性样本样本 (sample)从总体中抽取的一部分元素的集合从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量

11、构成样本的元素的数目称为样本容量 2. 2. 标志和指标标志和指标说明总体单位属性和特征的名称说明总体单位属性和特征的名称品质标志:总体单位质的特征品质标志:总体单位质的特征数量标志:总体单位量的特征数量标志:总体单位量的特征姓名姓名 性别性别 年龄年龄 学历学历 工龄工龄 收入收入王小二王小二 男男 56 56 研究生研究生 28 30 28 30万万标志名称标志名称标志值标志值企业名称企业名称 所属行业所属行业 员工人数员工人数 年销售额年销售额 (变量)(变量)标志:标志:指标:综合反应总体数量特征的概念和数值指标:综合反应总体数量特征的概念和数值具有可量性和综合性具有可量性和综合性理论

12、:指标名称、核算方法、计量单位理论:指标名称、核算方法、计量单位实践:时间、空间、数值实践:时间、空间、数值常用指标:总量指标常用指标:总量指标 相对指标相对指标 平均指标平均指标20142014年我国国内生产总值年我国国内生产总值568845568845亿元,按可比亿元,按可比价格计算,比上年增长价格计算,比上年增长7.7%7.7%。全年全国粮食总。全年全国粮食总产量达到产量达到6019460194万吨,比上年增加万吨,比上年增加12361236万吨,增万吨,增长长2.1%2.1%。全年城镇居民人均总收入。全年城镇居民人均总收入2954729547元。其元。其中,城镇居民人均可支配收入中,城

13、镇居民人均可支配收入2695526955元,比上年元,比上年名义增长名义增长9.7%9.7%,扣除价格因素实际增长,扣除价格因素实际增长7.0%7.0%。全年农村居民人均纯收入全年农村居民人均纯收入88968896元,比上年名义元,比上年名义增长增长12.4%12.4%,扣除价格因素实际增长,扣除价格因素实际增长9.3%9.3%。20132013年全国居民收入基尼系数为年全国居民收入基尼系数为0.473 0.473 。 总结:统计学总结:统计学数据的科学数据的科学设置科学的指标设置科学的指标获取真实的数据获取真实的数据运用科学的分析方法运用科学的分析方法第二章第二章 统计数据的描述统计数据的描

14、述 统计数据的来源统计数据的来源统计数据的来源统计数据的来源 统计数据的整理统计数据的整理统计数据的整理统计数据的整理 分布集中趋势的测度分布集中趋势的测度分布集中趋势的测度分布集中趋势的测度 分布离散程度的测度分布离散程度的测度分布离散程度的测度分布离散程度的测度 统计图与统计表统计图与统计表统计图与统计表统计图与统计表学习内容学习内容了解统计数据的来源和数据的质了解统计数据的来源和数据的质了解统计数据的来源和数据的质了解统计数据的来源和数据的质量要求量要求量要求量要求掌握数值型数据的整理方法掌握数值型数据的整理方法掌握数值型数据的整理方法掌握数值型数据的整理方法掌握数据集中趋势和离散程度的

15、掌握数据集中趋势和离散程度的掌握数据集中趋势和离散程度的掌握数据集中趋势和离散程度的测度方法测度方法测度方法测度方法掌握茎叶图和箱线图的制作方法掌握茎叶图和箱线图的制作方法掌握茎叶图和箱线图的制作方法掌握茎叶图和箱线图的制作方法了解分布偏态与峰度的测度方法了解分布偏态与峰度的测度方法了解分布偏态与峰度的测度方法了解分布偏态与峰度的测度方法掌握统计表和统计图的使用掌握统计表和统计图的使用掌握统计表和统计图的使用掌握统计表和统计图的使用学习目标学习目标第一节第一节 数据的收集数据的收集一、直接渠道一、直接渠道1. 1. 普查(普查(censuscensus)为特定目的专门组织的全面调查为特定目的专

16、门组织的全面调查通常是一次性或周期性的,非经常通常是一次性或周期性的,非经常一般需要规定统一的标准调查时间一般需要规定统一的标准调查时间数据的规范化程度较高数据的规范化程度较高应用范围比较狭窄应用范围比较狭窄总体总体总体总体统计调查是按照预定的统计任务,运用科学的统计调查方法,有计统计调查是按照预定的统计任务,运用科学的统计调查方法,有计划有组织地向客观实际搜集资料的全过程。划有组织地向客观实际搜集资料的全过程。2. 2. 抽样调查(抽样调查(sampling surveysampling survey) 从总体中从总体中随机抽取随机抽取一部分单位作为样本进行调查,并一部分单位作为样本进行调查

17、,并根据样本调查结果来根据样本调查结果来推断总体特征推断总体特征的数据收集方法的数据收集方法 特点:经济性、时效性、适应面广、准确性高特点:经济性、时效性、适应面广、准确性高总体总体总体总体随机样本随机样本随机样本随机样本3. 3. 统计报表统计报表按国家统一规定的表式,统一的指标项目,统一的报送时按国家统一规定的表式,统一的指标项目,统一的报送时间,自下而上逐级定期提供基本统计资料的调查方法。间,自下而上逐级定期提供基本统计资料的调查方法。4. 4. 重点调查重点调查在所要调查的总体中选择一部分在所要调查的总体中选择一部分重点单位重点单位进行调查进行调查重点单位是着眼于现象量的方面,尽管这些

18、单位在全重点单位是着眼于现象量的方面,尽管这些单位在全部单位中只占一部分,但是它们的某一主要标志的标部单位中只占一部分,但是它们的某一主要标志的标志总量在总体标志总量中有绝大比重。志总量在总体标志总量中有绝大比重。重点单位的选择着眼于它所研究现象主要标志总量的比重点单位的选择着眼于它所研究现象主要标志总量的比重,因而它的选择重,因而它的选择不带有主观因素不带有主观因素。5. 5. 典型调查典型调查有意识地有意识地选取若干具有代表性的单位进行调查和研选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。究,借以认识事物发展变化的规律。虽然抽样调查、重点调查、典型调查都属于非全面虽然

19、抽样调查、重点调查、典型调查都属于非全面调查,但是只有调查,但是只有抽样调查可以用来推断总体的数量抽样调查可以用来推断总体的数量特征特征。重点调查和典型调查所得资料只能形成对总。重点调查和典型调查所得资料只能形成对总体的定性认识,不能上升为总体的定量结果。体的定性认识,不能上升为总体的定量结果。解剖麻雀:总体内部个体间差异很小解剖麻雀:总体内部个体间差异很小划类选典:总体内部个体间差异较大划类选典:总体内部个体间差异较大二、间接渠道二、间接渠道统计部门和政府部门公布的有关资料,如各类统统计部门和政府部门公布的有关资料,如各类统计年鉴计年鉴各类专业期刊、报纸、书籍所提供的资料各类专业期刊、报纸、

20、书籍所提供的资料各种会议,如博览会、展销会、交易会及专业性、各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料从互联网或图书馆查阅到的相关资料 InterInternetnethttp/http/WWW.WWW.中国统计中国统计中国统计中国统计年鉴年鉴年鉴年鉴20012001中中中中国国国国人人人人口口口口统统统统计计计计年年年年鉴鉴鉴鉴中中中中国国国国市市市市场场场场统统统统计计计计年年年年鉴鉴鉴鉴世世世世界界界界发发发发展展展展报报报报告告告告世世世世界界界界经经经经济济济济年年年年检检检检工工工工业业业业普

21、普普普查查查查数数数数据据据据中国统计出版社中国政府及相关中国政府及相关机构机构 网址网址数据内容数据内容国家统计局国家统计局http:/统计年鉴、统计统计年鉴、统计月报等月报等国务院发展研究国务院发展研究中心信息网中心信息网http:/宏观经济、财经、宏观经济、财经、货币金融等货币金融等 中国经济信息网中国经济信息网http:/经济信息及各类经济信息及各类网站网站华通数据中心华通数据中心http:/国家统计局授权国家统计局授权的数据中心的数据中心中国决策信息网中国决策信息网http:/决策知识及案例决策知识及案例三农数据网三农数据网http:/三农信息、论坛三农信息、论坛及相关网站及相关网站

22、补充:文献检索补充:文献检索系统检系统检索索追溯检索追溯检索浏览检浏览检索索选取合适的数据库和检索选取合适的数据库和检索的关键词的关键词Science Citation IndexScience Citation Index平时的积累平时的积累三、数据的误差三、数据的误差1. 1. 抽样误差抽样误差由于抽样的随机性所带来的误差由于抽样的随机性所带来的误差由于抽样的随机性所带来的误差由于抽样的随机性所带来的误差 所有样本可能的结果与总体真值之间的平均性差异所有样本可能的结果与总体真值之间的平均性差异所有样本可能的结果与总体真值之间的平均性差异所有样本可能的结果与总体真值之间的平均性差异 影响抽样

23、误差影响抽样误差影响抽样误差影响抽样误差 大小的因素大小的因素大小的因素大小的因素样本容量的大小样本容量的大小总体的变异性总体的变异性2. 2. 非抽样误差非抽样误差 除抽样误差之外的,由于其他原因造成的样本观察除抽样误差之外的,由于其他原因造成的样本观察除抽样误差之外的,由于其他原因造成的样本观察除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异结果与总体真值之间的差异结果与总体真值之间的差异结果与总体真值之间的差异 存在于所有的调查之中存在于所有的调查之中存在于所有的调查之中存在于所有的调查之中抽样误差可计算和控制抽样误差可计算和控制抽样误差可计算和控制抽样误差可计算和控

24、制非抽样误差的控制非抽样误差的控制非抽样误差的控制非抽样误差的控制调查员的挑选调查员的挑选调查员的挑选调查员的挑选调查员的培训调查员的培训调查员的培训调查员的培训调查过程控制调查过程控制调查过程控制调查过程控制调查结果进行检验、评估调查结果进行检验、评估调查结果进行检验、评估调查结果进行检验、评估3. 3. 误差的控制误差的控制第二节第二节 数据的整理数据的整理一、数据的预处理一、数据的预处理数据的审核数据的审核数据的审核数据的审核逻辑审核逻辑审核计算检查计算检查保证数据的完整性和准确性保证数据的完整性和准确性目的目的目的目的二、统计分组二、统计分组根据统计研究的需要,将数据按照某个属性根据统

25、计研究的需要,将数据按照某个属性分成不同的组别分成不同的组别1.1.1.1.单变量值分组单变量值分组单变量值分组单变量值分组适用于品质标志分组适用于品质标志分组及数量标志分组中变量值较少时及数量标志分组中变量值较少时2. 2. 2. 2. 组距分组组距分组组距分组组距分组【例例例例】某某车车间间3030名名工工人人每每周周加加工工某某种种零零件件件件数数如如右右表表试试对对 数数 据据 进进 行行分组。分组。 组距分组组距分组 (要点要点)将变量值的一个区间作为一组将变量值的一个区间作为一组适合于连续变量适合于连续变量适合于变量值较多的情况适合于变量值较多的情况需要遵循需要遵循“不重不漏不重不

26、漏”的原则的原则可采用等距分组,也可采用不可采用等距分组,也可采用不等距分组等距分组 组距分组(思路)组距分组(思路)先确定组数,再确定组距先确定组数,再确定组距先确定组距,再确定组数先确定组距,再确定组数组数越多,组距越小组数越多,组距越小最终分组结果需要反应出总体内各单位最终分组结果需要反应出总体内各单位的实际分布特征的实际分布特征例:例:66 69 74 76 78 80 82 84 88 8966 69 74 76 78 80 82 84 88 89组距分组组距分组(几个概念几个概念)下限下限(low limit) :一个组的最小值:一个组的最小值上限上限(upper limit) :

27、一个组的最大值:一个组的最大值组距组距(class width) :上限与下限之差:上限与下限之差组中值组中值(class midpoint) :下限与上限之间的中点值:下限与上限之间的中点值频数分布表频数分布表3. 累积频数累积频数向上累积频数向上累积频数(以下累积)(以下累积)变量值由小到大排列,表示某个变量变量值由小到大排列,表示某个变量值的位置,或者小于等于某个变量值值的位置,或者小于等于某个变量值的个数的个数向下累积频数向下累积频数(以上累积)(以上累积)变量值由大到小排列,表示某个变量变量值由大到小排列,表示某个变量值的位置,或者大于等于某个变量值值的位置,或者大于等于某个变量值的

28、个数的个数例:例:P19 P19 表表2.92.9三、数据分布的图示和类型三、数据分布的图示和类型1. 1. 直方图直方图(histogram)(histogram)用矩形的宽度和高度来表示频数分布的用矩形的宽度和高度来表示频数分布的用矩形的宽度和高度来表示频数分布的用矩形的宽度和高度来表示频数分布的图形图形图形图形在直角坐标中,用横轴表示数据分组,在直角坐标中,用横轴表示数据分组,在直角坐标中,用横轴表示数据分组,在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频纵轴表示频数或频率,各组与相应的频纵轴表示频数或频率,各组与相应的频纵轴表示频数或频率,各组与相应的频数就形成了

29、一个矩形,即直方图数就形成了一个矩形,即直方图数就形成了一个矩形,即直方图数就形成了一个矩形,即直方图2. 2. 折线图折线图(frequency polygon)(frequency polygon)折线图也称频数多边形图折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点是在直方图的基础上,把直方图顶部的中点(组中值组中值)用直线连用直线连接起来,再把原来的直方图抹掉接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连

30、接到横轴,最后一个矩形顶部中点与其竖边的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的示的频数分布是一致的次数分配的类型次数分配的类型对称分布对称分布对称分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布正正正J J J型分布型分布型分布反反反J J J型分布型分布型分布U UU型分布型分布型分布几种常见的频数分布几种常见的频数分布几种常见的频数分布几种常见的频数分布四、洛伦茨曲线四、洛伦茨曲线描述收入和财富分配性质的描述收入和财富分配性质的曲线,分

31、析该国家或地区分曲线,分析该国家或地区分配的平均程度配的平均程度20世纪初美国经济学家、统世纪初美国经济学家、统计学家洛伦茨计学家洛伦茨(M.E. Lorentz)根据意大利经济学根据意大利经济学家巴雷特家巴雷特(V. Pareto)提出的提出的收入分配公式绘制而成收入分配公式绘制而成AB累累累累积积积积的的的的收收收收入入入入百百百百分分分分比比比比 累积的人口百分比累积的人口百分比累积的人口百分比累积的人口百分比 绝对公平线绝对公平线绝对公平线绝对公平线 基尼系数基尼系数基尼系数基尼系数 20 20 20 20世纪初意大利经济学家基尼世纪初意大利经济学家基尼世纪初意大利经济学家基尼世纪初意

32、大利经济学家基尼(G. Gini)(G. Gini)(G. Gini)(G. Gini)根据洛伦茨曲线给根据洛伦茨曲线给根据洛伦茨曲线给根据洛伦茨曲线给出了衡量收入分配平均程度的指标出了衡量收入分配平均程度的指标出了衡量收入分配平均程度的指标出了衡量收入分配平均程度的指标A A A A表示实际收入曲线与绝对平均线之间的面积表示实际收入曲线与绝对平均线之间的面积表示实际收入曲线与绝对平均线之间的面积表示实际收入曲线与绝对平均线之间的面积B B B B表示实际收入曲线与绝对不平均线之间的面积表示实际收入曲线与绝对不平均线之间的面积表示实际收入曲线与绝对不平均线之间的面积表示实际收入曲线与绝对不平均

33、线之间的面积如果如果如果如果A=0A=0A=0A=0,则基尼系数,则基尼系数,则基尼系数,则基尼系数=0=0=0=0,表示收入绝对平均,表示收入绝对平均,表示收入绝对平均,表示收入绝对平均如果如果如果如果B=0B=0B=0B=0,则基尼系数,则基尼系数,则基尼系数,则基尼系数=1=1=1=1,表示收入绝对不平均,表示收入绝对不平均,表示收入绝对不平均,表示收入绝对不平均基尼系数在基尼系数在基尼系数在基尼系数在0 0 0 0 和和和和1 1 1 1之间取值之间取值之间取值之间取值 一般认为,基尼系数若小于一般认为,基尼系数若小于一般认为,基尼系数若小于一般认为,基尼系数若小于0.20.20.20

34、.2,表明分配平均;基尼系数,表明分配平均;基尼系数,表明分配平均;基尼系数,表明分配平均;基尼系数在在在在0.20.20.20.2至至至至0.40.40.40.4之间是比较适当的,即一个社会既有效率又没有之间是比较适当的,即一个社会既有效率又没有之间是比较适当的,即一个社会既有效率又没有之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在造成极大的分配不公;基尼系数在造成极大的分配不公;基尼系数在造成极大的分配不公;基尼系数在0.40.40.40.4被认为是收入分配不被认为是收入分配不被认为是收入分配不被认为是收入分配不公平的警戒线,超过了公平的警戒线,超过了公平的警戒线

35、,超过了公平的警戒线,超过了0.40.40.40.4应该采取措施缩小这一差距。应该采取措施缩小这一差距。应该采取措施缩小这一差距。应该采取措施缩小这一差距。AB第三节第三节第三节第三节 集中趋势的测度集中趋势的测度集中趋势的测度集中趋势的测度一、众数(一、众数(modemode)一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值适合于数据量较多时使用适合于数据量较多时使用适合于数据量较多时使用适合于数据量较多时使用不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响一组数据可能没有众数或有几个众数一组数据可能没有

36、众数或有几个众数一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据主要用于分类数据,也可用于顺序数据和数值型数据主要用于分类数据,也可用于顺序数据和数值型数据主要用于分类数据,也可用于顺序数据和数值型数据无众数无众数原始数据原始数据: 10 5 9 12 6 8一个众数一个众数一个众数一个众数原始数据原始数据原始数据原始数据: 6 : 6 7 7 9 8 9 8 7 77 7多于一个众数多于一个众数多于一个众数多于一个众数原始数据原始数据原始数据原始数据: 25 : 25 28 2828 28 36 36 42 4242 42应用:市

37、场中价格的确定应用:市场中价格的确定含义:最典型的,最普遍的含义:最典型的,最普遍的二、中位数(二、中位数(medianmedian)排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%不受极端值的影响不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据【例】【例】 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排排 序序: 750 780 850 960 1080 1250 1500 1630 2000位

38、位 置置: 1 2 3 4 5 6 7 8 9【例】:【例】:10个家庭的人均月收入数据个家庭的人均月收入数据排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9 10 其他位置平均数其他位置平均数四分位数四分位数(quartile)QQL LQQMMQQU U25%25%25%25%十分位数(十分位数(decile)D D1 1 D D2 2 D D3 3 D D9 9百分位数(百分位数(percentile)P P1 1 P P2 2 P P9999三、均值(三、均值(meanmean)x x

39、 x x1 1 1 1 ,x x x x2 2 2 2 ,x x x xN N N Nx x1 1 ,x x2 2 , ,x xn n设一组数据为:设一组数据为:设一组数据为:设一组数据为:样本样本总体总体总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值1 1、简单算术平均(、简单算术平均(simple arithmetic meansimple arithmetic mean)2 2、加权算术平均、加权算术平均(weighted arithmetic meanweighted arithmetic mean)设一组数据为:设一组数据为:设一组数据为:设一组数据为: x x1

40、1 ,x x2 2 , ,x xn n相应的频数为:相应的频数为:相应的频数为:相应的频数为: f f1 1 , f f2 2 , ,f fn n总体总体样本样本变形公式变形公式变量值变量值权重权重性质性质各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零 各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小四、几何平均四、几何平均(geometric meangeometric mean)适用条件适用条件变量值以相对数的形式出现变量值以相对数的形式出现且变量值相乘有意义且变量值相乘有意义应用应用计算平均发展速度计算

41、平均发展速度平均收益率平均收益率流水线的产品合格率流水线的产品合格率某产品要经过生产流水线连续作业的四道工序才能某产品要经过生产流水线连续作业的四道工序才能完成。某月份各工序产品的合格率分别为完成。某月份各工序产品的合格率分别为98%98%、95%95%、95%95%、97%97%,计算整个流水线产品合格率?,计算整个流水线产品合格率?某银行为鼓励用户长期存款,以复利方式计息,某某银行为鼓励用户长期存款,以复利方式计息,某1010年期存款的年利率第年期存款的年利率第1414年为年为3%3%、第、第5757年年为年年为4.5%4.5%、第、第810810年为年为5.5%5.5%。则。则1010年

42、的平均年利率?年的平均年利率?平均年利率为平均年利率为4.19%4.19%五、众数、中位数、均值的比较五、众数、中位数、均值的比较1 1、数量关系、数量关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值 = = = 中位数中位数中位数中位数中位数中位数 = = 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值2 2、众数、中

43、位数、均值的特点和应用、众数、中位数、均值的特点和应用众数众数不受极值的影响不受极值的影响易于理解,最典型的,尤其适易于理解,最典型的,尤其适用于类型变量用于类型变量不唯一不唯一中位数中位数不受极值的影响不受极值的影响数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用均值均值数学性质稳定数学性质稳定易受极值影响易受极值影响数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用前三季度,全国农村居民人均现金收入前三季度,全国农村居民人均现金收入85278527元,同比名义元,同比名义增长增长11.8%11.8%,扣除价格因素实际增长,扣除价格因素实际增长9.7%9.7%。全国城镇居民

44、。全国城镇居民人均可支配收入人均可支配收入2204422044元,同比名义增长元,同比名义增长9.3%9.3%,扣除价格,扣除价格因素实际增长因素实际增长6.9%6.9%。根据城乡一体化住户调查,前三季度。根据城乡一体化住户调查,前三季度全国居民人均可支配收入全国居民人均可支配收入1498614986元,同比名义增长元,同比名义增长10.5%10.5%,扣除价格因素实际增长扣除价格因素实际增长8.2%8.2%。全国居民人均可支配收入中。全国居民人均可支配收入中位数位数1312013120元,同比名义增长元,同比名义增长12.1%12.1%。 20142014年三季度宏观经济数据年三季度宏观经济

45、数据第四节第四节第四节第四节 离散程度的测度离散程度的测度离散程度的测度离散程度的测度一、极差(一、极差(rangerange)R R = max(= max(x xi i) - min() - min(x xi i) )一组数据的最大值与最小值之差一组数据的最大值与最小值之差一组数据的最大值与最小值之差一组数据的最大值与最小值之差离散程度的最简单测度值离散程度的最简单测度值离散程度的最简单测度值离散程度的最简单测度值易受极端值影响易受极端值影响易受极端值影响易受极端值影响二、内距(二、内距(Inter-Quartile Range, IQRInter-Quartile Range, IQR

46、)上四分位数与下四分位数之差上四分位数与下四分位数之差上四分位数与下四分位数之差上四分位数与下四分位数之差 IQR= IQR= IQR= IQR= Q Q Q Q3 3 3 3 Q Q Q Q1 1 1 1反映了中间反映了中间反映了中间反映了中间50%50%50%50%数据的离散程度数据的离散程度数据的离散程度数据的离散程度不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响三、方差和标准差三、方差和标准差(variance, standard variance, standard deviationdeviation)未分组数据:未分组数据:未分组数据:未分组数据:分组数据:分组

47、数据:分组数据:分组数据:总体方差和标准差总体方差和标准差未分组数据:未分组数据:未分组数据:未分组数据:分组数据:分组数据:分组数据:分组数据:注意:注意:注意:注意:注意:注意:样本方差用自样本方差用自样本方差用自样本方差用自样本方差用自样本方差用自由度由度由度由度由度由度n nn-1-1-1去除去除去除去除去除去除! !自由度自由度自由度自由度( ( ( (degree of freedomdegree of freedomdegree of freedomdegree of freedom) ) ) )一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数一组数据中可以自

48、由取值的数据的个数一组数据中可以自由取值的数据的个数当样本数据的个数为当样本数据的个数为当样本数据的个数为当样本数据的个数为 n n n n 时,若样本均值确定后时,若样本均值确定后时,若样本均值确定后时,若样本均值确定后, , , ,只有只有只有只有n n n n- - - -1 1 1 1个数据可以自由取值,其中必有一个数据不能自由取个数据可以自由取值,其中必有一个数据不能自由取个数据可以自由取值,其中必有一个数据不能自由取个数据可以自由取值,其中必有一个数据不能自由取值值值值例如,样本有例如,样本有例如,样本有例如,样本有3 3 3 3个数值,当个数值,当个数值,当个数值,当 确定后,确

49、定后,确定后,确定后,x x x x1 1 1 1,x x x x2 2 2 2和和和和x x x x3 3 3 3有有有有两个数据可以自由取值,另一个则不能自由取值,比如两个数据可以自由取值,另一个则不能自由取值,比如两个数据可以自由取值,另一个则不能自由取值,比如两个数据可以自由取值,另一个则不能自由取值,比如x x x x1 1 1 1=6=6=6=6,x x x x2 2 2 2=7=7=7=7,那么,那么,那么,那么x x x x3 3 3 3则必然取则必然取则必然取则必然取2 2 2 2,而不能取其他值,而不能取其他值,而不能取其他值,而不能取其他值样本方差用自由度去除,其原因可从

50、多方面解释,从实样本方差用自由度去除,其原因可从多方面解释,从实样本方差用自由度去除,其原因可从多方面解释,从实样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总际应用角度看,在抽样估计中,当用样本方差去估计总际应用角度看,在抽样估计中,当用样本方差去估计总际应用角度看,在抽样估计中,当用样本方差去估计总体方差体方差体方差体方差2 2 2 2时,它是时,它是时,它是时,它是2 2 2 2的无偏估计量的无偏估计量的无偏估计量的无偏估计量变形公式:变形公式:同随机变量的方差同随机变量的方差四、标准差的作用四、标准差的作用判断变量的离散程度判断变量的离散

51、程度判断某一变量取值是否一致判断某一变量取值是否一致判断某一变量落在某一区间的概率判断某一变量落在某一区间的概率切比雪夫定律:切比雪夫定律: 判断某一变量值在数据集合中的位置判断某一变量值在数据集合中的位置标准化值标准化值五、离散系数五、离散系数 (coefficient of variationcoefficient of variation )例:甲乙两组工人加工零件数如下例:甲乙两组工人加工零件数如下60 65 70 75 8060 65 70 75 802 5 7 9 122 5 7 9 12甲组甲组乙组乙组离散系数:标准差与其相应的均值之比离散系数:标准差与其相应的均值之比离散系数:

52、标准差与其相应的均值之比离散系数:标准差与其相应的均值之比或或消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响用于对不同变量离散程度的比较用于对不同变量离散程度的比较用于对不同变量离散程度的比较用于对不同变量离散程度的比较【 例例例例 】某管理局抽查了所属的某管理局抽查了所属的某管理局抽查了所属的某管理局抽查了所属的8 8 8 8家企业,其产品销售家企业,其产品销售家企业,其产品销售家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度数据如表。试比较产品销售额与销售利润的离散程度数据如表。试比较

53、产品销售额与销售利润的离散程度数据如表。试比较产品销售额与销售利润的离散程度结论:结论:结论:结论: 计算结果表明,计算结果表明,计算结果表明,计算结果表明,v v v v1 1 1 1 v v v v2 2 2 2,说明产品销售额的,说明产品销售额的,说明产品销售额的,说明产品销售额的离散程度小于销售利润的离散程度离散程度小于销售利润的离散程度离散程度小于销售利润的离散程度离散程度小于销售利润的离散程度第五节第五节第五节第五节 偏态系数与峰度系数偏态系数与峰度系数偏态系数与峰度系数偏态系数与峰度系数一、偏态系数一、偏态系数反映变量偏斜程度的指标反映变量偏斜程度的指标通常通常SKSK取值在取值

54、在-3-3+3+3之间,绝对值越大,表明之间,绝对值越大,表明偏斜程度越大偏斜程度越大大于大于0 0为正偏(右偏),小于为正偏(右偏),小于0 0为负偏(左偏),等为负偏(左偏),等于于0 0为对称分布为对称分布二、峰度系数二、峰度系数是对数据分布平峰或尖峰程度的测度是对数据分布平峰或尖峰程度的测度K=0 K=0 正态分布正态分布K K0 0 尖峰分布尖峰分布K K0 0 平峰分布平峰分布第六节第六节第六节第六节 统计表与统计图统计表与统计图统计表与统计图统计表与统计图一、统计表一、统计表表表2.11 某厂职工人数统计表某厂职工人数统计表2007年年12月月31日日性别性别人数(人)人数(人)

55、比率()比率()男男 女女25311568.7531.25表头表头行行标标题题列标题列标题数数字字资资料料合计合计 368 100.00 资料来源:资料来源:附加附加合理安排统计表的结构,合理安排统计表的结构,长方形长方形表格,长宽保持适当比例;表格,长宽保持适当比例;表头一般应包括表号、总标题和表中数据的性质;表头一般应包括表号、总标题和表中数据的性质;满足满足3W3W要求:数据的时间要求:数据的时间(when)(when)、地点(、地点(wherewhere)、何种数据)、何种数据(whatwhat)上下两端用上下两端用粗线粗线,表内用细线绘制,两端采用,表内用细线绘制,两端采用开口式开口

56、式;注解或资料来源注解或资料来源统计表的设计统计表的设计科学、实用、简练、美观科学、实用、简练、美观二、统计图二、统计图1.1.茎叶图(茎叶图(stem-and-leaf displaystem-and-leaf displaystem-and-leaf displaystem-and-leaf display)用于显示未分组的原始数据的分布用于显示未分组的原始数据的分布由由“茎茎”和和“叶叶”两部分构成,其图形是由数字组成的两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字树叶上只保留一位数字茎叶图类似于横

57、置的直方图,但又有区别茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出直方图可观察一组数据的分布状况,但没有给出具体的数值具体的数值茎叶图既能给出数据的分布状况,又能给出每一茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息个原始数值,保留了原始数据的信息茎叶图茎叶图茎叶图茎叶图( ( ( (例题分析例题分析例题分析例题分析) ) ) )2 2、箱线图(、箱线图(box plotbox plot) 用于显示未分组的原始数据的分布用于显示未分组的原始数据的分布用于显示未分组的原始数据的分布用于显示未分组的原始数据的分布 箱线图它由一个箱子和两

58、条线段组成箱线图它由一个箱子和两条线段组成箱线图它由一个箱子和两条线段组成箱线图它由一个箱子和两条线段组成, , , ,显示出一组显示出一组显示出一组显示出一组数据的数据的数据的数据的5 5 5 5个特征值个特征值个特征值个特征值首先找出一组数据的首先找出一组数据的首先找出一组数据的首先找出一组数据的5 5 5 5个特征值,即个特征值,即个特征值,即个特征值,即最大值、最大值、最大值、最大值、最小值最小值最小值最小值和三个和三个和三个和三个四分位数四分位数四分位数四分位数连接两个四分(位)数画出箱子,再将两个连接两个四分(位)数画出箱子,再将两个连接两个四分(位)数画出箱子,再将两个连接两个四

59、分(位)数画出箱子,再将两个极值点与箱子相连接极值点与箱子相连接极值点与箱子相连接极值点与箱子相连接箱线图的绘制方法箱线图的绘制方法最小值最小值最小值最小值最小值最小值848484最大值最大值最大值最大值最大值最大值128128128中位数中位数中位数中位数中位数中位数105105105下四分位数下四分位数下四分位数下四分位数下四分位数下四分位数969696上四分位数上四分位数上四分位数上四分位数上四分位数上四分位数10910910980 85 90 95 100 105 110 150 120 125 13080 85 90 95 100 105 110 150 120 125 13080

60、85 90 95 100 105 110 150 120 125 130周加工零件数的箱线图周加工零件数的箱线图周加工零件数的箱线图周加工零件数的箱线图箱线图箱线图箱线图箱线图( ( ( (例题分析例题分析例题分析例题分析) ) ) )左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU对称分布对称分布对称分布对称分布对称分布对称分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布Q QQL LL 中位数中位数中位数中位数中位数中位数 Q QQU UU分布的形

61、状与箱线图分布的形状与箱线图分布的形状与箱线图分布的形状与箱线图11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据未分组数据未分组数据未分组数据多批数据箱线图多批数据箱线图多批数据箱线图多批数据箱线图 ( ( ( (例题分析例题分析例题分析例题分析) ) ) )8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图结束结束

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号