《大学统计学 第2章 统计数据的搜集、整理与显示》由会员分享,可在线阅读,更多相关《大学统计学 第2章 统计数据的搜集、整理与显示(49页珍藏版)》请在金锄头文库上搜索。
1、大学统计学大学统计学 第第2章章 统统计数据的搜集、整理计数据的搜集、整理与显示与显示第二章第二章统计数据的搜集、整理与显示统计数据的搜集、整理与显示n第一节第一节统计数据的搜集统计数据的搜集n第二节第二节统计数据的整理统计数据的整理n第三节第三节统计数据的显示统计数据的显示2第一节第一节统计数据的搜集统计数据的搜集一、一、统计数据的搜集方法统计数据的搜集方法1. 1. 统计数据搜集的概念统计数据搜集的概念n根据统计研究预定的目的和任务,运用科学的方法与根据统计研究预定的目的和任务,运用科学的方法与手段,有计划、有组织地向客观实际采集数据的过程手段,有计划、有组织地向客观实际采集数据的过程2.
2、 2. 统计数据来源:统计数据来源:n原始资料(第一手资料);次级资料(第二手资料)原始资料(第一手资料);次级资料(第二手资料)3. 3. 统计数据的分类统计数据的分类n按其性质不同分为调查数据和试验数据按其性质不同分为调查数据和试验数据 4. 4. 统计数据的搜集方法统计数据的搜集方法n对搜集原始资料而言,常用的方法有:对搜集原始资料而言,常用的方法有:n直接观察法、报告法(通讯法)、采访法、实验调查直接观察法、报告法(通讯法)、采访法、实验调查设计等。设计等。3二、二、统计调查组织形式统计调查组织形式1 1普查普查 2 2抽样调查抽样调查 3 3重点调查重点调查 4 4典型调查典型调查5
3、 5统计报表制度统计报表制度 41.1.普查普查n普普查查:是是专专门门组组织织的的一一种种全全面面调调查查,它它主主要要是是用用以以搜搜集集某某些些不不能能或或不不宜宜用用定定期期报报表表搜搜集集的的统统计计资资料料。对国情国力的调查一般采用普查。对国情国力的调查一般采用普查。n普查的特点普查的特点: 一是一种非经常性的全面调查;一是一种非经常性的全面调查;二比任何一种调查形式更能掌握大量、详细、二比任何一种调查形式更能掌握大量、详细、 全面的统计资料。全面的统计资料。 5n第一次第一次5353年年n目的:为全国人大及地方人大的选举做好选民登记工作;为国家的经济、目的:为全国人大及地方人大的
4、选举做好选民登记工作;为国家的经济、社会发展提供准确的人口数字。社会发展提供准确的人口数字。n项目:六项(与户主的关系,姓名,性别,年龄,民族,本户住址)项目:六项(与户主的关系,姓名,性别,年龄,民族,本户住址)n第二次第二次6464年年n目的:为编制国民经济建设的第三个五年计划和长远规划提供依据。目的:为编制国民经济建设的第三个五年计划和长远规划提供依据。n项目:九项(增加三项,文化程度,本人成份,职业,但后两项只登记项目:九项(增加三项,文化程度,本人成份,职业,但后两项只登记不统计)不统计)n第三次第三次8282年年n目的:为进行社会主义现代化建设,统筹安排人民的物质和文化生活,目的:
5、为进行社会主义现代化建设,统筹安排人民的物质和文化生活,制定人口政策和规划,提供人口资料。制定人口政策和规划,提供人口资料。n项目:项目:1919项(又增加了常住人口的户口登记状况,在业人口项(又增加了常住人口的户口登记状况,在业人口 的行业,职的行业,职业和不在业人口状况,婚姻状况,生育子女数,存活子女数等。业和不在业人口状况,婚姻状况,生育子女数,存活子女数等。n第四次第四次9090年年n目的:为准备查清我国人口在数量、地区分布、结构和素质方面的变化;目的:为准备查清我国人口在数量、地区分布、结构和素质方面的变化;为国家进一步实行改革开放,科学地制定国民经济和社会发展战略与规为国家进一步实
6、行改革开放,科学地制定国民经济和社会发展战略与规划,统筹安排人民的物质和文化生活,检查人口政策的执行情况,提供划,统筹安排人民的物质和文化生活,检查人口政策的执行情况,提供可靠的资料。可靠的资料。n项目:二十一项(又增加常住地状况,迁移原因)项目:二十一项(又增加常住地状况,迁移原因)6n第五次第五次20002000年年n目的:为查清十年来我国人口在数量、结构、分布和居目的:为查清十年来我国人口在数量、结构、分布和居住环境等方面的变化情况,全面检查住环境等方面的变化情况,全面检查“九五九五”计划的执计划的执行情况,为科学地制定国民经济和社会发展行情况,为科学地制定国民经济和社会发展“十五十五”
7、计计划以及年远景规划提供可靠的依据,统筹安排划以及年远景规划提供可靠的依据,统筹安排人民的物质和文化生活,实现可持续发展战略。人民的物质和文化生活,实现可持续发展战略。n项目:项目: 49 49项,其中:按人填报项目为项,其中:按人填报项目为2626项,即姓名、项,即姓名、与户主关系、年龄、民族、户口登记状况、户口性质、与户主关系、年龄、民族、户口登记状况、户口性质、出生地、何时来本乡镇街道居住、从何地来本乡镇街道出生地、何时来本乡镇街道居住、从何地来本乡镇街道居住、迁出地类型、迁移原因、居住、迁出地类型、迁移原因、5 5岁及以上的人五年前岁及以上的人五年前常住地、常住地、6 6岁及以上的人填
8、:是否识字、受教育程度、岁及以上的人填:是否识字、受教育程度、学业完成情况、学业完成情况、1515岁及以上的人填:是否有工作、工作岁及以上的人填:是否有工作、工作时间、行业、职业、未工作情况、未工作者主要生活来时间、行业、职业、未工作情况、未工作者主要生活来源、婚姻状况、初婚年月、源、婚姻状况、初婚年月、15-5015-50岁妇女填:生育子女岁妇女填:生育子女数、数、1999.11.1-2000.10.311999.11.1-2000.10.31生育状况;按户填报的有生育状况;按户填报的有2323项,即户编号、户别、本户普查登记人数、本户户籍人项,即户编号、户别、本户普查登记人数、本户户籍人口
9、中外出不满半年人数、本户户籍人口中外出半年以上口中外出不满半年人数、本户户籍人口中外出半年以上人数等人数等7n中国的人口总量中国的人口总量n大陆大陆2000年第五次人口普查结果现有人口数的年第五次人口普查结果现有人口数的126583万;万;n香港特别行政区政府于香港特别行政区政府于2000年年6月月30日公布的香港日公布的香港现有人口数为现有人口数为678万;万;n澳门特别行政区政府于澳门特别行政区政府于2000年年9月月30日公布的澳日公布的澳门现有人口数为门现有人口数为44万;万;n台湾当局于台湾当局于2000年年12月公布的中国台湾省和金门、月公布的中国台湾省和金门、马祖等岛屿的人口数为
10、马祖等岛屿的人口数为2228万;万;n所以,所以,2000年年底中国的人口总量应是年年底中国的人口总量应是129533万万人。人。n性别构成性别构成n中国当前的人口性别比为中国当前的人口性别比为106.74,男性占总人口的,男性占总人口的51.63%;女性占总人口的;女性占总人口的48.37%。82抽样调查抽样调查n抽样调查:是按随机原则从调查对象中抽取一部分单抽样调查:是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据样本数据去推算调查位作为样本进行观察,然后根据样本数据去推算调查对象的总体特征。对象的总体特征。 n概率抽样的特点:概率抽样的特点:一样本单位按随机原则抽取,排除
11、了主观因素对选一样本单位按随机原则抽取,排除了主观因素对选样的影响。样的影响。二根据部分调查的实际资料对调查对象总体的数量二根据部分调查的实际资料对调查对象总体的数量特征作出估计。特征作出估计。三抽样误差可以事先计算并加以控制。三抽样误差可以事先计算并加以控制。n抽样调查的适用场合:抽样调查的适用场合: 一不可能或不必要进行全面调查的社会现象,一不可能或不必要进行全面调查的社会现象,二对普查资料进行必要的修正。二对普查资料进行必要的修正。 93重点调查重点调查n重重点点调调查查:在在调调查查对对象象中中,只只选选择择一一部部分分重重点单位进行的非全面调查。点单位进行的非全面调查。n重重点点单单
12、位位:它它们们在在所所研研究究现现象象的的标标志志总总量量中中却却占占有有绝绝大大的的比比重重,在在总总体体中中具具有有举举足足轻轻重重的作用。的作用。n特特点点:可可以以了了解解较较详详细细的的情情况况,但但无无法法对对现现象象总总体体的的数数量量特特征征作作出出准准确确的的推推算算,也也无无法法测算调查误差。测算调查误差。n适适用用场场合合 :当当调调查查任任务务只只要要求求掌掌握握基基本本情情况况,而而部部分分单单位位又又能能比比较较集集中中地地反反映映研研究究的的项项目目,宜采用重点调查。宜采用重点调查。104典型调查典型调查n1 1)定义:是根据调查目的,在对总体进行全面)定义:是根
13、据调查目的,在对总体进行全面分析的基础上,从中有意识地选择具有代表性的分析的基础上,从中有意识地选择具有代表性的若干单位进行调查。若干单位进行调查。n2 2)目的:进行深入细致的研究,以掌握有关现)目的:进行深入细致的研究,以掌握有关现象的具体情况。象的具体情况。n3 3)典型调查的关键是选择典型单位)典型调查的关键是选择典型单位n二种方式:二种方式:nA A、划类选典式、划类选典式nB B、解剖麻雀式、解剖麻雀式n特点:特点:n由由点点到到面面,个个别别到到一一般般;机机动动灵灵活活,省省时时省省力力,提提高高调调查查效效率率;是是一一种种深深入入细细致致的的调调查查方方式式;可可以研究新生
14、事物。以研究新生事物。115统计报表制度统计报表制度n统计报表制度:依照国家有关法规,自上而下地统统计报表制度:依照国家有关法规,自上而下地统一布置,以一定的原始记录为依据,按照统一的表一布置,以一定的原始记录为依据,按照统一的表式,统一的指标项目,统一的报送时间和报送程序,式,统一的指标项目,统一的报送时间和报送程序,自下而上地逐级地定期提供统计资料的一种调查方自下而上地逐级地定期提供统计资料的一种调查方式。式。n统计报表的主要特点:统计报表的主要特点:一一报表资料的来源是建立在报表资料的来源是建立在各个基各个基层单位的原始位的原始记的基的基础上;上;二由于统计报表是逐级上报和汇总的,各级领
15、导二由于统计报表是逐级上报和汇总的,各级领导部门能获得管辖范围内的报表资料;部门能获得管辖范围内的报表资料;三是一种经常性的(连续性)调查,调查项目相三是一种经常性的(连续性)调查,调查项目相对稳定,有利于积累资料,并进行动态对比分析。对稳定,有利于积累资料,并进行动态对比分析。12统计调查形式示意图统计调查形式示意图普普 查查全面报表全面报表抽样调查抽样调查重点调查重点调查典型调查典型调查周期性调查周期性调查一次性调查一次性调查普普查查抽样调查抽样调查重点调查重点调查典型调查典型调查全面调查全面调查非全面调查非全面调查连续连续(经常性经常性)调查调查不连续调查不连续调查定期报表定期报表专门调
16、查专门调查调调 查查范范围围调调 查查时时间间组组 织织形形式式统统计计调调查查形形式式13三、统计调查体系三、统计调查体系n统计调查体系:统计调查体系:一个国家开展统计调查方法和制一个国家开展统计调查方法和制度的总称。度的总称。 n我国的统计调查体系:我国的统计调查体系: 建立以必要的周期性的普查为建立以必要的周期性的普查为基础基础,经常性的,经常性的抽样调查为抽样调查为主体主体,同时辅之以重点调查、科学推算,同时辅之以重点调查、科学推算和部分全面报表综合运用的统计调查方法体系。和部分全面报表综合运用的统计调查方法体系。14四、统计调查方案的设计四、统计调查方案的设计一明确调查目的。一明确调
17、查目的。 二确定调查对象和调查单位。二确定调查对象和调查单位。n调查对象,是指需要调查的现象总体调查对象,是指需要调查的现象总体。n调查单位,是指所要调查的具体单位调查单位,是指所要调查的具体单位。n报报告告单单位位亦亦称称填填报报单单位位,它它是是负负责责向向上上报报告告调调查查内内容容、提提交交统统计计资资料料的的单单位位。报报告告单单位位一一般般是是在在行政上、经济上具有一定独立性的单位。行政上、经济上具有一定独立性的单位。 三设计调查项目。三设计调查项目。 四设计调查表格和问卷四设计调查表格和问卷15五确定调查时间。五确定调查时间。n调查时间调查时间是指调查资料所属的时间,在统计调是指
18、调查资料所属的时间,在统计调查中,如果所调查的是时期现象,就要明确规查中,如果所调查的是时期现象,就要明确规定调查资料所反映的起止日期。如果所要调查定调查资料所反映的起止日期。如果所要调查的是时点现象,调查时间就是规定的统一标准的是时点现象,调查时间就是规定的统一标准时点。时点。n调查期限调查期限是进行调查工作的时限,包括搜集资是进行调查工作的时限,包括搜集资料和报送资料的工作所需的时间。料和报送资料的工作所需的时间。 六组织实施调查计划。六组织实施调查计划。 七调查报告的撰写。七调查报告的撰写。16五、二手资料的主要来源渠道五、二手资料的主要来源渠道1统计年鉴统计年鉴2有关期刊有关期刊3有关
19、网站有关网站:http:/ 一、数据整理概述一、数据整理概述 n1 1数据整理的含义:数据整理的含义:n对对统统计计调调查查所所搜搜集集到到的的各各种种数数据据进进行行分分类类和和汇汇总总,又称为汇总性整理。又称为汇总性整理。n2 2统计数据整理的内容:统计数据整理的内容:n(1 1)如何对所要研究的总体进行统计分组;)如何对所要研究的总体进行统计分组;n(2 2)确定描述总体数量特征的统计指标体系。)确定描述总体数量特征的统计指标体系。18二、统计分组基本理论二、统计分组基本理论1.1.统计分组的概念统计分组的概念根根据据统统计计研研究究的的目目的的和和客客观观现现象象的的内内在在特特点点,
20、按按某某个个标标志志(或或几几个个标标志志)把把被被研研究究的的总总体体划划分分为为若若干干个个不不同同性性质质的组,称为统计分组。的组,称为统计分组。2.2.分组的性质分组的性质n兼兼有有分分和和合合双双重重含含义义, ,对对于于现现象象总总体体,是是“分分”,对对于于单单位,是位,是“合合”。3.3.统计分组的目的:组内同质性,组间差异性统计分组的目的:组内同质性,组间差异性4.4.统计分组的种类统计分组的种类n(1 1)按分组标志的多少,分为简单分组和复合分组)按分组标志的多少,分为简单分组和复合分组n(2 2)按按分分组组的的标标志志的的性性质质不不同同,分分为为品品质质分分组组(或或
21、称称属属 性分组)和数量分组(或称变量分组)。性分组)和数量分组(或称变量分组)。19三、统计分组的原则和方法三、统计分组的原则和方法 1 1统计分组的原则:统计分组的原则:穷尽原则、互斥原则穷尽原则、互斥原则2 2统计分组的方法统计分组的方法 (1 1)品质分组:按品质标志分组)品质分组:按品质标志分组 (2 2)数量分组:按数量标志分组)数量分组:按数量标志分组(A A)单项式分式分组与与组距式分距式分组(B B)间断断组距式分距式分组和和连续组距式分距式分组“上限不在内上限不在内”原原则(C C)等距分)等距分组与异距分与异距分组203组距式分组的相关概念(1 1)组距)组距n连续组距分
22、组的组距连续组距分组的组距= =本组上限本组上限本组下限本组下限 n间断式组距且等距分组的条件下:间断式组距且等距分组的条件下:组距组距=本组上限本组上限前组上限前组上限 或或= =本组下限本组下限前组下限前组下限 或或= =本组上限本组上限本组下限本组下限+1+1(2 2)组数)组数(3 3)(4 4)开口组的组距与组中值)开口组的组距与组中值21四、频数分布四、频数分布1频数分布的基本理论频数分布的基本理论(1)频数分布的定义)频数分布的定义(2)分布数列的两个要素)分布数列的两个要素n总体按某标志所分的组,若总体按数量标志分组,总体按某标志所分的组,若总体按数量标志分组,分组标志在各组有
23、不同的数量表现,形成标志值分组标志在各组有不同的数量表现,形成标志值数列,亦称变量,一般用数列,亦称变量,一般用x表示;表示;n各组所出现的单位数,即频数,亦称次数,用各组所出现的单位数,即频数,亦称次数,用f表表示。示。22 (3 3)相关的概念:相关的概念: 频率频率 fi :第:第i组频数组频数 频率的性质频率的性质 (A A) ; (B B) 。 频数密度与数密度与频率密度:率密度: (A A)频数密度数密度= =频数数/ /组距距 (B B)频率密度)频率密度= =频率频率/ /组距组距23n例:某班36名同学统计学考试成绩如下:n56,79,86,56,80,86,86,80,64
24、,65,81,87,87,82,67,68,83,88,90,84,71,73,84,92,74,85,92,93,85,76,76,85,94,79,97,86。试编制变量数列。2变量数列的编制方法24n解:解:1)排队:)排队:n2)求全距)求全距R=9756=41n3)确定组数:)确定组数:nm取整为取整为6。n4)求组距:)求组距:nh取整为取整为10(实际情况是分数的档次是(实际情况是分数的档次是10分)分)n5)确定上、下限和次数:)确定上、下限和次数:2526n例:某班组例:某班组40名工人日产量资料如下:名工人日产量资料如下:n54,85,83,79,78,92,80,95,6
25、2,68,72,83,85,64,73,60,84,108,81,78,99,74,81,70,77,66,71,83,75,34,78,83,88,86,83,74,89,68,74,87。n试编制变量数列。试编制变量数列。27n1)排队:)排队:2)求全距)求全距R=10834=74n3)确定组数:)确定组数:m取整为取整为7n4)求组距:)求组距:nh取整为取整为10n5)确定组限及次数(最终结果)确定组限及次数(最终结果)28合并成一组60以下, 次数为2 可合并也可不合并, 视具体情况定,若合并,则为90以上, 次数为4 29n(最终结果)(最终结果)日产量(件)日产量(件)人数(人
26、)人数(人)f f6060以下以下 6060707070708080808090909090100100100100以上以上2 26 6131315153 31 1合计合计404030【例例例例】某某某某电电电电脑脑脑脑公公公公司司司司2007200720072007年年年年前前前前四四四四个个个个月月月月各各各各天天天天的的的的销销销销售售售售量量量量数数数数据据据据( ( ( (单单单单位位位位:台台台台) ) ) )。试对数据进行分组试对数据进行分组试对数据进行分组试对数据进行分组31等距分组表等距分组表等距分组表等距分组表( ( ( (上下组限重叠上下组限重叠上下组限重叠上下组限重叠)
27、 ) ) )32等距分组表等距分组表等距分组表等距分组表( ( ( (上下组限间断上下组限间断上下组限间断上下组限间断) ) ) )33等距分组表等距分组表等距分组表等距分组表( ( ( (使用开口组使用开口组使用开口组使用开口组) ) ) )34书上书上P31案例案例35五、累计频数与累计频率五、累计频数与累计频率n1向上累计频数(或频率)分布向上累计频数(或频率)分布n2向下累计频数(或频率)分布向下累计频数(或频率)分布36日产量(件)日产量(件)人数(人)人数(人)f f向上累向上累计计向下累向下累计计6060以下以下 2 22 24040606070 70 6 68 83838707
28、080 80 131321213232808090 90 1515363619199090100 100 3 339394 4100100以上以上1 140401 1合计合计404037 第三节第三节统计数据的显示统计数据的显示一、统计表一、统计表1 1统计表的定义和结构统计表的定义和结构 (1 1)统计表的定义)统计表的定义 (2 2)统计表的结构)统计表的结构 (A A)从从表表式式上上看看,表表格格包包括括总总标标题题、横横行行标标题、纵栏标题和指标数值四个部分。题、纵栏标题和指标数值四个部分。 (B B)从从内内容容上上看看,统统计计表表由由主主词词栏栏和和宾宾词词栏栏两个部分组成。两
29、个部分组成。382 2统计表的分类统计表的分类 (1 1)按按主主词词的的结结构构分分类类,根根据据主主词词是是否否分分组组和和分分组组的程度,分为简单表、分组表和复合表。的程度,分为简单表、分组表和复合表。 (2 2)按按宾宾词词设设计计分分类类,可可分分为为宾宾词词简简单单排排列列、分分组组平行排列和分组层叠排列等三种。平行排列和分组层叠排列等三种。 3 3统计表的设计统计表的设计 (1 1)开口式()开口式(2 2)标题()标题(3 3)合计拦()合计拦(4 4)数据)数据 (5 5)计量单位()计量单位(6 6)注释或资料来源。)注释或资料来源。39 二、统计图二、统计图1直方图直方图
30、2折线图折线图3曲线图曲线图4累计曲线图累计曲线图n洛伦茨曲线图洛伦茨曲线图n基基尼尼系系数数,用用以以衡衡量量收收入入分分配配的的平平等等与否。与否。40分组数据的图示分组数据的图示(直方图的绘制直方图的绘制)140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图我我一一眼眼就就看看出出来来了了,销销售售量量在在 170170 180180之之间间的的天天数数最最多多! !190190 200200180180160160 170170频频频频频频数数数数数数( (天天天天天天) )2525202
31、0151510105 53030220220 230230 24024041某班组日产量分组的直方图424344n例:某企业工人的工资分组如下:例:某企业工人的工资分组如下:n要求:要求:n1)工人工资在)工人工资在65元以下的约占百分之几元以下的约占百分之几?n2)50%的工人工资在多少元以内?的工人工资在多少元以内?45n解:前提条件解:前提条件人数在各组中是均匀分布人数在各组中是均匀分布n方法方法内插法内插法1)76.40+15.80/2=84.3%1)76.40+15.80/2=84.3%2)50+(602)50+(605050)/825*/825*(10001000268268435435)=53.6=53.6元。元。46三、频(次)数分布图的类型三、频(次)数分布图的类型1钟型分布 钟型分布示意图钟型分布示意图 ()()()472U型分布图2-7 U型分布示意图 10 20 30 40 50 60 70 805040302010 0死亡率()年龄483J型分布 J型分布示意图 正J型图反J型图49