单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,第二章数据的整理与统计描述,第一节数据分类和整理,第二节数据分布的统计特征描述,第三节统计图表,第二章数据的整理与统计描述第一节数据分类和整理,1,数据,也称资料,是对客观现象计量的结果一、数据的分类,统计数据,是利用统计方法进行分析的基础,不同的统计数据应采用不同的统计分析方法第一节数据分类和整理,数据也称资料,是对客观现象计量的结果一、数据的分类,2,定类数据,定序,数据,离散,数据,连续,数据,数据类型,定性,数据,定量,数据,(例:性别、民族),(例:产品等级),(例:家庭人口),(例:体重、温度),1、数据的类型,定类数据定序数据离散数据连续数据数据类型定性定量(例:性别、,3,定性数据,定性数据,也称品质数据,是观察或实验结果不可以用数值大小表示只能用文字描述的数据资料,一般不带有度量衡单位特点:,每个观察结果或实验结果之间没有量的大小区别,表现为互不相容的类别或属性根据观察结果是否有等级或顺序,将定性数据分为,定类数据,和,定序数据,两类定性数据 定性数据也称品质数据,是观察或实验结果,4,定类数据也称名义数据、计数数据:是对事物按照其属性进行分类或分组的计量结果,其数据表现为,文字型,的,无序,类别,可以进行每一类别出现频数的计算,没有等级之分,也不能进行加减乘除的数学运算。
1)定类数据,例如一个学校的学生按性别分为男、女两类,或按民族分为汉族和少数民族两类这种分类把所考察的个体(学生)划分为不同的类型,但各类型之间是平行的关系,不能区分优劣或大小定类数据也称名义数据、计数数据:是对事物按照其,5,定序数据也称有序数据或等级数据同样是按事物属性进行分类或分组,但,可排序,即定序测度不仅可以划分类型,而且还可以确定这些类别的优劣或顺序即其数据表现为,有序,类别,可以进行类别的频数计算和排序,同样不能进行加减乘除的数学运算例如可以把企业信誉分为好、较好、一般和较差四个类别;把某种药物的疗效分为无效、有效、显效、痊愈等显然这些类别具有等级差异,但不能具体测定等级之间差异的大小2)定序数据,定序数据也称有序数据或等级数据同样是按事物,6,定量数据,定量数据,,也称数值数据或计量数据,是观察或实验结果可以用数值大小表示的数据资料,一般带有度量衡单位特点:,每个观察值或实验值之间有量的大小的区别,即可进行频数计算和排序,又可进行加减乘除的数学运算定量数据 定量数据,也称数值数据或计量数据,是观,7,例如,收入就有实际的0作为起点,0表示没有收入假如甲收入600元,乙收入300元,可以说甲比乙多收入300元,也可以说甲收入是乙的两倍。
因此,定量测度可以进行加、减、乘、除运算根据数据的分布情况,将定量数据分为,离散型数据,和,连续型数据,两类例如,收入就有实际的0作为起点,0表示没有收入,8,三种数据的比较,计量测度,数学特性,定类数据,定序数据,定量数据,分类,排序,间距,比值,注:定量数据与定性数据可相互转换三种数据的比较计量测度定类数据定序数据定量数据分类,9,3、两类数据的转换,(1)定量数据的定性化转换,(2)定性数据的数量化转换,3、两类数据的转换(1)定量数据的定性化转换(2)定性数据的,10,例如,作为定量数据的成年男子的血清胆固醇值,按是否小于6(mmol/L)划分成血脂正常和异常两类,就转化为定性数据1)定量数据的定性化转换,例如,作为定量数据的成年男子的血清胆固醇值,按是否小于6(m,11,例如,“1”表示“非常同意”,“2”表示“同意”,,“3”表示“保持中立”,“4”表示“不同意”,,“5”表示“非常不同意”又如,用“1”表示“男性”,“0”表示“女性”2)定性数据的数量化转换,例如,“1”表示“非常同意”,“2”表示“同意”,(2),12,变量,用以说明现象的某种,属性,或,特征,变 量,特点:,是从一次观察到下一次观察会呈现出差别或变化,变量的具体取值称为变量值。
比如,商品销售额可以是20万元、30万元、50万元、这些数字就是变量值如“商品销售额”、“受教育程度”、“产品的质量等级”等都是变量变量用以说明现象的某种属性或特征变 量特点:是从一次观察到,13,2、变量及其类型,定类变量,定序变量,离散变量,连续变量,变量类型,定性变量,定量变量,(数值变量),(例:性别、民族),(例:产品等级),(例:家庭人口),(例:体重、温度),2、变量及其类型定类变量定序变量离散变量连续变量变量类型定性,14,二、数据资料的统计整理,统计工作一般分为,统计设计,、,收集资料,、,整理资料,和,分析资料,四个阶段,其中数据资料的统计整理就是根据统计研究的任务,对搜集到的数据资料进行科学的汇总和处理,使数据资料系统化,以反映研究总体的特征、规律和趋势二、数据资料的统计整理 统计工作一般分为统计设计,15,数据资料整理和图示通常包括下列,步骤,:,(1)对数据资料进行审核和订正;,(2)对数据资料进行统计分组(分类);,(3)进行统计汇总,计算各组频数,编制频数分布表;,(4)给出统计图表或报告注:,在对数据进行统计整理时,应根据不同的数据类型进行处理,对定性数据(定类数据和定序数据)主要作分类整理,对定量数据(数值数据)主要作分组整理。
数据资料整理和图示通常包括下列步骤:(1)对数据资料进行审核,16,频数:,统计分组中落在各组(或类别)中的数据个数频率:,各组(或类别)的数据个数占数据总个数的比例值频数分布表:,各组观察值(或类别)及其相应的频数(或频率)用表格形式按顺序全部列出来概 念:,频数:统计分组中落在各组(或类别)中的数据个数频率:各组(,17,累积频数,指把各类别的频数逐项累加累,积,频率,指,把各类别的频率逐项累加累积频数指把各类别的频数逐项累加累积频率指把各类别的频率逐,18,例,为研究广告市场的状况,一家广告公司在某城市随机抽取人就广告问题做了邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?”,商品广告 服务广告 金融广告,房地产广告 招生招聘广告 其他广告,1、定性数据的整理和图示,例 为研究广告市场的状况,一家广告公司在某城市随机抽取,19,广告类型,人数(人),比例,频率,(%),商品广告,112,0.560,56.0,服务广告,51,0.255,25.5,金融广告,9,0.045,4.5,房地产广告,16,0.080,8.0,招生招聘广告,10,0.050,5.0,其他广告,2,0.010,1.0,合计,200,1.000,100.0,某城市居民关注广告类型的频数分布,广告类型人数(人)比例频率(%)商品广告 112 0,20,某城市居民关注不同类型广告的人数分布(条形图),频数(人),某城市居民关注不同类型广告的人数分布(条形图)频数(人),21,条形图,是用宽度相同的条形高度或长短来表,示各类别频数或频率的图形。
圆形图,是用圆形及圆内扇形的面积来表示各类别,频率,的图形条形图是用宽度相同的条形高度或长短来表示各类别频数或频率的图,22,某城市居民关注不同类型广告的人数的构成(饼图),某城市居民关注不同类型广告的人数的构成(饼图),23,2、定量数据的整理和图示,分组方法,单变量值分组,组距分组,等距分组,异距分组,数据的分组,2、定量数据的整理和图示分组方法单变量值分组组距分组等距分组,24,单变量值分组,、适用于离散变量且变量值较少、把每一变量值作为一组,单变量值分组、适用于离散变量且变量值较少、把每,25,例,某生产车间名工人日加工零件数(单位:个)如下试采用单变量值对数据进行分组117,122,124,129,139,107,117,130,122,125,108,131,125,117,122,133,126,122,118,108,110,118,123,126,133,134,127,123,118,112,112,134,127,123,119,113,120,123,127,135,137,114,120,128,124,115,139,128,124,121,例 某生产车间名工人日加工零件数(单位:个)如,26,零件数(个),频数(人),零件数(个),频数(人),零件数(个),频数(人),107,1,119,1,128,2,108,2,120,2,129,1,110,1,121,1,130,1,112,2,122,4,131,1,113,1,123,4,133,2,114,1,124,3,134,2,115,1,125,2,135,1,117,3,126,2,137,1,118,3,127,3,139,2,某车间名工人日加工零件数分组表,零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数,27,适用连续变量或离散变量且变量值较多。
把一个区间作为一组,区间长度可以相等,也可以不相等分组时应,“,不重不漏,”,组距分组,适用连续变量或离散变量且变量值较多组距分组,28,按数据的个数,及数据本身的特点选择组数,,,通常当数据个数小于50时,可分为5-6组;当数据个数为100左右时,可分为6-10组;当数据个数超过500时,可分为10-15组组距分组步骤:,确定组数,按数据的个数及数据本身的特点选择组数,通常当数据个数,29,也可按Sturges经验公式确定组数:,例如,当n=90时,组数,也可按Sturges经验公式确定组数:例如,当n=90时,组,30,数据的最大值与最小值之差称为,极差,,用,表示,即,最大值最小值,确定各组的组距与组限,各组取相同的组距组中值,由组数和极差就可确定组距,,,即,数据的最大值与最小值之差称为极差,用确定各组的组距与,31,把数据归组后得频数分布表.,归组,把数据归组后得频数分布表.归组,32,按零件数分组(个),频数(人),频率(,%,),105110,3,6,110115,5,10,115120,8,16,120125,14,28,125130,10,20,130135,6,12,135140,4,8,合计,50,100,某车间名工人日加工零件数分组表(加工零件数最少107个,最多139个),按零件数分组(个)频数(人)频率(%)1051103 6,33,某车间工人日加工零件数的直方图,105 110 115 120 125 130 135 140,日加工零件数(个),频数(人),某车间工人日加工零件数的直方图105 110,34,用横轴表示组限,纵轴表示频数或频率,各组以组距为宽,以频数或频率,为高形成一个矩形,即为直方图。
直方图用矩形来表示频数分布的图形,用横轴表示组限,纵轴表示频数或频率直方图用矩形,35,直方图与条形图的差别:,条形图用宽度表示类别,宽度都相等,而直方图用宽度表示组距,宽度可以不相等条形图通常分开排列,而直方图则是连续排列直方图与条形图的差别:条形图用宽度表示类别,宽度都相,36,折线图用折线表示频数分布的图形,用横轴表示组中值,纵轴表示频数或,频率.,用直线连接各组中值相应的频数或频,率,即为折线图折线图用折线表示频数分布的图形用横轴表示组中值,37,某车间工人日加工零件数的折线图,105 110 115 120 125 130 135 140,日加工零件数(个),频数(人),某车间工人日加工零件数的折线图105 110,38,。