第二章 单变量的描述统计分析第二章 单变量的描述统计分析1单变量的分布及其描述方法2集中趋势3离散趋势4分布形态第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法•单变量的描述统计就是用统计表、统计图和统计单变量的描述统计就是用统计表、统计图和统计特征值将变量的状态、水平和分布特征表现出来特征值将变量的状态、水平和分布特征表现出来的方法一、变量及其分布一、变量及其分布 (一)变量的含义:–研究对象的每个个体都具有很多属性和特征比如每个人都有身高、体重、年龄、学历等特征这些在不同个体上具有不同表现的特征就称为变量统计学中的变量在个体上是相对稳定的,在不同个体上表现出变化这类变量也称为随机变量 第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法一、变量及其分布 (二)变量的分布•变量分布指个体在变量取值上的分布对一组观察值,一般用频次分布、频率分布和累积频率分布三种方法描述变量分布•1、、频频次次分分布布::变量取值与取值上拥有的个体数的集合称为频次分布若变量有m个取值,则该变量的频次分布可表示为: 例如例如:调查2130户家庭,4种家庭类型户数的频次分布为:(核心家庭,1050户)(直系家庭,720户)(联合家庭,110户) (其他,250户) 家庭结构家庭结构频次频次核心家庭1050直系家庭720联合家庭110其它250总数(合计)2130第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法一、变量及其分布一、变量及其分布 (二)变量的分布•2、、频频率率分分布布::变量取值与取值上拥有的个体数的频率的集合称为频率分布。
将频率分布的频率乘以100%,即是百分比频率分布可以表示为: 例如例如:调查2130户家庭,4种家庭类型户数的频率分布为:(核心家庭,0.493)(直系家庭,0.338) (联合家庭,0.052) (其它,0.117) 第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法家庭结构家庭结构频率频率核心家庭0.493直系家庭0.338联合家庭0.052其它0.117总数(合计)1第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法一、变量及其分布一、变量及其分布 (二)变量的分布•3、、累累计计频频率率分分布布::将上述频率分布中的频率按变量的取值排列顺序逐项累加就形成累积频率分布分布可以表示为:例如例如:调查2130户家庭,4种家庭类型户数的累计频率分布为:(核心家庭,0.493)(直系家庭,0.831)(联合家庭,0.883)(其它,1.000) 第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法家庭结构家庭结构累计频率累计频率核心家庭0.493直系家庭0.831联合家庭0.883其它1.000第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法累计频次和累计频率多用于定序变量的统计某单位职工对武打片的反映统计喜爱程度喜爱程度频次频次(人数人数)频率频率(%)累计频数累计频数(向上向上)累计频率累计频率(%,向上,向上)非常爱看717.9717.9爱 看923.11641.0一 般1025.62666.6不 爱 看1025.63692.3很 反 感37.739100.0合 计39100──第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法一、变量及其分布一、变量及其分布 (二)变量的分布关于关于频次分布、频率分布和累计频率分布频次分布、频率分布和累计频率分布的总结的总结•可以清楚地表现数据的分布特征和统计规律,但只适用于类别变量。
例如文化程度、职业、职称等 •对取值很多的尺度变量,通常将变量的取值划分成段,如年龄段、收入段,再累计该段中的人数,来表示变量的分布 •尺度变量取值的数据有两种:–离散性数据离散性数据,如年龄通常取整数,在相邻的两个数之间不存在其它的数据–连续性数据连续性数据,如身高如果测量的单位可以达到无穷小的话,理论上,任何两个数之间都有无穷多个数尺度变量的分布在统计表中予以详细说明 第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计表 •表现数据分布的最常用方法是统计表将数据按照一定的顺序排列在由横行、纵列交叉结合而成的表格上 (一)统计表的结构 •统计表可分为横表与竖表横表与竖表,应用较多的是竖表表号表号标题标题表表头头表表身身主词主词宾词宾词第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法(二)描述类别变量分布特征的统计表——简单表 •简单表简单表::主词按变量的取值一一列出,适用于表现类别变量的分布主词是类别变量的取值,宾词是各个取值出现的频次、频率或百分比及累计频率或累计百分比等1)表的正上方须有标题,简明、扼要、准确地说明表的内容2)表的左上方应有表的编号。
3)数字部分横行间不必标划线条,两侧不画纵线,呈开口式4)数字书写要工整,小数点上下对位同一表中小数位数须相同5)当某项数字缺少时用“—”表示6)如有对表的其它说明可在表的下面写出表注 制制作作原原则则“三W”原则:需要说明统计数据的时间(When)、地点(Where)以及何种数据(What)第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计表二、统计表 (三)描述尺度变量分布特征的统计表——分组表 •1、分组表的特点:、分组表的特点:尺度变量取值很多,可以采用分组表来表现尺度变量的分布特征分组表的主词是将变量的取值按一定的标准分组或分段的统计表主词中每个组的最大值称为组上限,最小值称为组下限 第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计表二、统计表 (三)描述尺度变量分布特征的统计表——分组表 •1、分组表的制作步骤:、分组表的制作步骤:•(1)确定全距全距就是变量观察值的最大值与最小值之差 •(2)确定组距与组数一般是2、3、5、10或它们的倍数 •(3)确定各组的上下限最低组的下限要小于最小的观察值,最高组的上限要大于最大的观察值。
连续型数据的一组的下限与下一组的上限为同一值,习惯上以组的上限为实,下限为虚即“下组限不包括在内”的原则) • (4)登记各组中个案的频次,计算频率将个案按照变量取值大小划分到各组中,按需要统计出频次、频率及累计频率等,并将统计出的数据置于相应单元格内,绘制成分组表 二、统计表二、统计表 (三)描述尺度变量分布特征的统计表——分组表 •1、分组表的制作步骤、分组表的制作步骤:确定全距;确定组距与组数;确定各组的上下限登记各组中个案的频次,计算频率第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计图二、统计图 统计图就是用图的形式来表示变量的分布特征•比统计表更直观、生动、易记忆,缺点是不如统计表精确•变量的测量层次不同,使用的图形也不尽相同•不同类型的图形表示数据大小的方式不同•用图形表现数据的分布特征时有一定的规范和要求每个图的左下方都要有图的编号,图的正下方要有图的名称,用以简明扼要地说明图的内容如有其它的说明可以在图的下面写出图注如果图中有多种绘图元素,可以用图例的形式予以说明第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计图二、统计图 (一)描述类别变量分布特征的统计图•1、简单条形图、简单条形图::•条形的长短或高低来表示数据大小。
以类别变量的取值为横轴的分类标志,以纵轴表示频次或频率二、统计图二、统计图 (一)描述类别变量分布特征的统计图•2、圆形图、圆形图::也称饼图一般用于描述类别变量中各类别所占的比例是以一个圆为整体,以每一部分所占的比例来分割圆心角,圆心角所对应的扇形即表示每一部分所占的比例第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计图二、统计图 (一)描述类别变量分布特征的统计图•3、线形图、线形图::线形图是在坐标系内用折线或连续曲线表示事物的分布或变化的图第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法图图2-3 2000年全国家庭户主受教育程度分布年全国家庭户主受教育程度分布•折线图在描述事物变化趋势时更常用:第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计图二、统计图•(二)描述尺度变量分布特征的统计图•1、直方图:、直方图:•描述尺度变量分布,用条形长短或高低来表现数据大小•与简单条形图不同的是,条的宽度表示分组的组距,条与条之间不分离•直方图以尺度变量为横轴,以分组的组限为横轴的数据标志,以纵轴表示频次或频率。
•分组表的数据就可以用直方图来表示•用表2-7的频次分布数据制作的条形图如下:第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法•直方图多用于未分组原始数据的分布特征描述,表2-10 100名儿童身高的分布直方图如下:第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法第二章 单变量的描述统计分析第二节 集中趋势•用图和表的形式虽然能够很好地表现变量的分布状况,但是不够简洁,尤其是将不同的总体或样本进行比较时,使用表或图难以得出清晰的结论•很多情况下,我们不需要对所有的数据都有详尽的了解在对不同总体进行比较时,也不可能一一地使用每一个数据,这就需要对变量的全部取值进行概括,找出一个典型的统计特征值来代表全体数据•集中趋势(和离散趋势)就是概括地说明变量的状态或水平的统计特征值由于测量层次不同,变量取值的数据特征不同,用于概括变量状态的集中趋势也不同•常用的集中趋势统计量集中趋势统计量::众数;中位数;算数平均数•常用的离散趋势统计量离散趋势统计量::异众比率;极差(全距);四分位差;方差与标准差第二章 单变量的描述统计分析第二节 集中趋势•一、众数一、众数M M0 0•众数(众数(mode))根据频次来确定的集中趋势量值。
在一个变量的取值中,出现频次最多频次最多的变量值就是众数•表2-10中的众数是1.43平均1.4054标准误差0.004935中位数1.405众数1.43标准差0.049348方差0.002435峰度0.471496偏度0.102641区域0.29最小值1.27最大值1.56求和140.54观测数100第二章 单变量的描述统计分析第二节 集中趋势•一、众数一、众数M M0 0•关于众数的几点注意事项关于众数的几点注意事项(1)众数适用于任何层次的变量,只要是知道了频次分布就可以找到众数但主要用于概括和描述类别变量2)对于分组的尺度变量,出现频次最高的组称为众数组,可以用众数组的组中值(组上限和组下限的平均值 )近似地代替众数分组数据的众数可以精确计算练习:表2-10中数据的众数组是哪一组/哪几组?(3)众数适用于任何层次的变量就分布特点而言,众数较适用于单峰分布的情况多峰分布的众数可能不唯一,所以通常不使用众数来概括变量分布的状态第二章 单变量的描述统计分析第二节 集中趋势•二、中位数二、中位数MdMd•中位数(中位数(median))是位于数据排序后处于数列中点的数值,它恰好把全部数据分为两半,比它大的数据个数与比它小的数据个数正好相等。
•因为确定中位数需要比较数据的大小,因此定序以上的变量才可以使用•但如果一个序列变量的取值很少,也不适合用中位数作为集中趋势来概括全部数据•实际上,中位数适用于取值很多的序列变量和尺度变量•二、中位数二、中位数MdMd• (一)未分组数据中位数的计算• 对于原始的数据,只要将数据按大小顺序排成数列即可以找到中位数如在2、4、6、8、10、12、14、16这个数列中,中位数是9当数据总数为奇数个时当数据总数为奇数个时中位数是第(N+1)/2 个数如数列2、4、6、8、10、12、14有7个数, (7+1)/2 =4第4个数是8,即中位数当数据总数为偶数个时在(N+1)/2的地方没有数值,则中位数为:(式2-1)•二、中位数二、中位数MdMd• (二)分组数据中位数的计算•在分组数据中,因为没有了数据的原始值,无法直接寻找中位数,需要先找到中位数组,第N/2 个数据所在的组为中位数组确定中位数组以后利用式(2-2)计算中位数:(式2-2)式中, L是中位数组的下限,h是组距,n是中位数组的频次;N为数据总个数;Cf↑是L以下的累积频次第二章 单变量的描述统计分析第二节 集中趋势分分组组数数据据的的中中位位数数计计算算举举例例883/2=441.5中位数所在组中位数所在组即:住房面积的中位数为54.3平方米。
•三、算数平均数三、算数平均数•算术平均值简称平均值,是全部数据的平均水平算术平均值主要适用于尺度变量• (一)未分组数据算数平均值的计算•1、根据原始数据计算•对于变量的一组观察值,可以用原始数据来直接计算算数平均值计算公式为:第二章 单变量的描述统计分析第二节 集中趋势(式(式2-3))•三、算数平均数三、算数平均数•(一)未分组数据算数平均值的计算•1、根据原始数据计算【例【例2-2】】 已知5名女性身高分别为:1.58 1.60 1.64 1.56 1.52(单位:米);5名男性身高分别为:1.68 1.72 1.76 1.64 1.60(单位:米)分别计算他们的平均身高•三、算数平均数三、算数平均数•(一)未分组数据算数平均值的计算•2、根据频次数据计算(式(式2-4))计算得平均年龄为18岁另:教材48页例1•三、算数平均数三、算数平均数• (二)分组数据的算数平均数计算•如果数据存在于分组表中,则以组中值来代替原始值计算分组数据的平均值设数据被分为k组,每组的组中值组中值( 组上限和组下限的平均值)为bi ,每组的频次为ni 则分组数据的平均值的计算公式为:式(2-5)请根据表2-4的数据,计算被调查者住房面积的平均值。
第二章 单变量的描述统计分析第二节 集中趋势该统计表中的最低组没有组下限,为计算方便可以设最低组下限为0•四、众数、中位数和平均值的比较四、众数、中位数和平均值的比较第二章 单变量的描述统计分析第二节 集中趋势相同点:相同点:都通过一个数值来描述数据的整体特征以便简化资料不同点:不同点:一般地说来,均值适用于尺度变量,中位数适用于定序以上变量,而众数适用于所有的变量注意:注意:对于测量层次一定的变量应选择代表性最好的特征值例如,对于尺度变量,有众数、中位数和算术平均数三个集中趋势量值可以使用由于众数和中位数都是用变量的一个值来概括全部数据,其代表性要差而求平均值时所有数据的值都参与了计算,所以平均值是概括性最好、代表性最强的集中趋势量值而且,由于尺度变量大都取值很多,有时可能呈现多峰分布,一般不用众数,也很少用中位数来描述尺度变量对于定序变量,有众数和中位数两个集中趋势量值可以使用,由于中位数体现了数据能够比较大小的功能,一般情况下,认为中位数的代表性要好于众数而无序类别变量只能使用众数来描述第二章 单变量的描述统计分析第三节 离散趋势•仅描述观察值的集中趋势远远不够,还需要找到一些表示数据分散程度的统计特征值。
•主要原因主要原因有二:有二:•原因原因1::变量的取值范围不同,集中趋势的代表性不同•例如:例如:•中国职工年平均工资, 1978年为615元,2009年则是29229元•1978年职工年工资的分布是在216元到3600元之间•2009年职工年工资的分布是在6900元到数万元之间•因此,有理由认为:因此,有理由认为:•1978年的615元对当年职工工资总体的代表性高于2009年的29229元第二章 单变量的描述统计分析第三节 离散趋势•仅描述观察值的集中趋势远远不够,主要原因有二:仅描述观察值的集中趋势远远不够,主要原因有二:•原因原因1::变量的取值范围不同,集中趋势的代表性不同•原因原因2::变量取值范围即便相同,但变量分布特征不同时,集中趋势的代表性也不同•例如:例如:两个班级的数学成绩均值均为82.64分变量值的分布范围均为从60分到100分(取值分布如下图所示)可见,二班的均值更有代表性第二章 单变量的描述统计分析第三节 离散趋势•一、异众比率一、异众比率 •(一)含义:非众数在数据总数N中所占的比例(二)作用:衡量众值的代表性非众数的频次占的比例越小,众数的代表性就越好。
(三)算例:见教材例2-5第二章 单变量的描述统计分析第三节 离散趋势•二、极差(全距)二、极差(全距) •(一)含义:极差是变量取值的范围极差一般用R(Range)来表示 R=最大值—最小值(二)作用:主要配合中位数或平均值说明数据的离散程度的统计特征值极差小表示数据分布集中,极差大表示数据分布的分散(三)缺点:极差的值是由两个端点决定的,因此个别远离群体的奇异值会极大地改变极差以至于有时极差不能真正反映全布数据的离散程度第二章 单变量的描述统计分析第三节 离散趋势•三、四分位差三、四分位差 •(一)含义:对于定序以上变量,将数据按大小排成数列以后,从下向上数第25%的数据所在位置的值称为下四分位数,用Q25表示从下向上数第75%的数据所在位置的值称为上四分位数,用Q75表示上下四分位数之差即为四分位差,一般用Q(quartiles)来表示• Q = Q75 - Q25 式(2-7)(二)作用:四分位差反映了中间50%数据的分散程度,它既比较好地说明了数据的离散状况,又减少了极端数据所造成的影响由于中位数处于中间位置,四分位差在一定程度上说明了中位数的代表性。
第二章 单变量的描述统计分析第三节 离散趋势•三、四分位差三、四分位差 •(三)未分组数据四分位差的计算:•计算四分位差要先计算上下四分位数,为此,需要先确定上下两个四分位数的位置,找到两个分位值后相减即得四分位差根据四分位数的定义可得:如果四分位数所在位置是整数,四分位数就是该位置对应的值如果是小数,且小数位是0.5,则取该位置两侧值的平均数如果是在0.25或0.75的位置上,则四分位数等于该位置下侧值加上按比例分摊位置两侧数值的差值具体计算方法见【【例2-6】】•【例2-6】一组数据是某单位49名职工的住房面积计算住房面积分布的四分位差• 某单位职工的住房面积(单位:平方米)•33、42、42、48、48、52、55、58、62、65、65、65、66、、66、66、66、68、68、68、68、68、70、70、70、72、72、72、72、75、75、75、76、76、78、85、87、90、92、95、98、103、109、110、112、118、125、130、178、179•解: n=49•Q25 的位置=n/4=49/4=12.25,第12.25个数据两侧的数据是65和66。
因此,下四分位数为: Q25 =65+0.25(66-65)=65.25•同理,Q75 的位置=3n/4=3*49/4=36.75 ,第36.75个数据两侧的数据是87和90因此,上四分位数为:Q75=87+0.75(90-87)=89.25•因此,四分位差为: Q=Q75-Q25 =89.25-65.25=25•即:员工住房使用面积中间50%的数据的离散范围为25平方米第二章 单变量的描述统计分析第三节 离散趋势•四、方差与标准差四、方差与标准差 •极差和四分位差能较好地表明数据离散情况,但只给出了数据的分布范围,只利用了数据的部分信息极差和四分位差相等的两组数据其分布情况可能差异很大对于尺度变量概括其离散程度最好的特征值是方差和标准差•(一)平均差•1、离差:变量的一个观察值与变量平均值之间的差2、平均离差:把所有离差加在一起再平均,能反映平均离散情况平均差则是离差绝对值的平均值,也称平均离差第二章 单变量的描述统计分析第三节 离散趋势•四、方差与标准差四、方差与标准差 •(二)方差、标准差•方差和标准差是用平方的方法消除了离差中的绝对值后形成的统计特征值方差是离差平方的平均值,标准差是方差的平方根。
方差方差: 式(2-13)标准差标准差: 式(2-14)•四、方差与标准差 •(二)方差、标准差•1、用原始数据计算方差、标准差•直接使用式(2-13)和(2-14)•【例2-8】 五名学生数学成绩分别为72、81、86、69、57,计算这五名学生数学成绩分布的方差和标准差•四、方差与标准差四、方差与标准差 •(二)方差、标准差•2、用频次分布数据计算方差和标准差•设变量有k个取值,每个取值出现的频次为ni,则利用频次分布数据计算方差和标准差的公式为:方差方差: 式(2-15)标准差标准差: 式(2-16)•四、方差与标准差四、方差与标准差 •(二)方差、标准差•3、用原始分组数据计算方差和标准差•用每一组的组中值来代替该组的变量值计算方差和标准差,用分组数据计算方差和标准差的公式为:方差方差: 式(2-17)标准差标准差: 式(2-18)根据下表数据,计算居民住房面积的方差与标准差。
ni为第i组的频次……•样本方差、标准差的计算样本方差、标准差的计算•自由度•自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差•从字面涵义来看,自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值•按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k•样本方差的自由度是n-1因为在计算离差平方和时,必须先求出样本均值x ,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个 第二章 单变量的描述统计分析第三节 离散趋势•样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量样本方差和标准差的计算公式为:第二章 单变量的描述统计分析第三节 离散趋势未分组原始数据:分组数据:•五、离散系数五、离散系数1. 标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5. 计算公式为第二章 单变量的描述统计分析第三节 离散趋势•一、偏态一、偏态(见教材105页)1.统计学家Pearson于1895年首次提出 2.数据分布偏斜程度的测度3.偏态系数=0为对称分布对称分布3.偏态系数>0为右偏分布右偏分布4.偏态系数<0为左偏分布左偏分布5.偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低 6.Excel中的SKEW函数可以用来计算偏态系数,语法:SKEW(number1,number2,…)第二章 单变量的描述统计分析第四节 分布形态——偏态与峰态的度量•经验法则•经验法则表明:当一组数据对称分布时•约有68%的数据在平均数加减1个标准差的范围之内•约有95%的数据在平均数加减2个标准差的范围之内•约有99%的数据在平均数加减3个标准差的范围之内 第二章 单变量的描述统计分析第四节 分布形态——偏态与峰态的度量1.切比雪夫不等式如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用2.切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”3.对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。
其中k是大于1的任意值,但不一定是整数第二章 单变量的描述统计分析第四节 分布形态——偏态与峰态的度量•对于k=2,3,4,该不等式的含义是1.至少有75%的数据落在平均数加减2个标准差的范围之内2.至少有89%的数据落在平均数加减3个标准差的范围之内3.至少有94%的数据落在平均数加减4个标准差的范围之内第二章 单变量的描述统计分析第四节 分布形态——偏态与峰态的度量•二、峰态二、峰态(见教材108页)1.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度3.峰态系数分布>0为尖峰分布扁平峰度适中4.峰态系数<0为扁平分布扁平分布5.峰态系数=0为扁平适中分布4.Excel中的KURT函数可以用来计算峰态系数,语法: KURT(number1,number2,…)三、正态分布三、正态分布尖峰分布•正态分布偏态系数为0,峰态系数为0第二章 单变量的描述统计分析第四节 分布形态——偏态与峰态的度量用用Excel计算描述统计量计算描述统计量•将数据输入到Excel工作表中,然后按下列步骤操作•第第1步:步:选择【工具工具】下拉菜单•第第2步:步:选择【数据分析数据分析】选项•第第3步步::在分析工具中选择【描描述述统统计计】,然后选择【确定确定】•第第4步:步:当对话框出现时• 在【输入区域输入区域】方框内键入数据区域• 在【输出选项输出选项】中选择输出区域• 选择【汇总统计汇总统计】• 选择【确定确定】。