谈单变量描述性统计分析.doc

资源描述

《谈单变量描述性统计分析.doc》由会员分享，可在线阅读，更多相关《谈单变量描述性统计分析.doc（52页珍藏版）》请在金锄头文库上搜索。

1、第二章单变量描述性统计分析在上一章中，我们回顾了社会调查研究的历程，了解了统计分析在社会调查研究中的地位，学习了统计分析的内容以及如何选用相应的统计分析方法。有没有同学，能够说一下，选择统计分析方法的标准有哪些？那么，今天这节课，我们就要开始学习社会统计学的核心内容了。通过之前的介绍，大家知道，借助社会调查，我们可以收集到大量的资料，但这些原始资料，往往是杂乱无章的。因此，在学会正确收集资料或数据的同时，我们还必须学习如何正确地处理这些数据。如果不对其进行加工处理，那么我们的调查研究活动将是毫无意义的，收集上来的不过是一堆堆的废纸。面对纷繁复杂、毫无章法可言的原始资料，我们应该从何着手呢？一

2、般来说，人们做事习惯于先易后难。这里，我们同样遵循这个规律。大家还记不记得，统计分析包括哪两类？描述统计法和推论统计法。简单来说，描述性统计是就样本说样本，就总体说总体。而推论统计则是要由样本的情况来推论总体。这二者相比，显然，前者更为简单。而且它是推论统计的前提。所以，在获取资料之后，我们首先要进行描述性统计。比如，我们抽取了一个由100人组成的样本，现在要了解他们的年龄状况。由于这里只涉及年龄这一个变量。因此，我们将选用的是单变量描述统计法。而假如，我们想要了解样本中职业与收入的关系。请同学们告诉我，这里涉及几个变量？两个，对不对？一个是职业，一个是收入。而且，这里我们要了解的是样本中职业

3、和收入两个变量之间的关系，因此，我们要选用双变量描述统计法。同样遵循先易后难的原则。我们首先会选择适当的描述统计方法来简化每一个变量的资料，既使用单变量描述统计。这也是我们第三章中将要给大家介绍的。之后，我们会再进一步分析变量与变量之间的关系，即采用双变量描述统计法。至于哪一种统计分析方法更加合适呢？刚才大家回顾了我们第一章中学习的选择统计方法的标准。其中最重要的标准是什么啊？变量的测量层次：定类、定序、定距。很好。在第三章中我们将按照变量的测量层次为大家介绍单变量描述统计法。在介绍之前，我们要重申一个原则，即适用于较低测量层次的统计法，也可以适用于较高的层次。为什么会这样呢？大家还记不记得？

4、这是由于后者具有前者的数学特质。反之，要求较高测量层次的统计法，不能用于较低的层次，因为后者的数学特质未能符合该统计法的要求。明确了这一点之后，我们就来学习本章的第一节最基本的单变量描述统计技术。在大多数的调查问卷中，都会设置有关性别的问题。上节课，我们介绍过，性别是一个典型的定类变量。假设，我们对本班同学进行一次调查，那么现在，我希望大家能够对性别这个变量的相关情况进行一下说明。有没有同学能够回答我？很好，刚才这位同学说明了咱们班学生的性别构成状况。实际也就是统计了一下本班男女生的人数？这其实就是一种单变量的描述统计方法次数分布的方法。它是用于简化一个定类变量资料的最基本方法。简单来说，就是

5、计算变量的各个取值出现的次数或频次。因此，它又被称为频次分布。以分析性别变量为例，实际就是要计算男生和女生各有多少名。要对频次分布情况进行描述，我们可以采用四种方法。第一种方法是文字法。如某班60名学生中，32人是女生、28人是男生；第二种方法是集合法。第三种是统计表法。第四种则是统计图法。第一种方法十分简单，我们不再详述，下面，我们一起看一下第二种方法。同样以刚才的性别状况为例。我们将性别看作一个变量X，它的可能取值包括：X1-男，X2-女。现在我们采用高中所学的集合方式对其分布情况进行描述。（X1，32）（X2，28）。通过这个例子，大家可以发现，括号中的第一项是变量X的一种可能取值，第二

6、项则是这一取值对应的次数。以这种集合方式将某个变量的所有取值及其对应的次数表示出来，我们就可以了解其次数分布情况。记住，一定要列出某个变量的所有取值及其对应的次数。职业次数比例频率%干部1100.20020.0工人1520.27627.6农民2880.52452.4总数5501.000100.0当然，我们也可以采用统计表的方式来描述变量的次数分布情况。如，我们知道某学校550名学生的父亲职业，其中110名学生的父亲是干部，152名学生的父亲是工人，另有288名学生的父亲是农民。这是采用的文字法说明了次数分布情况。如果，要求采用集合法呢？应该怎么写？将父亲职业看作变量X，它包括三个取值，X1-干

7、部，X2-工人，X3-农民。接下去呢？（X1，110）（X2，152）（X3，288）。现在，我们根据这一系列数据做一个统计表。通过这个表格，我们可以更加清楚地了解该学校学生父亲的职业分布情况。至于统计图法，我们在后面的内容中一起为大家介绍。频次分布可以对原资料进行初步的简化，但是，现在面临这样一个问题。我们知道了另一学校学生父亲的职业分布情况。通过这两个表格，我发现，前一所学校中学生父亲为干部的多于后一所学校，父亲职业为工人的也较后一所学校更多。大家仔细思考一下，我这个说法有没有问题？或者说，这样的比职业次数比例频率%干部500.10410.4工人1350.28128.1农民2950.615

8、61.5总数4801.000100.0较有没有意义？前一所学校的学生总数多于后一所学校。因此，尽管我们知道了两所学校的频次分布情况，但却不能盲目地进行比较，因为两个学校的样本容量不同，即调查对象的总数不同。这个时候，我们应该怎么办啊？如果要对其进行比较，我们可以计算比例或频率（即每个取值对应的次数在调查总体中所占的比例或频率），这里，我们较常使用的是频率。借助它们，我们可以将比较的基数统一起来。如果只是单纯地看次数，前一个学校的工人家庭学生比乙校的多。但这种比较是错误的，因为两个学校的样本总数不同。因此，我们要采用比例或频率的方法将两个样本的总数转化为同一个基数。比例是将基数转化为1，计算公式

9、为f/N，其中N是样本总数，f是变量某个取值所对应的次数。这里，我们先将上述两个表格的次数转化为比例。而频率则将基数变大了，使读者容易领会，一般习惯用百分率，即将基数转化为100。百分率计算公式=f/N*100。这是第二类基本的单变量描述统计法频率分布。对于频率分布，我们同样可以采用文字法、集合法、统计表法以及统计图法来表示。只要将之前的频次换为频率即可。比如，我们在这个统计表的后面再加一列频率。计算百分率的时候，我们需要对小数位数做出取舍？那么取舍的标准是什么呢？这决定于研究工作所要求的精确程度和样本大小。一般来说，要求精确程度越高或样本越大，可以保留的小数越多。社会学研究通常是保留小数点以

10、后的一位或两位数字。还有一点需要大家注意的是，以往在数学课上，我们学习过“四舍五入”的取舍方法，但在进行统计分析时，“四舍”是没有问题的，但不能无原则地“五入”。因为它可能会产生一定的误差。现在，有这样一组数值：6.25、4.45、3.75、7.15，请大家计算一下，它们的总和是多少？21.60。现在按照四舍五入，原数就会变成多少？6.3、4.5、3.8、7.2，总和是？21.8。很明显，把原来的总和变大了。那么我们应该如何进行“五入”呢？近代统计学中为了解决这个问题，提出了“前单五入”的方法，即最后一位是“五”或五以上的数字，而且它前面的一位是单数就进位，若是双数就舍掉（0也算双数）。依此原

11、则，刚才的四个数值就会变为，6.2、4.4、3.8、7.2，其总和是？21.6，与原来总和相同。如果百分率的数值也嫌太小，可以选用千分率、万分率等。如某地某时间的犯罪人数是318人，总人口为521，000人，那么百分率便是百分之零点零六一，数值太小，不容易看。若用千分率便是千分之零点六一，也不容易看。若用十万分率则变成十万分之六十一，即每10万人中有61人犯罪，这就比较清楚了。犯罪研究的统计，通常是用十万为基数。人口学的研究则较常使用千分率。除了频次分布、频率分布外，我们也可以采用两数值的对比值来分析定类变量。如某地总人口中有28，600名男性和23，500名女性，则性别对比值=男性人数：女性

12、人数=28600：23500=1217：1000，即每千名女性对应1217名男性。以上我们主要介绍了频次分布和频率分布，并且说明了如何使用文字法、集合法、统计表法来描述变量的频次、频率分布。它们实际都是在用数值简化资料，其计算结果相当准确，但是不够生动直观。因此，为了达到生动的效果，我们还可以选用统计图法来简化资料，表明变量的分布情况。对于定类变量来说，可以选用条形图和圆瓣图。条形图是用长条的长度来表示资料类别即变量取值的次数或百分数。而长条的宽度没有意义。一般在作图时，会使之等宽。作条形图，一般首先要确定纵轴和横轴。长条可以平行于横轴，即以横轴表示频次或频率，也可平行于纵轴，即以纵轴表示频次

13、或频率。这一点，画图者可根据自己的偏好进行选择。对于定类变量来说，为了使图形清楚，我们可以使各个长条之间保持分散。大家要记住，一个长条即代表了变量的一个取值。条形图即可以根据次数，也可以根据频率作图，以我们班的性别状况为例，我们先根据频次作长条图。如果根据频率作的话，要改动哪里啊？与长条图不同，圆瓣图只可以根据频率作图，它又被称为扇形图。它是用圆形来代表现象的总体（某一变量），圆瓣代表现象中的一种情况（变量的各个取值），其大小代表变量取值在总体中所占的百分比。课本30页介绍了绘制圆瓣图的方式。首先计算各个变量取值所对应的百分率，之后将计算所得的百分数乘以360，以此获得各圆瓣所对应的圆心角度数

14、。最后据此对圆形进行分割。具体的作图方法，大家对照课本看一下，我就不再讲了。以上我们介绍了定类变量的统计分析方法，那么遇到单独的定序变量，我们应该如何进行统计分析呢？首先，我要说明的是，以上我们介绍的各种方法同样适用于定序变量。在使用条形图的过程中，有一点是需要大家注意的：如果是定序变量，长条的排列次序应与变量取值的次序相一致，且图形可以画作紧挨着的长条或离散的长条。以年龄变量为例，某次调查中，老年人100人，中年人300人，青年人150人，此时应该如何作图？由于这是定序变量，所以，在作条形图时，我们必须按照顺序排列。在作统计表时也是如此。而圆瓣图由于无法体现变量取值的排列顺序，因此，它更多地

15、被用于定类变量。除了适用于定类变量的统计分析方法外，定序变量也有自己独特的分析方法，即累加频次（cumulative frequenciescf）和累加百分率（cumulative percentagesc%）。这二者的基本原理一样，即将次数或百分率逐级相加。相加的具体方式分为两种：一种是向上累加，一种是向下累加。大家知道，依照定序变量的取值，可以对调查对象进行等级排列。因此，我们一般将变量取值等级高的规定为上的方向。借助累加次数，我们可以很容易地知道某值以下或以上的次数总和。而借助累加百分率，我们可以知道某值以上或以下的样本在样本总数中所占的比率。接下来，我们一起了解一下累加频次和累加百分比

16、的具体算法。这个表格给出的是频次分布情况。其中列出了每种情况对应的次数，如果我们对它进行向上累加，那么每种情况对应的数值分别是什么呢？其实所谓累加，就是一项一项的叠加。向上累加次数，就是把由较低等级至较高等级的次数相加起来。对于喜爱程度这个变量来说，我们将非常爱看视作最高层次的取值，而很反感是最低层次的。所以在进行向上累加时，我们应该从很反感着手，一步一步向上累加。对于很反感，它本身就是最低层次的了，所以，它对应的向上累加次数就是它本身。而不爱看对应的向上累加次数，是它本身加上反感所对应的次数，为13，由此，我们可以看出不爱看及很反感的学生有13人。以此类推，一般对应的向上累加次数是23，爱看是32，非常爱看是39。向下累加的过程与向上累加相反，它是由较高等级至较低等级的次数相加起来。有没有同学能够说一下？喜爱程度fcf

展开阅读全文