第十章单变量描述统计

资源描述

《第十章单变量描述统计》由会员分享，可在线阅读，更多相关《第十章单变量描述统计（14页珍藏版）》请在金锄头文库上搜索。

1、第十章单变量的描述统计调查所得的原始资料经过审核、整理与汇总后，还需要进行系统的统计分析，才能揭示出调查资料所包含的众多信息，才能得出调查的结论。根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。在这一讲中我们先介绍单变量的统计分析。单变量统计分析可以分为两个大的方面，即描述统计和推论统计。描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。推论统计是用样本调查中所得到的数据资料来推断总体的情况。这一讲我们讲解单变量的描述统计方法。一、变量的分布 (Distributions) 变量的分布分为两类，一类是频数分布，一类是频率分布。频数分布就是变量的每一取值出

2、现的次数；频率分布是用变量每一取值的频数除以总个案数，它是一个相对指标，可以用来比较不同样本。频数分布与频率分布一般以统计表与统计图的形式表达。1、统计表（1）统计表就是以表格的形式来表示变量的分布。如下表所示：表9-1甲校学生的父亲职业职业 f p %工人农民干部 152 288 1100 2760 5240200 276524200总数 550 1000 1000数值中的小数的取舍：通俗的做法是“四舍五入”。“四舍”没有问题，但无原则的“五入”就会产生一定的误差。例如数值6.25、4.45、3.75、和7.15的总合是21.60。如果对原数的最后一位小数作简单的四舍五入，原数就变成

3、6.3、4.5、3.8、7.2，其总合是21.8，把原来的总合变大了。近代统计学有一项新原则，就是“前单五入”，即“五”前面是单数就进位，若是双数就舍掉（0也算双数）。（2）对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。如下所示：表9-2甲校学生之父亲教育水平教育 f cf cf % c % c% 一级二级三级四级五级 68 550 68 90 482 158106 392 264193 286 45793 93 550124 1000 124163 876 287193 713 480351 520 831169 169 1000 总数55010002、统计图统计图是

4、以图形表示变量的分布情况。与统计表相比，统计图更直观、生动、醒目，但不够精确。统计图有圆瓣图、条形图、直方图和折线图。（1）圆瓣图：多用于描述定类变量的分布，主要目的为显示各部分在整体中所占的比重，以及各部分之间的比较。如表9-1的资料可用下图（图1）所示：农民部分=36052.4%=188.64工人部分=36027.6%=99.36干部部分=36020.2%=72(图一)甲校学生的父亲职业分布（2）条形图：多用于描述定类与定序变量的分布，它是以长条的高度表示变量不同取值的频数（率）分布的，其中长条的宽度没有意义，一般均画成等宽长条。为求清楚，长条之间可以分开。如表9-2的资料可用下图（图2）

5、所示：（图二）甲校学生的父亲教育水平（3）直方图：直方图是由紧挨着的长条构成的，但与长条图不同，它的条的宽度是有意义的，实际上它不是用长条的高度而是用长条的面积表示频数（率）的大小，长条的纵轴高度表示频数（频率）密度密度=频数（率）/组距，长条的宽度表示组距。直方图仅适用于定距变量。如表9-3的资料可用下图（图3）所示：表9-3 甲校学生的家庭每月总收入收入 f cf cf15001899 13001499 11001299 9001099 700899 500699 40 550 40 141 510 181 158 369 339 136 211 475 65 75 540 10 10

6、550 总数 550组限（class limits），就是每组的范围，包括上限（upper limit）和下限（lower limit）。例如表9-3中的“700899”组，上限是899，下限是700。但要注意，统计表上所标示的组限（stated limits）是让读者容易领会，但不是真实的组限(real limits)。上表的真实组限是499.5699.5、699.5899.5、899.51099.5、1099.51299.5等等。如果某家庭的收入与真实组限之值相同，一般是采用四舍五入的原则，如把699.5元归“700899”组。真实组限与标示组限的关系，可以下式表示：真实下限=标示下限0

7、.5 真实上限=标示上限0.5组距（class width），就是组的真实上限与真实下限之差，如上表的“700899”组的组距是：899.5699.5=200。组中点（class midpoint），就是真实上限与真实下限的平均数，如“700899”组的中点是：（699.5899.5）2=799.5。（4）折线图：折线图是用直线连接直方图中条形顶端的中点而成的。二、集中趋势分析集中趋势是从一组数据中抽象出一个代表值，代表现象的共性和一般水平。这种方法有一个特殊意义，就是可以根据这个代表值（或称典型值）来估计或预测每个研究对象（即个案）的数值。这样的估计或预测，当然会有错误，但由于所根据的数值

8、最有代表性，故所发生之错误的总和理应是最小的。集中趋势测量指标有三类：众数、中位值、平均数。1、众数众数（M。）就是出现频数或频率最多的变量值。因为众数最有代表性，故此具有估计或预测的意义，长远来说，以众数作预测所犯的错误总数是最小的。求众数的方法如下：（1）对原始资料：如下例：1，2，3，5，5，5，6，6，7，9其M。=5（2）对单值分组资料：如下表9-3某实验小组成员的年龄分布：表9-3某实验小组成员年龄分布年龄数量 13 3 14 4 15 6 16 8 17 4 18 3 19 3其 M。=16（3）组距分组资料：众数是频数最大的区间的组中值。如对于表9-5所示的资料其M。=35

9、02、中位数中位数（Md）是最中间的数值。它用于描述定序变量以上层次的变量。长远来说，以中位数去估计定序变量的数值，所犯的错误总数是最小的。求中位数的方法如下：（1）对原始资料：原始资料计算中位值的公式是：Md位置= 例：9个人的日工资分别如下：47，42，50，51，92，112，71，83，108首先，从小到大排列：42，47，50，51，71，83，92，108，112。其次，由中位值的位置公式可知Md= =5最后，求Md=71如果n为偶数，则将位于最中央的两个数值的平均值作为中位值。（2）对单值分组资料：如下表9-4的资料：表9-4学生的学业成绩等级 f cf cf甲乙丙丁 5 5

10、 80 20 25 75 30 55 55 25 80 25 总数 80由公式可知Md位置= =405从累加频数中可知这个位置的值在丙值内，故Md=丙。（3）对组距分组资料：组距分组资料的中位值公式为：Md=L+i 其中L为中位数所在组的下限值，cf(m-1)为中位数所在组以上的累计频数，fm为中位数所在组的频数，i为中位数所在组的组距。例：表9-5某企业100名职工收入的分布收入（元）职工数（人）累计频数组中值 Xf100199 10 10 150 1500200299 10 20 250 2500300399 40 60 350 14000400499 20 80 450 9000

11、500599 20 100 550 11000合合计 100首先求出中间位置为（100+1）=505，再从累计频数栏中找到中位数所在组为“300399”这一组，最后利用公式计算 Md=300+100=375平均数：仅适用于定距及定距以上变量，但有时也可用于定序变量，如求平均等级。长远来说，以平均数估计定距变量的资料，错误最小。（1）对原始资料：平均数的公式为= 其中x为各个个案数值之和，n表示全部个案数。（2）对单值分组资料：平均数的公式用加权平均数公式： =如对下表9-6中的资料求平均数：表9-6某年级150名学生的年龄分布年龄频数累积频数累积频数 17 10 10 150 18 25 35 140 19 50 85 115 20 40 125 65 21 20 145

展开阅读全文

第十章单变量描述统计

最新文档