《第二章单变量的统计描述分析社会统计学》由会员分享,可在线阅读,更多相关《第二章单变量的统计描述分析社会统计学(54页珍藏版)》请在金锄头文库上搜索。
1、第二章第二章 单变量统计描述单变量统计描述(3)(3) 众值、中位值和均值都反映了资料的集中特征b但这还不够,试比较以下三组数据: b甲组:80 86 90 94 100 X=90b乙组:88 89 90 91 92 X=90b丙组:90 90 90 90 90 X=90 所谓离散趋势测量法所谓离散趋势测量法b是是指指求求出出一一个个值值来来表表示示一一个个变变项项中中各各变变量量值值之之间间的的差距和离散程度。差距和离散程度。b离散趋势反应的是变量分布的分散程度,数据离散趋势反应的是变量分布的分散程度,数据分布的另一个重要特征分布的另一个重要特征b反映各变量值远离其中心值的程度,有时又称反映
2、各变量值远离其中心值的程度,有时又称离中趋势,离势小,平均数的代表性高;离势离中趋势,离势小,平均数的代表性高;离势大,平均数代表性低。大,平均数代表性低。 b从另一个侧面说明了集中趋势测度值的代表程从另一个侧面说明了集中趋势测度值的代表程度度b不同类型的集中趋势对应着不同的离散趋势的不同类型的集中趋势对应着不同的离散趋势的测量测量45离散趋势的测量的内容 一一.异众比率异众比率 二二.极差极差 三三. 四分位差四分位差 四四. 平均差平均差 五五. 方差及标准差方差及标准差 六六. 离散系数离散系数一、异众比率一、异众比率(Variation Ration)适适用于定类或以上测量层次的变量用
3、于定类或以上测量层次的变量b 异众比率(V)就是非众值的频数占全部个案数目的比率。b公式如下:V=b bN为全部个案数目,fmo是众值的频次。b 这个公式所求出的是在全部的个案中有多少是偏离众值,显然,非众值的比例越小,众值的代表性越好。可见,离异比率是众值的补充可见,离异比率是众值的补充。b当当V=0,说说明明变变量量只只有有一一个个取取值值,那那是是众众值值,这这时时众众值值可可以以完完全全代代表表变变量量;V1时时,表表示示资资料料十十分分分分散散,众众值值几几乎没有代表性。乎没有代表性。例:调查了200名大学生,内心的苦恼倾诉对象意愿为:b党团组织41人、家长49人、知心朋友52人、闷
4、在心里32人、 班团干部15人、随便议论11人b可见N=200 fmo=52b V=b 众数的代表性很低b注意:众值与众值频数,即MO与fmo的区别。二、极差(全距)b定义:一组数据的最大值与最小值之差b例如:数据72,81,86,69,和57的极差为:86与57之差等于29。如果数据已被分组,则极差取为极端类别的中点之差例:例: 青年人阅读小说书的数目青年人阅读小说书的数目 则极端类别的中点为3和18 极差R=18-3=15 优点:b计算简单,并且一目了然,特别是对外行来说,极差是唯一可理解的离差量度。 缺点:b它它仅仅仅仅以以两两个个个个案案为为依依据据,而而且且是是两两个个极极端端的的个
5、个案案,数数据据利利用用率率低低,信信息息丧丧失失严严重重。另另外外,极极差差随随着着样样本本的的变变化化而而变变化化很很大大,一一般般来来说说大大样样本的极差比小样本更大一些本的极差比小样本更大一些。13三、四分位差,检验中位数代表性高低三、四分位差,检验中位数代表性高低 1. 排序后处于排序后处于25%和和75%位置上的值位置上的值2. 不受极端值的影响不受极端值的影响3. 主主要要用用于于定定序序数数据据,也也可可用用于于数数值值型数据,但不能用于定类数据型数据,但不能用于定类数据QQ2525QQ5050QQ757525%25%25%25%b 计算方法,是将个案由低至高排列,然后分为四个
6、等分(即每个等分包括25%的个案;则第一个四分位置的值(Q1)与第三个四分位置的(Q3)的差异,就是四分位差(简写Q),公式是Q=Q1-Q3)b 25% 25% 25% 25%b 低 Q1 Q2 Q3 高 (一) 未分组数据b首先应求出Q1与Q3的位置,公式是:bQ1位置=; bQ3位置=3(N+1)/4b 其中N是全部个案数目 如调查甲、乙两个生产队家庭的人数b甲队有11户人家,每户人数如下:b 2 2 3 4 6 9 10 10 11 13 15b Md位置= Md=9b Q1位置= Q1=3b b Q3位置= Q3=11b 所以四分位差Q=Q3-Q1=11-3=8乙队有8户人家,每户人数
7、如下:b 2,3,4,7,9,10,12,12bMd位置= bMd=b Q1位置= Q1=3+0.25(4-3)=3.25因此bQ3位置=3(8+1)/4=6.75bQ3=10+0.75(12-10)=11.5 b所以Q=Q3-Q1=11.5-3.25=8.25根据频次分布或四分位差步骤如下:bQ1位置=(N+1)/4=(80+1)/4=20.5 Q1=丁b Q3位置=3(N+1)/4=3(80+1)/4=60.75 Q3=乙bMd位置= 1/2(N+1)=1/2(80+1)=40.5 Md=丙b 四分位置Q=Q3-Q1=乙-丁b 结论,有50%的学生成绩在乙与丁之间。21定序数据的四分位数:
8、例【例例例例3.103.10】根根据据第第二二章章表表2-22-2中中的的数数据据,计计算算甲甲城城市市家家庭庭对对住住房房满意状况评价的四分位数满意状况评价的四分位数解:解:解:解:下四分位数下四分位数( (Q Q2525) )的位置为:的位置为: Q Q2525位置位置(300)/4(300)/47575 上四分位数上四分位数( (Q Q7575) )的位置为:的位置为: Q Q7575位置位置(3300)/4(3300)/4225225从从累累计计频频数数看看, Q Q2525在在“ “不不满满意意” ”这这一一组组别别中中; Q Q7575在在“ “一一般般” ”这这一一组别中。因此组
9、别中。因此 Q Q2525 不满意不满意不满意不满意 Q Q7575 一般一般一般一般表2-2 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计300根据分组资料求四分位差b步骤:第一步:计算累加次数(Cf)b 第二步:求出Q1和Q3位置b Q1位置=N+1/4 Q3位置=3(N+1)/4 其 中N是全部个案数目b 第三步:参考累加次数分布,决定Q1和Q3的位置应属于哪一组b 第四步:从所属的组中,计算Q1位置和Q3位置的数值 公式如下:bQ1=L1+( )W1bQ3=L3+(
10、)W3其中:bL1=Q1属组之真实下限bL3=Q3属组之真实下限bf1=Q1属组之频数 f3=Q3属组之频数bCf1=低于Q1属组下限之累加次数bCf3=低于Q3属组下限之累加次数b W1=Q1属组之组距 W3=Q3属组之组距b N=全部个案数目例:例: 生产队的育龄妇女节育情况生产队的育龄妇女节育情况第二步bQ1 的位置=212/4=53bQ3的位置=3/4N=3/4212=159第三步b参加累加次数分布,可见Q1位 置 属 于 5-15组,Q3位置是45-55。根据第四步的计算公式,计算Q1和Q3位置的数值:bL1=5.5bL3=45.5bf1=38bf3=24bcf1=16bcf3=14
11、7bW1=10bW3=10bN=212因而:bQ1=5.5+( )10=15.2bQ3=45.5+( )10=50.5b则 Q=Q3-Q1=50.5-15.2=35.330四分位差:定距数据的例子四分位差四分位差四分位差四分位差Q QQ Q7575- -Q Q2525128.75-117.81=10.94128.75-117.81=10.94表2-5 某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105110110115115120120125125130130135135140358141064381630404650合计50【例例例例3.133.13】根根据据第第二二章章
12、表表2-52-5中中的的数数据据,计计算算50 50 名名工工人人日日加加工工零零件数的四分位数件数的四分位数31线箱图的绘制(举例)Md=123.21Q25= 117.81Q75=128.75Max(Xi)=107Min(Xi)=13932四、平均差 :概念要点及计算公式1. 各变量值与其均值离差绝对值的平均数2. 离散程度的测量值之一3. 能全面反映一组数据的离散程度4. 数学性质较差,实际中应用较少 5. 5. 计算公式为计算公式为未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据例72、81、86、69、57、的均值是73b从每个数减去73,忽略正
13、、负号,加上结果再除以5,得bA.D=b因此 我们可以说,记分数与均值平均相差8.434平均差:计算过程及结果表3-4 某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)| Xi- X |Xi-X |Fi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合计50312【例例例例3.133.13】根据第二章表根据第二章表2-52-5中的数据,计算工人
14、日加工零件数的平均差中的数据,计算工人日加工零件数的平均差五、方差和标准差:概念要点1.方差是变量值与均值偏差的平方的平均值,标准差是方差的开平方2.离散程度的测量值之一,最常用的测量值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差36总体方差和标准差:计算公式未分组数据:未分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差(例)38总体标
15、准差:计算过程及结果表3-5 某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)(Xi- X )2(Xi- X )2Fi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计503100.5【例例3.14】根据第二章表2-5中的数据,计算工人日加工零件数的标准差还有以下一些替代公式:b S=实际上
16、基本公式为:例:72,81,86,69,57,N=5 6561,7396,4761,3249.42离散系数:概念要点和计算公式1.标准差与其相应的均值之比2.测度了数据的相对离散程度3.用于对不同组别数据离散程度的比较4.计算公式为例如b 代表性高44离散系数:实例和计算过程表3-6 某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)X1销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例例3.15】某管理局抽查了所属的8家企业,其产品销售数据如表3.6。试比较产品销售额与销售利润的离
17、散程度45离散系数:计算结果X1=536.25(万元)S1=309.19(万元)V1=536.25309.19309.19=0.577S2=23.09(万元)V V2 2= =32.521532.521523.0923.09= =0.7100.710X2=32.5215(万元)结结论论: 计算结果表明,V1V2,说明产品销售额的离散程度小于销售利润的离散程度 46数据类型与离散程度测度值表表3-7 3-7 数据类型和所适用的离散程度测度数据类型和所适用的离散程度测度值值数据类型定类数据 定序数据定距数据或定比数据适用的测度值异众比率异众比率异众比率四分位差四分位差极差平均差 离散系数(比较时用
18、)方差或标准差习题b一、根据以下统计资料:汉族,50,000人 , 苗 族 22,000人 , 布 衣20,000人,藏族1,000人,问能制成哪些统计图?对变量值的排列是否有要求?b二、直方图的高度有什么意义?什么情况下,直方图的高度也可用频次或频率来表示?三、抽查50名学员,他们的统计学成绩如下:b试以10分为组距,用划记分法编制次数分配表,并绘制直方图。五、将习题四的50名学员统计学成绩接下表分组四、(续)b(1)计算并填充频率栏和累积频率栏b(2)哪几组是开口组?计算其组中值b(3)第三组的实际组限是多少?b(4)第二组的表面组限是多少?b(5)第四组的组中值是多少?五、将空白处填充有关数据(单位:厘米)六、以下是甲乙两村九户家庭人口数的原始数据bb甲村:3;3;4;4;4;5;6;7;8bb乙村:3;3;4;4;4;4;5;5;5bb(1)计算两村家庭人口数的众值、中位值和均值bb(2)对三种集中值作出讨论七、以下是68名职工婚姻状况的调查 N“未婚”; M“已婚” D“离婚”; W“丧偶”b选择适当的集中值和离散值,并讨论之。八、设以下是72名离婚者婚龄的统计b(1)试作直方图b(2)试求众值、中位值和均值并作简单讨论b(3)试求四分位差和标准差