社会统计学社会学测量尺度复习资料大纲总结

资源描述

《社会统计学社会学测量尺度复习资料大纲总结》由会员分享，可在线阅读，更多相关《社会统计学社会学测量尺度复习资料大纲总结（9页珍藏版）》请在金锄头文库上搜索。

1、1、四种测量尺度：（1）定类尺度：按现象性质差异进行的辨别与区分。测量结果形成定类变量或指标。定类变量或指标确切的值是以文字表述的，可用数值标识，但仅起标签作用。各类别间是平等的，没有高低、大小、优劣之分。分类的原则：穷尽性或无遗性；互不重叠或互斥性属性：对称性；传递性（2）定序尺度：按现象顺序差异进行的辨别与区分。测量结果形成定序变量或指标。定类变量或指标确切的值是以文字表述的，可用数值标识，但仅起标签作用。定序变量或指标各类别间有高低优劣之分，不能随意排列。（3）定距尺度：按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量或指标。定居变量或指标的值以数字表述，有计量单位可进行加

2、减运算，不能进行乘除运算。各类别间有大小之分，但没有绝对零点。（4）定比尺度：按现象绝对差异与相对差异进行的辨别与区分。测量结果形成定比变量或指标。定比变量或指标确切的值以数字表述，有计量单位，可加减。有绝对意义上的零点，可乘除。2、测量尺度的作用：（1）决定数据的整理、显示方法。（2）决定数据的分析方法。（3）决定计算机的处理方法。3、对测量尺度的判断：测量精度、计算方法、信息数量4、条形图和直方图的区别：条形图：是以长方形的长度(宽度相同)来表示次数或百分率的多少，为求清楚长方形之间可以分开(当然也可以不分)，宽度没有意义。直方图：又称矩形图，以一个矩形的面积(长宽)表示每组数值的

3、次数或百分率的多少。与条形图的不同。条形图的宽度没有意义，直方图的长度与宽度均有意义；直方图各个矩形要相连排列，条形图可以分开。5、累加次数：累加次数就是把次数逐级相加起来，分为两种；一种是向上累加(cf)，一种是向下累加(cf)，其作用是使我们容易知道某值以下(或以上)之次数总和。向上累积表示由低层向高层累加。向下累积表示由高层向低层累加。6、众值：众值(Mo)就是次数最多之值。对于定类变项，以众值作预测所犯的错误是最小的。众值适合于分析定类变项，也可以用来分析定序、定距变项的资料。7、中位值：中位值(Md)就是在一个序列的中央位置之值，即高于此值的有50%的研究个案，低于此值的也有5

4、0%。即：按大小次序排列的N个数值的中间值。注意：(1)如果N是奇数，中位数个案就是第（N+1）/2个个案。 (2)如果N是偶数，中位数就是第N/2个个案和N/2+1个个案之间的数值；如果两个中间的个案碰巧都是一样的数，那么中位数也就是那个数本身。 (3)可以利用累加次数寻找中位值 (4)根据分组资料计算中位值公式：Md=L+( )W L：中位值组的真实下限 f：中位值组的频数 CF：低于中位值组真实下限的累积次数 W：中位值组的组距 N：全部个案数目8、均值：分数之和除以个案的总数目。习惯上用X来代表均值。均值具有以下代数性质：(1)每一个记分数对均值的偏差的总和为0，即：(xi-x)

5、=0 (2)各数值对均值的偏差平方和小于任何其他数的偏差平方和，换句话说，就是：(xi-x)2=极小值根据原始资料求均值：根据频数分布求均值：根据分株数据求均值：为组中心值二种情况一般不用均值：(1)开放间距 (2)存在极端个案9、众值、中位值和均值比较三值设计的目的是共同的，都是希望通过一个数值来描述整体特征，以便简化资料。它们都是反映了变量的集中趋势。一般说来：众值：适用于定类、定序和定距变量。中位值：适用于定序和定距变量。均值：适用于定距变量。众值仅使用了资料中最大频次这一信息，因此，资料使用是不完全的。中位值：由于考虑了变量的顺序和居中位置，它和总体的频次分布有关。均值：由

6、于它既考虑到频次，又考虑变量值的大小，因此它是最灵敏的。虽然均值对资料的信息利用最充分，但对严重偏态的分布，会失去它应有的代表性。（1）均值受极端值的变化影响；中位值则不受影响，除非中位值本身变化。（2）均值随样本变化较少，与中位数相比，一般是比较稳定的量度；往往不同的样本之间，中位数比均值有更大的差异。（3）均值比较容易进行算术运算。（4）计算均值以定距尺度为前提，中位数既可用于定序的，也可以用于定距的尺度。对于对称的图形，众值、中位值和均值三者位置重叠，当图形正偏或负偏时，均值变化最快，中位值次之，众值不变。10、集中趋势测量法：找出一个数值来代表变项的资料分布，以反映资料的集中情况。

7、集中趋势测量法有一个特殊意义，就是可以根据这个代表值来估计或预测每个研究对象(即个案)的数值。这样的估计或预测，由于所根据的数值最有代表性，故所发生错误的总和是最小的。11、离散趋势测量法：指求出一个值来表示一个变项上的个案与个案之间的差异情况。12、四分位差：检验中位数代表性高低；是定序及以上变量度量分散程度的一种方法。注意：中位值两旁的Q1和Q3之间，共有50%的个案，其分布愈远离中位值，中位值代表性就愈小，以之作估计的标准所犯错误就愈大。计算方法：将个案由低至高排列，然后分为四个等分（即每个等分包括25%的个案），则第一个四分位置的值(Q1)与第三个四分位置的(Q3)的差异，就是四

8、分位差(简写Q)，公式是Q=Q3-Q1。(一) 未分组数据：首先求出Q1与Q3的位置，公式是：Q1位置=(N+1)/4Q3位置=3/4(N+1)（其中N是全部个案数目），然后求出相应的Q1和 Q3的值；最后 Q=Q3-Q1。（二）根据分组资料求四分位差：第一步：计算累加次数(Cf)；第二步：求出Q1和Q3位置，Q1位置=1/4N Q3位置=3/4N；第三步：参考累加次数分布，决定Q1和Q3的位置应属于哪一组；第四步：从所属的组中，计算Q1位置和Q3位置的数值。Q1=L1+( )W1 Q3=L3+()W3L1=Q1属组之真实下限L3=Q3属组之真实下限f1=Q1属组之次数 f3=Q3属组之次数

9、Cf1=低于Q1属组下限之累加次数Cf3=低于Q3属组下限之累加次数W1=Q1属组之组 W3=Q3属组之组距N=全部个案数目例题：生产队的育龄妇女节育情况如下表，求四分位差。13、定距变量离散程度测量：极差(全距：R)：最高与最低的记分数之差。优点：计算简单，一目了然，特别是对外行来说，极差是唯一可理解的离差量度。缺点：仅仅以两个个案为依据，而且是两个极端个案；随着样本变化而变化很大，一般来说大样本的极差比小样本更大一些。因此，极差难以真正反映资料全体的分散程度。平均差：各记分数偏离均值的绝对差的算术平均数。 A.D= 严重缺点：（1）用绝对值不容易进行代数运算；（2）平均偏差既不容易做理论

10、上的阐释，又会导致较复杂的数学结论。标准差：对均值的偏差平方的算术平均值的平方根。S= 或者S= 计算方法：取每个记分数对于均值的偏差，取每个差的平方，再相加取和，除以个案数目，然后取平方根。明显的性质：(1)数据在均值周围的散布范围越大，标准差越大。 (2)对于均值的极端偏差在决定标准差的数值方面具有最大的加权作用。如果分布中有很少极端个案而且数值可能非常大，标准差就会导致错误的结论。这种情况下可用中位数作为集中趋势的量度，用四分位差作为离差的量度。对于分组资料，用组中值来代表变量值，标准差计算公式与上述相同。方差：标准差的平方。14、标准分：它是以均值为基点，以标准差为度量单位，因此，

11、各总体之间可以通过标准分进行合理的比较和相加。为标准差标准分的意义：它是以均值为基点，以标准差为度量单位，因此，各总体之间可以通过标准分进行合理的比较和相加。 15、相关：是指一个变项的值与另一个变项的值具有连带性。即：如果一个变项的值发生变化，另一个变项的值也有变化，则两个变项就是相关了。相关测量种类：1、从变量或现象多少看，单项关和负相关 2、从变量变化的形式看，直线相关和曲线相关3、从测量层次上看，定类定类定序定序定距定距定类定序定类定距定序定距16、交互分类：同时依据两个变项的值，将所研究的个案分类。17、条件次数：表示在自变项的每个值（条件）的情况下依变项的各个值的

12、个案数目（次数）。18、边缘次数：表中表示总和的次数19、条件次数表有大小之分。计算方法：依变项值数目乘上自变项值数目。20、如果将依变项放于表的旁边，自变项放于表的上端，则表的大小就是横行数目(r)乘上纵列数目(c)，即表的大小为C。21、条件次数表的缺点：难于比较不同条件下的次数分布，因为作为基数的边缘次数各有不同。22、条件百分表结论表制定原则：每个表的顶端要有表号和标题。绘表所用的线条要尽可能简洁。在表的上层（即自变项的每个值之下）写上%符号，表示下列的数值都是百分率。在下端的括孤内的数值，表示在计算百分率时所根据的个案总数。表内百分率数值的小数位保留多少视研究需要，但要有一

13、致性。23、条件百分表里有自变项和依变相两类数据，常用的规则是：根据自变项的方向（即纵向百分比或列百分比）。但是，如果依变项在样本内的分布不能代表其在总体内的分布，则百分率的计算要根据依变项的方向，不在等比情况下抽样。24、消减误差比例(PRE)：表示用一种现象(x)来解释另一种现象(y)时，减少百分之几的误差。PRE= E1：表示在不知道X的情况下，预测Y值所产生的全部误差；E2：表示在知道X的情况下，可以根据X的每个值来预测Y值时产生的误差；E1-E2:表示在知道X的情况下用X预测Y，和在不知道X的情况下预测Y时相比所减少的误差。25、如果E2=0，即标示以X预测Y不会产生任何误差，

14、则PRE=1，反映X与Y是全相关；如果E2=E1，即意味着以X预测Y所产生的误差等于不以X预测Y所产生的误差，则PRE=0，反映X与Y是无相关。如：PRE=0.80，表示用X预测Y可减少80%的误差，反映两者相关程度很高。又如：PRE=0.08，就表示只能消减8%的误差，即X对Y的影响很小。（例题）26、对于rc表，有两类讨论方法。一类是以值为基础来讨论变量的相关性。一类是以减少误差比例(PRE)为准则来讨论变量间的相关性。27、 Lambda相关测量法基本逻辑是计算以一个定类变项的值来预测另一个定类变项的值时，如果以众值为预测的准则，可以减少多少误差。消减的误差在全部误差中所占的比例愈大，就表示这两个变项的相关愈强。=PRE My=Y变项的众值次数；my=X变项的每个值之下y变项的众值次数；N=全部个案数目。若以Y为自变量，X为依变量，则其中:Mx为x变项的众值次数；mx为y变项的每个值之x变项的众值次数；N为全部个案数目如果是对称的情况，即：x与y可相互预测，不分自变项与依变项，则：Lambda 相关测量的性质：(1) 系数的取值范围0xj，则yiyj，则称

展开阅读全文