社会统计学复习整理

资源描述

《社会统计学复习整理》由会员分享，可在线阅读，更多相关《社会统计学复习整理（28页珍藏版）》请在金锄头文库上搜索。

1、社会统计学复习整理一、变量的测量层次二、判断变量层次的技巧1.首先所有的变量都是定类变量。2.其次看变量的取值能否比较大小，不能这个变量只能是定类变量。3.最后如果这个变量能够比较大小，那么就看变量取值加减乘除是否有意义，如果有意义就是定距变量，如果没有意义就只能是定序变量。三、变量层次的比较定类变量、定序变量和定比变量的数层次是从低到高排列的，高层次的变量同时具有低层次变量的功能。四、相关分析方法测量层次变量举例数学特性单变量分析定类nominal 区分类别性别职业婚姻状况宗教信仰频数分布、频率分布众数、异众比率定序ordinal 区分类别后，还能排列

2、高低、大小、先后、强弱等等级序列文化程度城市规模社会地位生活水平住房条件工作能力、频数分布、频率分布众数、异众比率中位数、四分位差定距interval 区分类别、等级后还能算出等级间的差距数量，但没有实际意义的“0” 收入年龄时间出生率性别比、、频数分布、频率分布众数、异众比率中位数、四分位差平均数、标准差、离散系数定比ratio 区分类别、等级后还能算出等级间的差距数量，但具有实际意义的“0” 收入年龄时间出生率性别比、、、频数分布、频率分布众数、异众比率中位数、四分位差平均数、标准差、离散系数变量层次

3、相关系数是否对称取值范围 PRE意义检验定类-定类定类-定序不对称【0，1 】有 X 定序-定序 G 否【- 1，1】有 Z 定类-定距定序-定距 Eta 不对称【0，1 】无 F r 对称【- 1，1】无定距-定距 r 对称【0，1 】有 F 第二节简化一个变项的分布一、定类变量 1. 统计表：用表格的形式来表示变量频次（或频率）分布的一种工具。 2. 统计表必备的内容：（1）表号、标题（2）标识行：变量名、对应数据说明（频次、频率）（3）主题行：变量取值的统计数据（4）表尾：如果是引用必须说明资料来源二、定序变量 1. 适合

4、定序变量的简化资料的方法（1）累加次数：把次数逐渐相加起来，分为向上累加次数（cf）和向下累加次数(cf)。（2）累加频率：把各级的百分率逐渐相加。也分为向下累加百分率和向下累加百分率。 2.cf的计算方法就是按照变量取值的等级从低往高逐层相加。 3.cf计算方法就是按照变量取值的等级从高往低逐层相加。 cf表示低于某个等级的频数有多少 cf表示高于某个等级的频数有多少三、定距变量 1. 定距变量的简化工具是：分组、直方图和折线图。 2. 连续型定距变量的分组统计（1）组数：分组的数量，一般5到7组合适，分为等距分组和非等距分组。（2）组限：包括上限（up）和下限（l

5、ow）（3）标识下限和标识上限，例500699 （4）真实下限：标识下限0.5；真实上限：标识上限+0.5. （5）组距：真实上限与真实下限之差。（6）组中值：真实上限与真实下限的平均值。第三节集中趋势测量法 1. 集中趋势：用一个典型的变量值或特征值来代表全体变量的问题，用这个数值来代表变项的资料分布，以反映资料的集结情况。 2. 集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。一、定类变量 1. 众值（Mode）Mo：用具有频数最多的变量的取值来表示变量的集中值。 2. 众值的特征：（1）：众值理论上可以用于定类、定序和定距三个层次的变量来描

6、述集中趋势，但是由于众指不精确，一般只用于定类层次的变量。（2）：众值最好找，是最容易求出的值，但它精确度也是最差的。二、定序变量1.中位值（Md）。2.分组数据求中位值公式：Md=L+(n/2- cf/n)(U-L)L：中位值的真实下界值U：中位值的真实上界值n：中位值组的频数cf：低于中位值所在组的累加（向上）频次N：调查总数Md位值：N/2 二、定距变量 1. 均值（Mean）:将变量的各个数值相加起来，除以总个数，求取一个平均值的数值，一般用x来表示。 2. 均值的特征：仅适合定距层次的变量它最灵敏，预测的精确度最高对资料所提供的信息运用得最充分 3. 均值的求法（

7、一）原始数据求均值：X=X1/N (X表示变量x的均值；X1表示变量观察值的总和。) （二）根据频次分布求均值：x= 1 X 1 2 (x 表示变量X的均值；表示变量的每一个取值 1 X 1 和该变量频数相乘的和；表示把变量的每个取值下的 2频次都加起来，即调查总数N)(三) 分组数据求均值：x= 11 1(n1表示每组次数，b表示每组的组中值，表示个案数 1 目)第四节离散趋势测量法离散趋势测量法：是求出一个值来表示个案与个案之间的差异情况。离散趋势或离散特征可以告诉我们估计值误差的大小。一、定类变量（异众比率V） V就是非众值的次数与全部个案数目的比率。 V= (N-全

8、部个案数目； -众值的次数) V值越小，众值代表性越好。二、定序变量 1. 极差(R)观察的最大值与最小值之差。 2. 四分互差：将数值排序，分为四个等分，第一个四分位置的值与第三个四分位置的值的差异。四分位差Q=Q75-Q25 (一) 未分组数据:2 2 3 4 6 9 10 10 11 13 15 Md的位置=N+1/2=11+1/2=6 Q25的位置=N+1/4=11+1/4=3（第三位数） Q75的位置= （N+1）= （11+1）=9（第九位数） 3 4 3 4 所以，四分位差Q= Q75-Q25=11-3=8 (二) 分组数据 1. 中位值公式=Md=L+( - cf)/n

9、(U-L) 2 2. Q25=L+( - cf)/n(U-L) 4L：四分之一位值组的真实下界值U：四分之一位值组的真实上界值n：四分之一位值组的频数cf：低于四分之一位值组的向上累加频次N：调查总数Q25位置=N/4; 3. Q75=L+( - cf)/n(U-L) 3 4 L：四分之三位值组的真实下界值U：四分之三位值组的真实上界值n：四分之三位值组的频数cf：低于四分之三位值组的向上累加频次N：调查总数Q75位置=3N/4; 三、定距变量 (一) 标准差与方差 = (即对均值的偏差平方均值的平方 1 2 ( i ) 根)= （ x) (二) 根据未分组的频次分布求方差 = 1 2 (

10、i ) N-调查总数；Xi-表示变量的每个取值；ni-表示每个取值的频次 (三) 分组数据求方差用组中值代替bi代替xi代入公式中 = 1 2 ( ) 第三章概率一、概率1.不可能事件的概率：P(O)=02.必然事件的概率：P(S)=13.随机事件的概率：0P(E)1 二、两个重要概念1.普查：对统计总体的全部单位进行调查以搜集资料统计资料的工作。2.抽查：按照某种方法以总体中抽取一部分样本进行调查，以搜集统计资料的工作。三、频率分布于概率分布的关系 1.频率分布是实验值，是可以变化的，称之为统计分布或经验分布。2.概率分布是理论值，是唯一的，称之为理论分布。3.当观测次数很大时

11、，随机变量取值的频率接近于其概率，这时随机变量的统计分布与理论分布将大致相符。四、总体均值和方差1.总体均值（E）:随机变量各取值分别乘取值的概率的总和。E()=PiXi2.总体方差（D）:就是随机变量偏离总体均值的程度。D=S=E(X)-E(x)3.总体均值和样本均值的区别：总体均值是对研究对象进行普查后得出的均值。样本均值是对从总体中抽取的样本数据计算出来的均值。4.总体方差与样本方差的区别：总体方差是对研究对象进行普查后，利用数据算出来的方差。样本方差是根据从总体中抽取出的样本的调查总数据，计算出来的方差。5.总体均值方差和样本均值方差表示法1.总体均值E=，总体方差D=

12、，总体标准差=2.样本均值=x，样本方差=s，样本标准差=S6.结论 1.通过普查，可以得出概率、总体均值E()、总体方差D()，这些值我们称为参数值。2.通过抽查，可以得出频率、样本均值x、样本方差s，这些值我们称为统计值。3.当样本为大样本(N30)，频率概率、样本均值总体均值、样本方差总体方差。4.当样本数无穷接近总体数的时候，频率=概率、样本均值=总体均值、样本方差=总体方差。5.统计学的任务就是如何利用统计值来推论参数值（统计推论），实现我们的研究目的。第四章常见统计分布第一节二点分布一、二点分布（0-1分布）:就是变量的取值只有两类的分布。如：性别。二、二分

13、变量的分布律：随机变量如果满足二点分布，则其概率分布为P(=0)=q；P(=1)=P；P+q=1 0 1 P=(=Xi) q P 第二节二项分布一、二项分布：在相同条件下进行n次独立试验，每次试验只有两种可能的结果，事件A出现的概率P(A)=P,事件A不出现的概率P(A)=1-p=q. 第三节正态分布一、什么是正态分布？中心极限定理：对于任何变量，不管其原有分布如何，如果把它们n个加在一起，当n大于一定数之后（n30）,那么其和的分布必然接近正态分布。二、正态分布密度曲线的特点1.一个高峰2.一个对称轴X= 3.一个渐近线X轴 4.正态分布曲线是单峰值对称的，因此这种分

14、布的变量，其众值、中位值和均值是重叠的。 5.正态分布下的面积为1. 三、正态曲线的参数意义1.正态分布的两个参数是（总体均值）和（总体方差）。2.两个参数对曲线形状的影响：(1)（X）在x=处达到峰值，以直线x=为对称轴。在一定的情况下，若增大，图形右移；若减小，则左移，但形状不变。(2)当值一定时，值越小，则对应的图形越尖越瘦。第四节标准正态分布标准正态分布：标准正态分布就是通过公式把一般正态分布转化而来，这样把不同的正态分布都统一为（0，1）的正态分布，然后再通过查表求出两点之间的概率。公式： = - 1. 标准正态分布的=0，=1，其图形以=0为对称轴。 2. 标准正态分布记作XN(0，1),一般正态分布记作XN（） 3. 标准正态分布的图形唯一的，其值可以通过查表（附表4）求得。（只有标准正态分布才能查表，如果是一般正态分布则先用公式转化为标准正态分布） 4. 正态分布N()和标准正态分布N(0，1)面积之间的对应关系：当X=+时，= =1 - 当X=-时，= =-1 - 第五节常用统计分布一、 X分布（卡方分布）设变量1、2，、、、、、、k相互独立，且都服从N(0，1)，则X=（1）+(2)+(k)称为自由度为K的X分布。记作：X（k）

展开阅读全文

社会统计学复习整理

最新文档