社会统计学复习整理

上传人:第*** 文档编号:35009026 上传时间:2018-03-06 格式:DOCX 页数:28 大小:168.97KB
返回 下载 相关 举报
社会统计学复习整理_第1页
第1页 / 共28页
社会统计学复习整理_第2页
第2页 / 共28页
社会统计学复习整理_第3页
第3页 / 共28页
社会统计学复习整理_第4页
第4页 / 共28页
社会统计学复习整理_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《社会统计学复习整理》由会员分享,可在线阅读,更多相关《社会统计学复习整理(28页珍藏版)》请在金锄头文库上搜索。

1、社会统计学复习整理 一、变量的测量层次 二、判断变量层次的技巧1.首先所有的变量都是定类变量。2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义, 如果有意义就是定距变量,如果没有意义就只能是定序变量。 三、变量层次的比较 定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变 量同时具有低层次变量的功能。 四、相关分析方法 测量层次 变量举例 数学特性 单变量分析 定类nominal 区分类别 性别 职业 婚姻状况 宗教信仰 频数分布、频率分布 众数、异众比率 定序ordinal 区分类别后,还 能排列

2、高低、大 小、先后、强弱 等等级序列 文化程度 城市规模 社会地位 生活水平 住房条件 工作能力 、 频数分布、频率分布 众数、异众比率 中位数、四分位差 定距interval 区分类别、等级 后还能算出等级 间的差距数量, 但没有实际意义 的“0” 收入 年龄 时间 出生率 性别比 、 、 频数分布、频率分布 众数、异众比率 中位数、四分位差 平均数、标准差、离散系 数 定比ratio 区分类别、等级 后还能算出等级 间的差距数量, 但具有实际意义 的“0” 收入 年龄 时间 出生率 性别比 、 、 、 频数分布、频率分布 众数、异众比率 中位数、四分位差 平均数、标准差、离散系 数变量层次

3、 相关系数 是否对称 取值范围 PRE意义 检验 定类-定类 定类-定序 不对称 【0,1 】 有 X 定序-定序 G 否 【- 1,1】 有 Z 定类-定距 定序-定距 Eta 不对称 【0,1 】 无 F r 对称 【- 1,1】 无 定距-定 距 r 对称 【0,1 】 有 F 第二节 简化一个变项的分布 一、 定类变量 1. 统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。 2. 统计表必备的内容: (1) 表号、标题 (2) 标识行:变量名、对应数据说明(频次、频率) (3) 主题行:变量取值的统计数据 (4) 表尾:如果是引用必须说明资料来源 二、 定序变量 1. 适合

4、定序变量的简化资料的方法 (1) 累加次数:把次数逐渐相加起来,分为向上累加次数(cf) 和向下累加次数(cf)。 (2) 累加频率:把各级的百分率逐渐相加。也分为向下累加百分率 和向下累加百分率。 2.cf的计算方法就是按照变量取值的等级从低往高逐层相加。 3.cf计算方法就是按照变量取值的等级从高往低逐层相加。 cf表示低于某个等级的频数有多少 cf表示高于某个等级的频数有多少 三、 定距变量 1. 定距变量的简化工具是:分组、直方图和折线图。 2. 连续型定距变量的分组统计 (1) 组数:分组的数量,一般5到7组合适,分为等距分组和非等 距分组。 (2) 组限:包括上限(up)和下限(l

5、ow)(3) 标识下限和标识上限,例500699 (4) 真实下限:标识下限0.5;真实上限:标识上限+0.5. (5) 组距:真实上限与真实下限之差。 (6) 组中值:真实上限与真实下限的平均值。 第三节 集中趋势测量法 1. 集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数 值来代表变项的资料分布,以反映资料的集结情况。 2. 集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的 数值。 一、 定类变量 1. 众值(Mode)Mo:用具有频数最多的变量的取值来表示变量的集中值。 2. 众值的特征: (1):众值理论上可以用于定类、定序和定距三个层次的变量来描

6、 述集中趋势,但是由于众指不精确,一般只用于定类层次的变量。 (2):众值最好找,是最容易求出的值,但它精确度也是最差的。 二、定序变量1.中位值(Md) 。2.分组数据求中位值公式:Md=L+(n/2- cf/n)(U-L)L:中位值的真实下界值U:中位值的真实上界值n:中位值组的频数cf:低于中位值所在组的累加(向上)频次N:调查总数Md位值:N/2 二、 定距变量 1. 均值(Mean):将变量的各个数值相加起来,除以总个数,求取一个 平均值的数值,一般用x来表示。 2. 均值的特征: 仅适合定距层次的变量 它最灵敏,预测的精确度最高 对资料所提供的信息运用得最充分 3. 均值的求法 (

7、一) 原始数据求均值:X=X1/N (X表示变量x的均值;X1表示变量观察值的总和。) (二) 根据频次分布求均值:x= 1 X 1 2 (x 表示变量X的均值; 表示变量的每一个取值 1 X 1 和该变量频数相乘的和; 表示把变量的每个取值下的 2频次都加起来,即调查总数N)(三) 分组数据求均值:x= 11 1(n1表示每组次数,b表示每组的组中值, 表示个案数 1 目)第四节 离散趋势测量法 离散趋势测量法:是求出一个值来表示个案与个案之间的差异情况。 离散趋势或离散特征可以告诉我们估计值误差的大小。 一、 定类变量(异众比率V) V就是非众值的次数与全部个案数目的比率。 V= (N-全

8、部个案数目; -众值的次数) V值越小,众值代表性越好。 二、 定序变量 1. 极差(R)观察的最大值与最小值之差。 2. 四分互差:将数值排序,分为四个等分,第一个四分位置的值与第三 个四分位置的值的差异。 四分位差Q=Q75-Q25 (一) 未分组数据:2 2 3 4 6 9 10 10 11 13 15 Md的位置=N+1/2=11+1/2=6 Q25的位置=N+1/4=11+1/4=3(第三位数) Q75的位置= (N+1)= (11+1)=9(第九位数) 3 4 3 4 所以,四分位差Q= Q75-Q25=11-3=8 (二) 分组数据 1. 中位值公式=Md=L+( - cf)/n

9、(U-L) 2 2. Q25=L+( - cf)/n(U-L) 4L:四分之一位值组的真实下界值U:四分之一位值组的真实上界值n:四分之一位值组的频数cf:低于四分之一位值组的向上累加频次N:调查总数Q25位置=N/4; 3. Q75=L+( - cf)/n(U-L) 3 4 L:四分之三位值组的真实下界值U:四分之三位值组的真实上界值n:四分之三位值组的频数cf:低于四分之三位值组的向上累加频次N:调查总数Q75位置=3N/4; 三、 定距变量 (一) 标准差与方差 = (即对均值的偏差平方均值的平方 1 2 ( i ) 根)= ( x) (二) 根据未分组的频次分布求方差 = 1 2 (

10、i ) N-调查总数;Xi-表示变量的每个取值;ni-表示每个取值的频次 (三) 分组数据求方差用组中值代替bi代替xi代入公式中 = 1 2 ( ) 第三章 概率 一、 概率1.不可能事件的概率:P(O)=02.必然事件的概率:P(S)=13.随机事件的概率:0P(E)1 二、两个重要概念1.普查:对统计总体的全部单位进行调查以搜集资料统计资料的 工作。2.抽查:按照某种方法以总体中抽取一部分样本进行调查,以搜 集统计资料的工作。 三、频率分布于概率分布的关系 1.频率分布是实验值,是可以变化的,称之为统计分布或经验分 布。2.概率分布是理论值,是唯一的,称之为理论分布。3.当观测次数很大时

11、,随机变量取值的频率接近于其概率,这时 随机变量的统计分布与理论分布将大致相符。 四、总体均值和方差1.总体均值(E):随机变量各取值分别乘取值的概率的总和。E()=PiXi2.总体方差(D):就是随机变量偏离总体均值的程度。D=S=E(X)-E(x)3.总体均值和样本均值的区别: 总体均值是对研究对象进行普查后得出的均值。 样本均值是对从总体中抽取的样本数据计算出来的均值。4.总体方差与样本方差的区别: 总体方差是对研究对象进行普查后,利用数据算出来的方 差。 样本方差是根据从总体中抽取出的样本的调查总数据,计 算出来的方差。5.总体均值方差和样本均值方差表示法1.总体均值E=,总体方差D=

12、,总体标准差=2.样本均值=x,样本方差=s,样本标准差=S6.结论 1.通过普查,可以得出概率、总体均值E()、总体方差D(), 这些值我们称为参数值。2.通过抽查,可以得出频率、样本均值x、样本方差s,这 些值我们称为统计值。3.当样本为大样本(N30),频率概率、样本均值总体均 值、样本方差总体方差。4.当样本数无穷接近总体数的时候,频率=概率、样本均值=总 体均值、样本方差=总体方差。5.统计学的任务就是如何利用统计值来推论参数值(统计推论) ,实现我们的研究目的。 第四章 常见统计分布 第一节 二点分布 一、二点分布(0-1分布):就是变量的取值只有两类的分布。如: 性别。 二、二分

13、变量的分布律:随机变量如果满足二点分布,则其概率分 布为P(=0)=q;P(=1)=P;P+q=1 0 1 P=(=Xi) q P 第二节 二项分布 一、 二项分布:在相同条件下进行n次独立试验,每次试验只有两种可能的结果,事件A出现的概率P(A)=P,事件A不 出现的概率P(A)=1-p=q. 第三节 正态分布 一、 什么是正态分布? 中心极限定理:对于任何变量,不管其原有分布如何,如果把 它们n个加在一起,当n大于一定数之后(n30),那么其和 的分布必然接近正态分布。 二、正态分布密度曲线的特点1.一个高峰2.一个对称轴X= 3.一个渐近线X轴 4.正态分布曲线是单峰值对称的,因此这种分

14、布的变量,其众值、 中位值和均值是重叠的。 5.正态分布下的面积为1. 三、正态曲线的参数意义1.正态分布的两个参数是(总体均值)和(总体方差) 。2.两个参数对曲线形状的影响:(1)(X)在x=处达到峰值,以直线x=为对称轴。在 一定的情况下,若增大,图形右移;若减小,则左移,但 形状不变。(2)当值一定时, 值越小,则对应的图形越尖越瘦。 第四节 标准正态分布 标准正态分布:标准正态分布就是通过公式把一般正态分布转 化而来,这样把不同的正态分布都统一为(0,1)的正态分布,然 后再通过查表求出两点之间的概率。 公式: = - 1. 标准正态分布的=0,=1,其图形以=0为对称轴。 2. 标准正态分布记作XN(0,1),一般正态分布记作XN() 3. 标准正态分布的图形唯一的,其值可以通过查表(附表4) 求得。 (只有标准正态分布才能查表,如果是一般正态分布 则先用公式转化为标准正态分布) 4. 正态分布N()和标准正态分布N(0,1)面积之间的 对应关系: 当X=+时,= =1 - 当X=-时,= =-1 - 第五节 常用统计分布 一、 X分布(卡方分布) 设变量1、2, 、 、 、 、 、 、k相互独立,且都服从N(0,1), 则X=(1)+(2)+(k)称为自由度为K的X分布。 记作:X(k)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 初中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号