《实用社会统计分析技术及和统计软件操作说明》由会员分享,可在线阅读,更多相关《实用社会统计分析技术及和统计软件操作说明(38页珍藏版)》请在金锄头文库上搜索。
1、实用社会统计分析技术 及SPSS和 STATA统计软件操作说明课程主要内容: 本课程教授的内容是专门针对抽样调查数据资料的统计分析技术,而不适用于试验性调查资料和观察性调查资料的分析。课程安排: 统计学基础知识: 1)描述性统计、 2)概率论和 3)推论统计。(三讲)。 数据处理技术: 4)数据录入、整理、校验和加权、 5)数据加工、重组和再生变量。(两讲)。 统计分析技术: 6)量表和指标建构、 7)列联表分析技术、 8)简单线性回归、 9)多元回归、 10)非线性转换、 11)对数线性模型、 12) logistic回归、 13)多元 logistic回归、 14)等级 logistic回
2、归、 15) Probit模型、 16) tobit模型、 17) poisson回归、 18)因子分析、19)路径分析、 20)结构方程、 21)事件史分析什么是统计学 统计学就是描述、组织和解释数据或信息的一套工具和技术。它帮助我们理解周围的世界。 统计分析中的两个最基础的概念 描述性统计( Descriptive Statistics) 推论统计( Inferential Statistics)什么是描述性统计(Descriptive Statistics) 描述性统计就是组织、描述和总结所收集到的一组数据的特征。 需要注意的是,它所描述的是这组数据本身的分布特征。 什么是推论统计( I
3、nferential Statistics 推论统计就是从一个较小的群体中了解的信息并得出相关结论,推广到更大的一个群体。我们把较小的这个群体,也就是我们收集了数据的群体称之为样本( sample),把更大的那个群体,也就是我们所感兴趣的、要研究的对象群体称之为总体( population)。 偏误估计( biasedestimation)与无偏估计( unbiasedestimation) 很多因素导致了偏误估计 过高估计或过低估计。样本的代表性、数据收集过程中的误差、计算中的差错,尤其是干扰因素的作用,等等,都有可能导致偏误估计。 要达到无偏估计需要一系列的技术手段,应用统计技术的研究者就
4、是采用这些技术手段,以样本去推测总体,以达到无偏估计。 在社会科学研究中,人为地制造(模拟)试验环境,控制各种干扰因素,以达到(自然)科学的求证方法。这就是社会统计学的一种思维方式。 描述性统计 集中趋势的量度( measuresofcentraltendency) :共性 离散程度 的 量度( measuresofvariability):异质性集中趋势的量度 集中趋势 (平均数值 )是对整个群体的数值的最好的代表。 有三种形式的平均数值:平均值( mean)、中位数( median)、众数( mode)。 其中,最常用的是平均值。离散程度 离散程度 ( 异质性 ) 反映的是数值之间是如何的
5、不同。 同样均值不同差异程度 。如:7, 6, 3, 3, 13, 4, 4, 5, 44, 4, 4, 4, 4 有三个离散程度的量度指标:全距( range)、标准差( standarddeviation)、方差( variance)。 其中,最常用的是标准差。标准差 标准差 反映的是每一个个案的分值与平均的分值之间的差距,简单来说,就是平均差异有多大。 标准差越大表示差异越大。 不同样本量的标准差的偏误估计与无偏估计之差比较方差 量度离散程度的第三个指标是方差(variance)。 方差就是标准差的平方。单变量描述性统计 均值 标准差单变量描述统计的目的 检查数据 对此变量的分布特征做初
6、步判断; 依据此数据推论总体是否合适,要如果做调整; 依据此变量分布特征,选择合适的统计模型。用图形显示数据 为什么要用图形显示数据? 柱状图 多边图 线性图 柱状图多边图线性图图型显示的频数分布特征 频数分布的特征可以有 4个指标来显示: 均值 标准差 斜度( skewness) 峰度( kurtosis) 均值低收入 A群体的平均收入 B群体的平均收入 C群体的平均收入 高收入频数异质性(标准差) 频数低收入 均值 高收入群体 A的收入分布群体 B的收入分布群体 C的收入分布斜度 频数低收入 高收入群体 A收入分布正向倾斜群体 B收入分布无倾斜群体 C收入分布负向倾斜峰度 低收入 高收入 频数 群体 A的收入分布群体 B的收入分布群体 C的收入分布