SPSS的统计描述 主要内容 • 连续变量的统计描述与 参数估计 概述:统计学知识回顾 菜单介绍 集中趋势指标 离散趋势指标 SPSS应用实例 • 分类变量的统计描述 与参数估计 概述 常用指标分析实例 多选题统计描述 • 统计表的制作:basic tables 统计分析内容 基本概念 • 总体(population)与样本(sample) 总体:根据研究目的确定的同质观察单位 (研究对象)的全体,实际上是某一变量 值的集合 样本:是从总体中抽取的部分个体 由于直接研究总体经常是不可能的,故而 大多采用抽样研究,即通过抽取样本来推 断总体--统计推断 参数(parameter)和统计量 (statistics) • 参数:刻画总体特征的指标称为总体参数 用来确定某一分布的特征;如总体均数, 总体参数往往是未知的 • 统计量:刻画样本特征的指标称为统计量 由观察资料计算出来的量;可以用来近 似的反映总体参数 • 统计的任务:由样本估计总体,由样本统 计量估计总体参数 选择合适的分析方法 • 描述性分析(descriptive statistics) – 数据频次、分布形态、平均数、标准差、方差… • 相关分析(correlation) – 积差相关、等级相关 • 差异分析(compare means……) – Z检验、t检验、2检验、方差分析(F检验)、 回归分析、多层线性回归… • 结构探索与验证(factor) – 聚类分析、判别分析、探索性因素分析(EFA) 、 验证性因素分析(CFA)、结构方差模型(SEM)… 描述统计分析 • 描述统计分析方法就是用特定的算式计算 出数据资料的一些综合指标,用以综合说 明事物或数据资料特征的一种方法。
• 常用的描述统计的指标有平均数、标准差 、相关系数等 变量 • 变量类型 连续型变量(定距型)---取值范围是一个区间, 连续取值 离散型变量---取值范围是有限个值或一个数列构 成表示分类情况的离散型变量又称为分类变量 : 无序变量(名义型):两分类和多分类如血型,也 可用数字进行编码,但没有大小关系 有序变量(定序型):取值为互不相容的类别, 而且在研究背景下有等级顺序,如疗效(无效、 有效、显效) 如何描述数据的特征 • 可以从三个方面描述数据的特征: 一是描述数据集中趋势——集中量数; 二是描述实际观测值波动离散程度——差异量数 ; 三是知道数据的分布形态——正态或偏态 • 平均数相同的两组数据,差异量数较小的其平均 数代表的可靠性较高,而差异量数较大的一组数 据其平均数代表的可靠性就较低 • 因此,集中量数和差异量数同时使用,才能比较 全面的描述一组数据的全貌 连续变量的统计描述的工具 (一)频数表Frequency 直观的方法:分布类型和分布特征 看出集中趋势与离散趋势 发现特大与特小值 便于进一步计算统计指标和做统计处理 连续变量的统计描述的工具 (二)统计指标 1.集中趋势Central tendency 均数mean 几何均数G 中位数median 众数mode 2.离散趋势Dispersion tendency 全距Range 方差Variance 标准差std.deviation 变异系数CV 连续变量的统计描述的工具 3.百分位数 适用于各种分布 4. 分布指标Distribution 偏度系数Skewness 正态峰 正偏态 负偏态 峰度系数Kurtosis 正态峰 平阔峰 尖峭峰 • 其他在SPSS中出现的指标 M-estimators的四个指标 Outlier (三)统计表 (四)统计图 • 直方图(Histogram) • 箱式图(boxplot) • 茎叶图(stem-and-leaf) • 图 连续变量的指标体系 • 集中趋势指标 • 离散趋势指标 • 分布特征:偏度峰度 • 其他趋势:M统计量 (一)集中量数 • 集中量数反映了数据分布中大量资料向某 一点集中的情况,它是一组数据一般水平 的代表值。
• 最常用的集中量数主要有: 算术平均数(arithmetic mean) 中位数(median) 众数(mode) 几何平均数(geometric mean) 1.算术平均数:一组同质数据值的总和除以数据总 个数所得的商 • 适用于对称分布,特别是正态分布的资料,不适用 于偏态分布的资料 • 算术平均数是应用最普遍的一种集中量数,通 常与差异量数中的标准差和方差结合运用 • 易受极端值影响,且要求每一个数据都确切 2.中位数(median) • 中位数是一组观察值的位置平均数, • 用于描述偏态分布资料的集中位置,它不 受两端特大、特小值的影响,当分布末端 无确切数据时也可计算 • 计算方法: (1)直接法: • 若n为奇数,则中位数为将观察值从小到大 排序后中间位置那个观察值, • 若n为偶数,中位数为将观察值从小到大排 序后中间两个观察值的算术均数 (2)加权法: • 用频数表计算中位数时先据频数表计算累 计频数和累计频率,50%百分之五十分位 数即为中位数 其他集中趋势描述指标 1.截尾均数(trimmed mean) • 数据排序后按照一定比例去掉两端的数据求均数 • 适用于两端有极端值的资料 • 常用5%截尾均数 2.几何均数(geometric mean ,G) • 适用于呈倍数关系的等比资料或对数正态分布的 资料,尤其是对数正态分布的计量资料 • 应用中应注意观察值不能同时有正有负 • 同一资料算得的几何均数小于算术均数。
2.几何平均数:是指n个数值连成的n次方根,用 mG表示 • X表示整个发展时期中每个发展阶段的发展速度 • 几何平均数一般用于表示计算某现象或事物的平 均发展速度、平均增长速率等 3. 众数(mode) • 样本数据中出现频次最高的数字 • 适用于单峰对称的数据,反映出现频次最 高的数据情况 4. 调和均数(Harmonic Mean ) • 观察值倒数的均数的倒数,较少使用 (二)离散趋势指标 • 对连续变量的描述,需要将集中趋势和离散趋势 结合起来,才能对其分布有全面的认识 • 差异量数是表示一组资料差异情况或离散程度的 量数,它反映资料分布的离中趋势 • 描述离散趋势的指标常用的有: 极差(Range) (全距) 百分位数与四分位数间距 (Percentile and Quartile range) 方差(Variance,S2) 标准差(Standard Deviation,SD) 变异系数(差异系数,Coefficient of Variation,CV) 1. 全距(Range ,R ) • 又称极差,即最大和最小观察值之间的间距 ,用全距描述资料的离散程度简单明了, • 但它不能反映观察值的整个变异度,样本的 个数越多,极差越大,不够稳定。
• 所以在样本含量相差悬殊时不宜使用 2.方差 • 方差 (variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均 值表示一组数据的平均离散情况 小样本分母为n-1,称为自由度 • 因为有两个定义,用在不同的场合: 如是总体,标准差公式根号内除以n, 如是样本,标准差公式根号内除以(n-1), 因为我们大量接触的是样本,所以普遍使用根 号内除以(n-1), 3.标准差(Std) • 标准差是方差开方后的结果(即方差的算术平方 根) ; • 所谓标准差,即指一组资料中每个数值与该组 数据平均数离差的平方和之平均数的平方根 • 其单位与原变量X的单位相同 例1: • 下面是一个班两个学习小组在一次测验中的 成绩; • 甲组10名学生:80、85、90、95、100; • 乙组10名学生:88、92、90、94、86. • 请初步分析这两个小组的成绩 • 两组平均成绩:90 • 甲组标准差: • 乙组标准差: 适用范围: • 方差和标准差适合于对称分布,特别是正态分布 及近似正态分布资料 • 标准差可用于描述变量值的离散程度,与均数结 合还可描述资料的分布情况,此外还可用于求参 考值范围和计算标准误。
• 标准差是表示个体间变异大小的指标,反映了整个 样本对样本平均数的离散程度,是数据精密度的衡 量指标 • 而标准误反映样本平均数对总体平均数的变异程 度,从而反映抽样误差的大小 ,是量度结果精密度 的指标 4.百分位数(percentile) • 百分位数是一个位置指标,Px表示 • 是资料分布数列的百等份分割值 • 用于描述样本或总体观察值序列某百分位 置的水平,应用中注意,样本例数不够多 时,两端的百分位数不稳定 • 还用于确定参考值范围(reference range ) 5. 四分位数间距( quartile interval) • 四分位数是特定的百分位数,其中P25为下 四分位数QL,P75为上四分位数Qu • Q= Qu - QL • 四分位数间距比极差稳定,但仍未考虑每 个观察值的变异度 • 适用于偏态分布的资料,特别是末端无确 切数据时 6. 变异系数(差异系数) 适用条件:①观察指标单位不同,如身高、体重 ②同单位资料,但均数相差悬殊 例2:均数 标准差 青年男子 身高170 cm6 cm 青年男子 体重60 kg7 kg 例2:均数 标准差变异系数 青年男子 身高170 cm6 cm 3.5% 青年男子 体重60 kg7 kg 11.7% 1.数据分布的形态 • 正态分布(normal distribution) 中间高、两边低、左右对称 • 偏态: 正偏态(positive skewed) 负偏态(negative skewed) 正(右)偏态分布: 长尾向右延伸 负(左)偏态分布: 长尾向左延伸 平均數<中位數<眾數 分數往左邊延伸,偏態值小於0, 故稱負偏態或左偏態 眾數<中位數30)的情况下,一般可以认为样本近 似服从正态分布。
2. 正态分布特征 • 正态分布以均数为中心,左右对称 • 正态曲线为单峰,在横轴上方均数处达最高 • 正态分布有两个参数,均数μ和标准差σ 用N(μ,σ)表示均数为μ ,标准差为σ的正态分 布 用N(0 ,1)表示均数为0,标准差为1的正态分 布——标准正态分布 • 正态峰的矮阔和尖峭与标准差有关 • 正态曲线下的面积分布有一定的规律 3.标准正态分布(u分布或z分布) • u变换或z转换 • u变换后,μ=0,σ=1,使原来的正态分布 变换为标准正态分布(standard normal distribution)亦称u分布 • Descriptive 过程可以进行z转换 标准分数 • 例3: • 某地区中考,语文平均成绩为110分,标准差为15.7分;英 语的平均成绩为95分,标准差为17.5分,一考生的语文成 绩为108分,英语成绩为105分问该生中考哪科考得好一 些? • 原始分数? • 标准分数,又叫Z分数,是原始分数与其所在团体的平均数 之差除以标准差所得的商,公式为 • 标准分数是以标准差为单位,以算术平均数为参照点,表 示每一个原始数据在团体中的相对位置。
• 标准分数的平均数为0,标准差为1 • 标准分数的绝对值越大,说明原始数据距 算术平均数越远Z=1,Z=-1.5…… • 标准分数的应用主要表现为: (1)使同科多次考试成绩之间具有可比性 (2)使不同学科考试成绩之间具有可比性 (3)使多科成绩之间具有可加性 一个随机事件95%的可能性落在1.96个标准差之内 一个随机事件99%的。