文档详情

第二章节SPSS基本统计分析幻灯片

E****
实名认证
店铺
PPT
3.47MB
约57页
文档ID:90247836
第二章节SPSS基本统计分析幻灯片_第1页
1/57

第二章,SPSS基本统计分析,SPSS的主要分析工具——Analyze菜单,报告--Reports 描述性统计分析--Descriptive Statistics菜单 表格--Tables 均数间的比较--Compare Means菜单 一般线性模型――General Linear Model菜单 相关分析――Correlate菜单 多元线性回归与曲线拟合―― Regression菜单 对数线性模型——Loglinear菜单 聚类分析与判别分析——Classify菜单 因子分析与对应分析——Data Reduction菜单 信度分析与多维尺度分析——Scale菜单 非参数检验――Nonparametric Tests菜单 时间序列分析--Time series,描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,包括: Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量) Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量) Explore:数据探察过程,用于对数据概况不清时的探索性分析 Crosstabs:多维频数分布交叉表分析(列联表分析) Ratio statistics:比率分析,2.3 交叉分组下的频数分析,2.3.1 目的和基本任务 1、目的:交叉分组下的频数分析又称列联表分析。

通过前面的频数分析能够掌握单个变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成2、基本任务: (1)根据收集到的样本数据,产生二维或多维交叉列联表; (2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析 2.3.2 交叉列联表的主要内容 编制交叉列联表是交叉分组下频数分析的第一个任务交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表 例:职工基本情况数据按职称和文化程度编制的二维交叉列联表(见下页表):,,上表中的职称变量称为行变量(Row),文化程度称为列变量(Column)行标题和列标题分别是两个变量的变量值(或分组值)表格中间是观测频数(Observed Counts)和各种百分比16名职工中,本科、专科、高中、初中的人数分别为4,4,5,3,构成的分布称为交叉列联表的列边缘分布;高级工程师、工程师、助理工程师、无技术职称的人数分别为3,4,6,3,构成的分布称为交叉列联表的行边缘分布;4个本科学历职工中各职称的人数分别是1,1,2等,这些频数构成的分布称为条件分布,即在行变量(列变量)取值条件下的列变量(行变量)的分布。

在交叉列联表中,除了频数外还引进了各种百分比例如表中第一行中的33.3%, 33.3%, 33.3%分别是高级工程师3人中各学历人数所占的比例,称为行百分比(Row percentage),一行的百分比总和为100%;表中第一列的25.0%,25.0%,50.0%分别是本科学历4人中各职称人数所占的比例,称为列百分比(Column percentage),一列的列百分比总和为100%,表中的6.3%,6.3%,12.5%等分别是总人数16人中各交叉组中人数所占的百分比,称为总百分比(Total percentage),所有格子中的总百分比之和也为100%2.3.3 交叉分组下的频数分析的基本操作 (1)菜单选项Analyze-Descriptive Statistics-Crosstabs,出现窗口如下:,该框中的变量作为分布表中的行变量和列变量该框中的变量作为控制变量,决定频数分布表中的层,可有多个控制变量显示每一组中各变量的分类条形图只输出统计量,不输出多维列联表Crosstabs 对话框,,,,,(2)如果进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。

如果Row(s) 和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系3)选择Display clustered bar charts选项,指定绘制各变量交叉分组下频数分布条形图Suppress tables表示不输出列联表,在仅分析行列变量间关系时可选择该选项 (4)单击Cells按钮指定列联表单元格中的输出内容,窗口如下:,Crosstabs的Cell Display 对话框,选择在列联表中输出的统计量,包括观测量数、百分比、残差,输出观测量的实际数量 如果行和列变量在统计上是独立的或不相关的,那么会在单元格中输出期望的观测值的数量输出单元格中观测量的数目占整行全部观测量数目的百分比 输出单元格中观测值的数目占整列全部观测量数目的百分比 输出单元格中观测量的数目占全部观测量数目的百分比,计算非标准化残差 计算标准化残差 计算调整后残差,,,,,,,,,,SPSS默认列联表单元格中只输出观测频数(Observed)。

为便于分析,通常还应指定输出Percentage框中的行百分比(Row)、列百分比(Column)、总百分比(Total)Counts框中的Expected表示输出期望频数;Residuals框中的各个选项表示在各个单元格中输出剩余其中,Unstandardized为非标准化剩余,定义为观测频数-期望频数;Standardized为标准化剩余,又称Pearson剩余,定义为:,(5)单击Format按钮指定列联表各单元格的输出排列顺序Ascending表示以行变量取值的升序排列,是SPSS默认项;Descending表示以行变量取值的降序排列 (6)单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系,窗口如下,其中,Chi-Square为卡方检验2.3.4 交叉列联表行列变量间关系的分析 对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务 为了理解行、列变量之间的关系,可以从分析两个极端的例子出发: (1)年龄与工资收入的交叉列联表(一),(2)年龄与工资收入交叉列联表(二) 表一中表示年龄与工资收入呈正相关关系,表二表示年龄与工资收入呈负相关关系。

但大多数情况下,观测频数分散在列联表的各个单元格中,不容易直接发现行列变量之间的关系强弱程度,此时就要借助非参数检验方法通常用的方法是卡方检验交叉列联表的卡方检验,卡方检验属假设检验的范畴,步骤如下: (1)建立原假设 在列联表分析中卡方检验的原假设为行变量与列变量独立 (2)选择和计算检验统计量 列联表分析卡方检验统计量是Pearson卡方统计量,其数学定义为:,其中,r为列联表的行数,c为列联表的列数; 为观察频数, 为期望频数(Expected Count)期望频数的计算方法是: 其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计 期望频数的分布反映的是行列变量互不相干下的分布例如,具有本科学历的高级工程师的期望频数是0.75的计算公式是3*4/16=0.75这里,期望频数可以理解为,总共16个职工的学历分布是25%:25%:31.3%:18.8%,如果遵从这种学历的总体比例关系,高级职称三人的学历分布也应为25%:25%:31.3%:18.8%,于是期望频数为3*25%、3*25%、3*31.3%、3*18.8%同理可以理解,总共16个职工的职称分布为18.8%:25%:37.5%:18.8%,本科学历4人的期望频数分别为4*18.8%、4*25%、4*37.5%、4*18.8%。

卡方统计量观测值的大小取决于两个因素:第一:列联表的单元格子数;第二:观测频数与期望频数的总差值在列联表确定的情况下,卡方统计量观测值的大小取决于观测频数与期望频数的总差值当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关;反之表明行列变量之间越独立那么,在统计上卡方统计量的观测值究竟达到什么程度才能断定行列变量不独立呢?由于该检验中的pearson卡方统计量近似服从卡方分布,因此可依据卡方理论找到某自由度和显著性水平下的卡方值,即卡方临界值3)确定显著性水平(Significant Level)和临界值 显著性水平 是指原假设为真却将其拒绝的风险,即弃真的概率通常设为0.05或0.01在卡方检验中,由于卡方统计量服从自由度为(行数-1)×(列数-1)的卡方分布,因此,在行列数目和显著性水平确定时,卡方临界值是可唯一确定的4)结论和决策 对统计推断做决策通常有两种方式: 根据统计量观测值和临界值比较的结果进行决策如果卡方观测值大于临界值,则认为实际分布与期望分布之间的差距显著,可以拒绝原假设,断定列联表的行列变量间不独立,存在相关关系;反之,接受原假设。

根据统计量观测值的概率p值和显著性水平 比较的结果进行决策如果p值小于等于 ,则认为卡方观测值出现的概率是很小的,拒绝原假设,断定列联表的行列变量间不独立,存在依存关系;反之,接受原假设利用 P 值进行检验 (决策准则),若p-值 ,不拒绝 H0 若p-值 , 拒绝 H0,2.3.5 交叉分组下的频数分析应用举例 利用居民储蓄调查数据进行分析,实现以下目标: 1、分析城镇和农村储户对“未来收入状况的变化趋势”是否持相同的态度 2、分析城镇和农村储户对什么合算的认同是否一致分析:该问题列联表的行变量为户口,列变量为未来收入状况,在列联表中输出各种百分比、期望频数、剩余、标准化剩余,显示各交叉分组下频数分布柱形图,并利用卡方检验方法,对城镇和农村储户对该问题的态度是否一致进行分析2.3.6 SPSS中列联表分析的其他方法 对列联表中行列变量的分析,除上述卡方检验方法之外,SPSS还提供了其他测度变量间相关关系的检验方法,包括: 适用于两定类变量的方法:Nominal框中列出的方法属该类方法 适用于两定序变量的方法:Ordinal框中列出的方法属该类方法 适用于一定类变量、一定距变量的方法:Nominal by interval框中的Eta方法属该类方法。

其他方法2.4 多选项分析(频数分析和交叉分析),多选项问题的概念:多选项问题是根据实际调查的需要,要求被调查者从问卷给出的若干个可选答案中选择一个以上的答案目前,市场研究或许多领域对某事物评价的研究中常常遇到这样的问题 可以选多个,分为限选和不限选: 限选:如在11种工作种类中,选你喜欢的,最多可选4种(Var1-Var4);求所有人喜欢各种工作的频数或频率 不限选:如在所列的20种电器中,你家所拥有的电器,不限选(Var1-Var20),求所有被调查家庭拥有各种电器的频数或频率2.4.1 多选项问题的分解,多选项二分法及其编码(multiple dichotomies method): 多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量,每个变量值有0或1两个取值,分别表示选择了该答案和不选择该答案如对下面问题有9个可能的答案,每个可选择的答案由一个变量表示,每个变量的值只能有表明“是”和“否”的两个代码0或者1左边的表格为向顾客发放的颜色调查,在选择服装时,您喜欢什么颜色作为主体颜色,在答案的“□”中打“” (可多选) 这是一组问题,每个问题均有两个答案,回答者只能选择其中一种。

在建立数据文件时,变量名使用相同的变量主名,后面加以不同序号组成。

下载提示
相似文档
正为您匹配相似的精品文档