SPSS及次数分布及数据检查

上传人:M****1 文档编号:567698385 上传时间:2024-07-22 格式:PDF 页数:9 大小:765.71KB
返回 下载 相关 举报
SPSS及次数分布及数据检查_第1页
第1页 / 共9页
SPSS及次数分布及数据检查_第2页
第2页 / 共9页
SPSS及次数分布及数据检查_第3页
第3页 / 共9页
SPSS及次数分布及数据检查_第4页
第4页 / 共9页
SPSS及次数分布及数据检查_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《SPSS及次数分布及数据检查》由会员分享,可在线阅读,更多相关《SPSS及次数分布及数据检查(9页珍藏版)》请在金锄头文库上搜索。

1、-Analyze、Graphs 局部用法1. Analyze 简要介绍Analyze 是 SPSS 主要的分析工具,下面有多个菜单:报告Rports描述性统计分析Descriptive Statistics 菜单表格Tables均数间的比拟pare Means 菜单一般线性模型General Linear Model 菜单相关分析Correlate 菜单多元线性回归与曲线拟合 Regression 菜单对数线性模型Loglinear 菜单聚类分析与判别分析Classify 菜单因子分析与对应分析Data Reduction 菜单信度分析与多维尺度分析Scale 菜单非参数检验Nonparame

2、tric Tests 菜单时间序列分析Time series2. 描述性统计分析Descriptive Statistics的用法描述性统计分析Descriptive Statistics是统计分析的第一步,做好这第一步是下面进展正确统计推断的先决条件。SPSS 的许多模块均可完成描述性分析比方说GRAPH 中就直接可以做散点图但专门为该目的而设计的几个模块则集中在Descriptive Statistics描述统计菜单中,主要包括以下几种:Frequencies频数分布分析:频数分析过程,通过频数分布表、直方图、以及集中趋势、离散趋势的各种统计量,描述数据的分布特征。主要针对分类变量;Des

3、criptives描述性统计分析:数据描述过程,进展一般性的统计描述主要针对数值型变量,除了用来描述集中趋势和离散趋势的各种统计量之外比方说均值、标准差、最大值、最小值之外,还有一个重要的功能就是对变量做标准化变化,也就是 Z 变换。E*plore探索性分析:数据探察过程,用于对数据概况不清时的探索性分析,主要作用是对数据进展初步检查,判断有没有极端值,是否符合正太分布等。探索分析时在对数据的根本特征统计量有了初步了解的根底上,对数据进展的更为深入详细的描述性观察分析,在上面所进展的一般描述性统计指标的根底上,增加了有关数据的其他特征的文字与图形描述,显得更加细致与全面,有助于使用者对数据进展

4、进一步分析的方案。Crosstabs:多维频数分布穿插表分析列联表分析Ratio statistics:比率分析下面对 Frequencies频数分布分析、E*plore探索性分析的用法进展介绍1 1频数分析频数分析FrequenciesFrequencies:根本统计分析往往从频数分析开场。目的:通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。根本任务:频数分析的第一个根本任务是编制频数分布表。即变量值落在*个区间或*个类别中的次数;频数分析的第二个任务是绘制统计图,可绘制的统计图包括:条形图Bar Chart,用宽度一样的条形的高度或长短来表示频数分布变化的图. z.

5、-形,适用于定序和定类变量的分析;饼图Pie Chart,用圆形及圆扇形的面积来表示频数百分比变化的图形,以利于研究事物在构造组成等问题;直方图Histograms,用矩形的面积来表示频数分布变化的图形,适用于定距型变量的分析SPSS 根本操作:频数分析的根本操作1选择菜单 AnalyzeDescriptive StatisticsFrequencies。2将假设干频数分析变量选择到 Variable(s)框中。3单击 statistics集中趋势离散趋势图 Statistics 对话框分布形态单击 Chart 按钮选择绘制统计图形,在 Chart Values 框中选择条形图中纵坐标或饼图中

6、扇形面积的含义,其中Frequencies 表示频数;Percentages 表示百分比。图 Chart 对话框单击 Format 可得下面的对话框,对频数表中的排列顺序进展设置;此外可以选择处理多种变量的方式。具体入下:处理多个变量的方式:第一种是界定多个同一报表并列比拟;第二个是界定各变量分别处理报表输出. z.-控制频数表输出的分类数量,也就是*变量超过几个类别就不输出次数分布表,默认为 10调整频数分布表中数据的输出顺序Order by:频数分布表中的容的输出顺序可以按变量值的升序输出Ascending values,按变量值的降序输出Descending values,按频数的升序输

7、出 Ascending counts,按频数的降序输出 Descending counts。multiple variables 单项选择框组:如果选择了两个以上变量作频数表,则pare variables 可以将所有变量的结果在同一个频数表过程输出结果中显示,便于互相比拟;organize output by variables 则将结果在不同的频数表过程输出结果中显示,每一个变量一表。压缩频数分布表Suppress tables with more than n categories如果变量取值的个数或取值区间的个数太多,频数分布表将很庞大,此时可以压缩它。SPSS 默认,如果变量取值的个

8、数或取值区间的个数大于10,则不输出相应的频数分布表,应用中可以修改该值。具体实例操作英文视窗版 SPSS 与行为科学研究:了解 474 名企业员工在任职年资year这个变量上的次数分布情形,并计算四分位数,以及百分比等级 27 及 73 所对应的百分位数,同时绘制任职年资的直方图。操作步骤:Analyzedescriptive statisticsfrequency选中 year点击 statistics-quartiles、percenties(27,73)continue点击 charts-选中直方图 histogramscontinueOk统计量YEARN百分位数有效缺失2547405

9、.00. z.-结果分析27505.008.00474 名有效样本,百分等级,百分之 25 对应7311.75的百分位数为 5 年,百分等级 27 对应的百分位7512.00数为 5 年,因为选了四分位,又选了 27、73的百分位数,所以有 25、50、75、27、73。需要注意的是百分等级 27、73 多对应的百分位数的计算,可以根据这个指标对数据的高中低的数值进展了解。YEAR2345678910有效111213141516171819合计频率18344137352766611611262172411111216474百分比3.87.28.67.87.45.713.912.93.42.35

10、.54.41.55.12.32.32.53.4100.0有效百分比3.87.28.67.87.45.713.912.93.42.35.54.41.55.12.32.32.53.4100.0累积百分比3.811.019.627.434.840.554.467.370.773.078.582.984.489.591.894.196.6100.0第一列是指样本在变量 year 上的编码值,也就是实际任职年限,第二列是该编码值出现的次数,第三列是出现的次数所占得百分比,第四列排除缺失值后出现的次数所占的百分比,第五列是累计百分比。对直方图的解释:横轴:任职年限,纵轴是实际次数。曲线为理论的正太分布曲线

11、,如果变量的实际分布次数与该曲线吻合,就表示该变量的概率分布越接近正太分布,从分析的结果可以看出,低年资的比例较多,呈现正偏态。最后图中还显示出年资的均值为8.8,标准差为4.523,有效观察值数为474。除了制作次数分布表和直方图,之外,frequency这个指令还有其他的功能。比方,在一些行为科学的研究中,研究者想要利用方差分析来探讨两个连续变量之间的因果关系,比方说成绩在成就上的差异,由于这个自变量是连续变量,而因变量是类别变量,在做分析时就需要把连续性变量转换称类别变量,就是将成绩的分值划分为不同的组别,比方说按27、73的百分位进展划分,这时候研究者就能知道这三组间的临界分数,然后利

12、用上次讲到的transform-visual binning将观察值进展分组,然后再探讨两者之间的关系。. z.-2)E*plore2)E*plore探索性分析探索性分析数据探察过程,用于对数据概况不清时的探索性分析,主要作用是对数据进展初步检查,判断有没有极端值,是否符合正太分布等。探索分析时在对数据的根本特征统计量有了初步了解的根底上,对数据进展的更为深入详细的描述性观察分析,在上面所进展的一般描述性统计指标的根底上,增加了有关数据的其他特征的文字与图形描述,显得更加细致与全面,有助于使用者对数据进展进一步分析的方案。那我们看看初步的数据检查工作怎么展开:analyze - descrip

13、tive statistics-e*plore图 E*plore 对话框选中要进展数据检查的变量移到 dependent list,这里可以同时移入多个变量进展数据检查工作。如果想要根据*一类别比方性别、种族分别对 dependent list 中列出的变量进展数据检查,可以点击该类别变量后移入factor list。选好想要进展数据检查的变量之后,点击右侧Statistics:图 e*plore- Statistics 对话框在这个对话框中,第一个 descriptives 就是描述性,如果选择了这一项,就会生成一个描述性统计表格,表中会显示样本数据的描述统计量,包括平均值、中位数、标准误差

14、、最大值、最小值、组距、四分位数、峰度、偏度等。下面的这个事均值的置信区间,系统默认的置信度为 95%。下面的 M 估计量M-estimators:如果选择这项的话,将会计算并生成文件估计量,M 估计在计算时对所有观测量赋予权重,权重会跟随观测量距离分布中心的远近而变化,通过给远离中心至的数据赋予较小的权重来减少异常值的影响。Outliers 界外值,如果选择了这一项,就会将输出分析数值中的5 个最大值和 5 个最小值作为异常嫌疑值或者异常值。极端值可能就是那些与绝大局部观察值有极大差异的观察值,造成这种极端值的原因可能是数据填写时的问题,数据录入时的问题等。最后一个百分位数:选择这一项会计算

15、制定的百分位数,包括5%,10%,25%等。一般数组应遵循正态分布,但一列数组中有可能会出现异常值,从而影响数据的方差和统计结果,因此挡在 SPSS 中输入数据后,首先要检查数据中是否存在异常值。点击右侧 plots:图 e*plore-plot 对话框“箱图Bo*plots栏单项选择项组:箱图,又称箱锁图。“按因子水平分组Factor levels together,系统默认:选择此项,将为每个因变量创立一个箱锁图,在每个箱锁图根据分组变量的不同水平的取值创立箱形单元。“不分组Dependents together:选择此项,将为每个分组变量的水平创立一个箱锁图,在每个箱锁图用不同的颜色区分

16、不同因变量所对应的箱形单元,方便用户进展比拟。“无None:选择此项,不创立箱图。“描述性Descriptive栏:选择该组的选项,可以生成茎叶图和或直方图。“茎叶图Stem-and-leaf,系统默认:茎叶图主要由 3 个局部组成,即频率Frequency、茎Stem和叶Leaf,在图中按从左到右的顺序依次排列,在图的底端,注明了茎的宽Stem Width和每一叶所代表的观测量数Each Leaf。. z.-“直方图Histogram:直接绘制直方图“带检验的正态图Normality plots with test,复选框:选择此项,将进展正态性检验,并生成正态 Q-Q 概率图和无趋势正态

17、Q-Q 概率图。“伸展与级别 Levene 检验Spread vs level with Levene Test栏单项选择项组:对所有的展布-水平图进展方差齐性检验和数据转换,同时输出回归直线的斜率及方差齐性的 Levene 检验,但如果没有指定分组变量,则此选项无效。点击右侧 Option:图 e*plore-options在这个对话框中,可选择缺失值的处理方式,SPSS 提供了 3 种处理方式:“按列表排除个案E*clude cases listwise,系统默认:选择此项,对所有的分析过程剔除分组变量和因变量中所有带有缺失值的观测量数据;“按对排除个案E*clude cases pair

18、wise:同时剔除带缺失值的观测量及与缺失值有成对关系的观测量。在当前分析过程中用到的变量数据中剔除带有缺失值的观测量数据,在其他分析过程中可能包含缺失值;“报告值Report values:选择此项,将分组变量的缺失值单独分为一组,在输出频数表的同时输出缺失值。具体操作:了解男性企业员工在起薪变量上的分布是否符合正太性的假设,同时检查数据中是否出现了极端值。操作步骤:第一步:选择男性:dataselect cases -if condition is satisfied-continueok第二步:数据检验:analyze-descriptive statistics-e*plore选中起薪

19、 begsal-移到dependent list因变量中,这时还可以选中 code 移到 label cases by 中用作报表输出时识别极端值在数据文件中的编号在 statistics 中点击 discriptive,outliers-continuePlot-stem-and-leaf, normally plots with tests (正太图)-continue输出结果分析:案例处理摘要案例处理摘要有效NBEGSAL216百分比100.0%描述描述N案例缺失百分比00.0%统计量均值均值的 95% 置信区间BEGSAL5% 修整均值中值方差标准差下限上限5226.605075.89

20、5377.315139.834950.001262836.3061123.760. z.合计N216标准误76.462百分比100.0%-极小值极大值围四分位距偏度峰度极值极值36009996639612481.3342.039案例号12CODE值99969800799279927800a36003600360039003900b.166.330461 758450 86631 737413 31947 713217 921206 459190 245223 754220 491最高34512BEGSAL最低345a. 上限值表中仅显示一局部具有值 7800 的案例。b. 下限值表中仅显示一局

21、部具有值 3900 的案例。SPSS输出了10个可能的极端值,outlier的统计结果,由表可知,可能的极端值的编码最大者是原数据文件中的第461笔数据,他的员工识别码是758,值为9996,其次依次是员工识别码为866、737、319、713的观察值,这是初步的数据检查,则观察者也可以进展进一步的检查数据,确定观察值在起薪这个变量上是极端值的原因。图中下端注解的意思:编码值为7800的观察值,只列出了一局部。正态性检验正态性检验BEGSALKolmogorov-Smirnova统计量.142df216Sig.000统计量.886Shapiro-Wilkdf216Sig.000a. Lilli

22、efors 显著水平修正用来检验数据是否服从正太性的统计量为Kolmogorov-Smirnov,Kolmogorov-Smirnov当检验结果到达显著性水平时,可以拒绝原假设原假设为是正太性分布Shapiro-Wilk,Shapiro-Wilk主要用于研究的样本为小样本时,采用这个方法进展正太性检验,较不容易出现偏差。可以在表中看到,满足a=0.05,sig值的意思就是显著性significance,也就是说不服从正太分布。BEGSAL Stem-and-Leaf PlotFrequency Stem & Leaf 9.00 3 . 666999999 46.00 4 . 4 58.00 4

23、 . 8999999 39.00 5 . 44444. z.- 19.00 5 . 78 12.00 6 . 3 12.00 6 . 9 8.00 7 . 22222222 4.00 7 . 55559.00 E*tremes (=7800) Stem width: 1000 Each leaf: 1 case(s)茎叶图:Frequency :出现的次数;9.00 E*tremes (=7800):大于7800的观察值共有9名,经与其他观察值相较后,都被归于极值。Stem width: 1000,表示组距1代表1000。正太概率分布图,可以先将分布图表的右上角及左下角亮点的对角线画出,这一4

24、5度角的对角线就是理论的正太累计概率分布线,再与圆圈构成的实际累计概率分不限相比拟,由图可知,圆圈构成的实际累计概率分布线偏离45度角对角线特别多,因此违反正太分布假设,不是正太分布。这与上面提到的Kolmogorov-Smirnov检验结果一致。方格的直线是中位数,中位线没有在方盒的中间位置,而是偏低一些,且下限的盒须较上限段,表示观察值呈正偏态。圆圈代表该观察值可能为界外值outlier星号表示该观察值可能是极值。3散点图除了上述提到的直方图、茎叶图之外,SPSS 还提供了相当多的绘图指令,在Graphs 中可以做散点图,散点图也可以检验数据中存不存在极端值,通过散点图可以比拟直观地看出来

25、,此外,散点图是描述变量之间关系的一种直观地方法,可以从散点图中直观地看出两个变量之间是否存在相关关系、是正线性相关还是负线性相关。也可以大致看出变量之间关系强度如何,但是具体的相关性还要根据后面相关分析中的相关系数来判断。如果散点图显示你选的变量没有相关性,则你就要重新去思考你的研究是不是哪里出了问题。点击 GRAPH,得到下面菜单栏:其中,提供了四中散点图模式:Simple:简单散点图,只显示一对相关变量的散点图;Matri*: 矩阵散点图,显示三个相关变量之间的散点图;Simple dot:简单点图,只显示一个变量的点图。Overlay:重叠散点图,可显示多个相关变量的散点图。3-D:三维散点图,显示三个相关变量之间的散点图。在实际应用中我们多项选择用简单散点图,选中simple,然后点击 define,进入简单散点图窗口。实际例子操作:起薪与目前薪资的穿插散点图操作步骤:选择 simple;现在薪酬Y ,根本薪酬-*,title 写标题:Line1:目前薪资对起薪的穿插散点图;Subtitle:474 企业员工;. z.-圈圈表示有多少个观察值,在这个结果中我们可以看到,大致呈现从右上到左下的椭圆形分布,同时分布点颇为集中,而且也没有出现语种不同的极端值,可以大致推测下目前薪资与起薪之间应该是正相关的关系,而且相关强度不弱。. z.

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号