spss数据处理小结:t检验、相关、二分类、散点图、箱图

上传人:第*** 文档编号:55892368 上传时间:2018-10-07 格式:PDF 页数:19 大小:2.32MB
返回 下载 相关 举报
spss数据处理小结:t检验、相关、二分类、散点图、箱图_第1页
第1页 / 共19页
spss数据处理小结:t检验、相关、二分类、散点图、箱图_第2页
第2页 / 共19页
spss数据处理小结:t检验、相关、二分类、散点图、箱图_第3页
第3页 / 共19页
spss数据处理小结:t检验、相关、二分类、散点图、箱图_第4页
第4页 / 共19页
spss数据处理小结:t检验、相关、二分类、散点图、箱图_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《spss数据处理小结:t检验、相关、二分类、散点图、箱图》由会员分享,可在线阅读,更多相关《spss数据处理小结:t检验、相关、二分类、散点图、箱图(19页珍藏版)》请在金锄头文库上搜索。

1、一.均值比较 ? (一).单样本t检验(one sample t test) 主要用于样本均数和已知总体均数的比较,还可以计算相应的描述性统 计计量及样本数据和总体均数只差的95%的可信区间。(当然你也可以做 75%,99%的可信区间,你也可以自己设置,95%和99%的可信区间比较常 用) 95%的可信区间:如该图1左侧的红色范围,是代表了数据的2.5%到97.5%的 内容。 ?图1-1 我们现在有个数据库,记录了糖尿病人的病历,以年龄为例,在一个有582 个样本(全部为糖尿病病人)的数据库里面,我们想知道糖尿病病人的主要 发病年龄,然后可以估算哪个年龄段是高发的。 ? 操作过程: 1.打开数

2、据库的“.sav”文件 2.分析比较均值单样本t检验,如图2 ? 图1-2 ? 3.弹出的主对话框: ? 图1-3 ? 4.如果你想设置99的可信区间就去“选项里面设置”,系统默认95%的可信区 间。 5.接着就是开始做数据了: ? 图1-4 ? 6.得到结果: 图1-5 首先我们在图5中可以看到样本数目是N=582个,均数标准差是 62.699.669。 (PS:高中统计学知识忘记了的我就不再这里意义赘述了,自行补脑吧) 下面的那个t我不是很了解是什么意思,一般的文章里面也没有用到。重要 的是Sig.(双侧)值,就是在常在文献中看到的p value,它要小于0.05才是 有意义的。而后面的“

3、差分的95%置信区间”的上下限,只要均值差值在可信 区间里面,并且置信区间没有包含0,就说明样本均数和总体均数的差异是 有统计学意义的。 ? (二).独立样本t检验(independent-samples T test)【这个很常用】 ?独立样本t检验就是两样本均数比较的t检验,或称两样本t检验(two- sample t test)用来检验;用来检验两个样本的总体均数之间是否有统计学 差异。 ? 我们首先来看一个表格: ? 图6 这个表格一般是流行病学调研类文章必备的表格了,上面分为了“control”组 和“PCOS”组(不用去管它是什么意思)和后面的P value,然后最下面有 写明,数

4、据除非有特殊说明,都是用均值标准差的形式来表示的。 需要特殊说明的是,一般情况下,两组数据有统计学上的差异,就是后面的 那个P值要小于0.05当然我们会看到“0.05的结果一致。 接下来我们看一个结果 ? 图1-11 说明年龄的p值为0.717,性别的p值为0.047,NLR和白细胞总数的p值是小 于0.001的。 (我们在遇到做出来的结果表述为0.000时,其实我们得到的结果是小于 0.001) ? 假如你的分组有三个或者更多个,那么你就要做单方向方差分析(one-way ANOVA) 因为过程大概和t检验类似,我就只简叙述一下: 1.分析均数比较单向方差分析 2.把需要比较均值的变量放到上

5、面因变量表列中,在下面“因子”中添加分组 (PS:可能很多同学在分组上会遇到困难,简单介绍一下吧,你在需要分组 的那一列数据的旁边插入一列数据,在插入的新的数据中把所需要分组的数 据分别标上1,2,3组) 3.然后在选项中选择“描述性”然后点击继续,然后点击主面板的确定导出数 据。 4.数据的p值读取方法和独立样本t检验差不多的 图1-12 ?图1-13 ?二.相关性 ? (一).双变量相关分析(Bivariate) ? 当分析两个变量之间是否存在相关关系时,使用双变量相关分析。 ? 接着我们刚刚的说,我们刚刚分析了,老年组的和非老年组的分别的胰岛素 抵抗的程度是不是显著差异的,但是我们这样就

6、能说明胰岛素抵抗和年龄这 一因素是没有相关性的吗?是否存在胰岛素抵抗的程度随着年龄的增长而增 长呢?我们来试着做一下吧。 ? 操作过程: 1.打开数据库的“.sav”文件 2.分析相关双变量 ? 图2-1 ? 3.进入之后选择要分析的两组数据:IR和年龄,pearson:矩阵相关系数, 参数方法(属于系统默认方法),剩下的两个均为非参数方法,自行补脑使 用。然后下面的双侧(尾)检验也是系统默认的。 ? 图2-2 ?4.然后就得到结果。 图2-3 ? 这个结果就是r=0.022,p等于0.603. 要在r大于0.5的情况下,表示两组的关系密切;而p值要小于0.05相关才成 立。 ? 接下来我们看

7、一下这一组数据:NLR和HbA1c的相关性 图2-4 ? 首先r=0.509,说明他们的相关是很密切的,而p0.001,说明相关是成立 的。然后在“.509”右上角现在是有两个*号,说明是显著相关的,假如说是一 个*号,说明只是p值小于0.05,相关成立,但是没有0.000显著。 ? 三. 回归分析(regression) ? (一).曲线估计(curve estimation) ? 我们在刚刚的相关性中,做出了NLR和糖化血红蛋白是明显相关的,相关系 数是0.509,p是小于0.001的,但是假如说在一个图上,它又是怎样表现出 来的呢?所以我们现在就来学习一下,如何用曲线方程描述糖化血红蛋白

8、和 NLR的关系。 (ps:SPSS中有11种曲线可以选择,我会简单概述一下在不用直线作图 时,怎样选择曲线) ? 例子:为了研究糖化血红蛋白上升时,NLR的上升趋势,试做直线拟合。 ? 1.打开数据库“.sav”文件 2.分析回归曲线估计 ? 图3-1 ? 3.选择因变量,变量和模型(默认为线性,也最为常用)。 ? 图3-2 ? 4.然后点击“确认”导出数据。 ?对于该结果呢,首先最前 面有一个“R方(R square)”, 它表示一种得分,越多的点掉 在曲线的两侧,得分就高。然 后我们还要关注的就是参数估 计值了,有一个常数为1.203 和b1为0.151,而我们的方程 线性的,即:y=0

9、.151*x +1.203 ? 于是我们就得到了它们两者的 相关曲线。 ?图3-3 ? 于是有人就会问了,难道我们只能做直线吗?要是遇上要做其他曲线怎么办 呢?首先我来给大家介绍一下剩下的曲线吧。 图3-4 ?在模型输出的结果中:我们可以看到“倒数,二次,三次”的R方最高,尤其 是三次的,当然有的情况下,某些相关能做出R方接近1的,那么那样的曲 线就是非常复合该公式的曲线。 图3-5 我们确定好假如就选三次方程为最后的结果,那么,我们就可以得到该方程 为:y=1.727x3 -0.147x2+0.004x-4.009 然后我们也来看一下刚刚做出来的曲线吧。如图3-6箭头所指的就是三次方 的曲线

10、了。 ?图3-6 ?(二)二分类logistic回归(binary logistic) 首先不得不说的是,binary logistic的中文译名还有很多:二元逻辑回归,二 分变量回归分析,二进制逻辑回归等等记住英文就行了。至于中文的话, 我们学校出版的IBM SPSS19 统计学软件应用教程 第二版陈平雁 主编的 那本书上写的是二分类logistic回归,至于其他的命名,我就不追根溯源了。 ? logistic回归分析材料的应用,对于因变量俄日分类变量或者等级变量的材 料,可以用logistic回归分析一个或者多个因素对该变量的影响(就是大家长 听到的危险因素分析)。 ? 我们之前讨论了糖化

11、血红蛋白和NLR的相关性以及相关曲线是怎么做出来 的,那糖化血红蛋白对NLR是危险因素还是保护因素呢?我们就做一下二分 类logsitic回归试一下吧。 ? 操作步骤: 1.打开数据库 2.对你需要讨论的变量进行分组,如图 所示,分成了两组,糖化血红蛋白大 于6.40的分成了一组,小于等于6.40的 分成了另外一组。 ps:有的书中会 提到变量标记,如把 阴性的结果设为0,把阳性结果设成1 应用到我们这里来,就可以把糖化血 红蛋白超高的设置成1,没有过分界线 的写成0,这只是一个分组习惯而已。 ?图3-7 ? 3.分析回归二分类logistic回归 ?图3-8 4.选择你需要的变量和因变量,因

12、变量为你刚刚的分组依据 ? 图3-9 ? 我们有时候在文章里面还能看到95%的可行区间,我们只需要点击“选 项”键,然后再勾选“exp(B)的Cl”选项就可以了。 ? 图3-10 ? 5.点击确定,输出结果,最下面的一个表格是最后的结果,中间计算过程看 看就好了,以后学了统计学就能理解其中的含义,现在就不展开叙述了。 ? 图3-11 ? 我们可以看到常见的Sig.值NLR的p值小于0.001,说明只有NLR和糖化血红蛋白的模型具有统计学的意义。而Exp(B)为9.271,表示着是危险因素, (只要exp(B)值大于1就表示为危险因素,小于1表示保护因素,后面表 示Exp(B)值的95%的可信区

13、间;还需要注意的是,在有的软件中,或者 文章中,Exp(B)值是用OR值来表示的) ? 接下来我们看一个文章上的表格吧。 ? 每一组都会有 P值,OR值,和 95%的可信区 间。 ? 图3-12 ? 而假如说你的分类是三组,就要做多分类,过程同二分类相同,不加赘述。 ?四.统计图形 (一).散点图 以我们刚刚做出曲线的HbA1c和NLR的方程为例,我们要做一个它们两者数 值变量之间的相关关系或者说是某个变量的个值分布。虽然曲线估计也能 做,但是我们有时候需要在图形上加很多的描述性的东西,所以我们常用到 散点图。 ? 操作步骤: 1.图形旧对话框散点/点状 ? 图4-1 ? 2.选择简单分布 ?

14、 图4-2 ? 3.分别选入X轴和Y轴的数据。 ? 图4-3 ?ps:我们要注意的第一点是“标题”,我们要根据自己的需要在标题,子标 题,脚注等地方添加文字。 ? 图4-4 ? 4.点击确认,数据结果。 ? 图4-5 ? 5.添加曲线(有需要才添加曲线,没有需要就不用了):双击该图,激活曲 线编辑器。点击图4-6中的部分,填写方程式:0.151*x +1.203。 ? 图4-6 ?图4-7 6.导出结果。 ? 图4-8 ?(二)箱图 用来描述定量变量的5个百分位点,分别是整个数据2.5%,25%,50%, 75%和97.5%的点,由P25到P75来组成“箱”(box)箱内包含中间50%的数 据,由P2.5到P25和P75P97.5构成两条“丝”代表两段45%的数据。整个图用 来描述数据在人群的分布情况。 ? 1.打开数据库 2.图形旧对话框箱图 ? 图4-9 3.把变量和类别轴加进去。类别轴就是之前的分组。 ? 图4-10 ? 4.点击确定,输出结果,结果见

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号