spss数据处理小结：t检验、相关、二分类、散点图、箱图

资源描述

《spss数据处理小结：t检验、相关、二分类、散点图、箱图》由会员分享，可在线阅读，更多相关《spss数据处理小结：t检验、相关、二分类、散点图、箱图（19页珍藏版）》请在金锄头文库上搜索。

1、一.均值比较 ? (一).单样本t检验（one sample t test）主要用于样本均数和已知总体均数的比较，还可以计算相应的描述性统计计量及样本数据和总体均数只差的95%的可信区间。（当然你也可以做 75%，99%的可信区间，你也可以自己设置，95%和99%的可信区间比较常用） 95%的可信区间：如该图1左侧的红色范围，是代表了数据的2.5%到97.5%的内容。 ?图1-1 我们现在有个数据库，记录了糖尿病人的病历，以年龄为例，在一个有582 个样本（全部为糖尿病病人）的数据库里面，我们想知道糖尿病病人的主要发病年龄，然后可以估算哪个年龄段是高发的。 ? 操作过程： 1.打开数

2、据库的“.sav”文件 2.分析比较均值单样本t检验，如图2 ? 图1-2 ? 3.弹出的主对话框： ? 图1-3 ? 4.如果你想设置99的可信区间就去“选项里面设置”，系统默认95%的可信区间。 5.接着就是开始做数据了： ? 图1-4 ? 6.得到结果：图1-5 首先我们在图5中可以看到样本数目是N=582个，均数标准差是 62.699.669。（PS：高中统计学知识忘记了的我就不再这里意义赘述了，自行补脑吧）下面的那个t我不是很了解是什么意思，一般的文章里面也没有用到。重要的是Sig.（双侧）值，就是在常在文献中看到的p value，它要小于0.05才是有意义的。而后面的“

3、差分的95%置信区间”的上下限，只要均值差值在可信区间里面，并且置信区间没有包含0，就说明样本均数和总体均数的差异是有统计学意义的。 ? （二）.独立样本t检验（independent-samples T test）【这个很常用】 ?独立样本t检验就是两样本均数比较的t检验，或称两样本t检验（two- sample t test）用来检验；用来检验两个样本的总体均数之间是否有统计学差异。 ? 我们首先来看一个表格： ? 图6 这个表格一般是流行病学调研类文章必备的表格了，上面分为了“control”组和“PCOS”组（不用去管它是什么意思）和后面的P value，然后最下面有写明，数

4、据除非有特殊说明，都是用均值标准差的形式来表示的。需要特殊说明的是，一般情况下，两组数据有统计学上的差异，就是后面的那个P值要小于0.05当然我们会看到“0.05的结果一致。接下来我们看一个结果 ? 图1-11 说明年龄的p值为0.717，性别的p值为0.047，NLR和白细胞总数的p值是小于0.001的。（我们在遇到做出来的结果表述为0.000时，其实我们得到的结果是小于 0.001） ? 假如你的分组有三个或者更多个，那么你就要做单方向方差分析（one-way ANOVA）因为过程大概和t检验类似，我就只简叙述一下： 1.分析均数比较单向方差分析 2.把需要比较均值的变量放到上

5、面因变量表列中，在下面“因子”中添加分组（PS：可能很多同学在分组上会遇到困难，简单介绍一下吧，你在需要分组的那一列数据的旁边插入一列数据，在插入的新的数据中把所需要分组的数据分别标上1，2，3组） 3.然后在选项中选择“描述性”然后点击继续，然后点击主面板的确定导出数据。 4.数据的p值读取方法和独立样本t检验差不多的图1-12 ?图1-13 ?二.相关性 ? （一）.双变量相关分析（Bivariate） ? 当分析两个变量之间是否存在相关关系时，使用双变量相关分析。 ? 接着我们刚刚的说，我们刚刚分析了，老年组的和非老年组的分别的胰岛素抵抗的程度是不是显著差异的，但是我们这样就

6、能说明胰岛素抵抗和年龄这一因素是没有相关性的吗？是否存在胰岛素抵抗的程度随着年龄的增长而增长呢？我们来试着做一下吧。 ? 操作过程： 1.打开数据库的“.sav”文件 2.分析相关双变量 ? 图2-1 ? 3.进入之后选择要分析的两组数据：IR和年龄，pearson：矩阵相关系数，参数方法（属于系统默认方法），剩下的两个均为非参数方法，自行补脑使用。然后下面的双侧（尾）检验也是系统默认的。 ? 图2-2 ?4.然后就得到结果。图2-3 ? 这个结果就是r=0.022，p等于0.603. 要在r大于0.5的情况下，表示两组的关系密切；而p值要小于0.05相关才成立。 ? 接下来我们看

7、一下这一组数据：NLR和HbA1c的相关性图2-4 ? 首先r=0.509，说明他们的相关是很密切的，而p0.001,说明相关是成立的。然后在“.509”右上角现在是有两个*号，说明是显著相关的，假如说是一个*号，说明只是p值小于0.05，相关成立，但是没有0.000显著。 ? 三. 回归分析（regression） ? （一）.曲线估计（curve estimation） ? 我们在刚刚的相关性中，做出了NLR和糖化血红蛋白是明显相关的，相关系数是0.509，p是小于0.001的，但是假如说在一个图上，它又是怎样表现出来的呢？所以我们现在就来学习一下，如何用曲线方程描述糖化血红蛋白

8、和 NLR的关系。（ps：SPSS中有11种曲线可以选择，我会简单概述一下在不用直线作图时，怎样选择曲线） ? 例子：为了研究糖化血红蛋白上升时，NLR的上升趋势，试做直线拟合。 ? 1.打开数据库“.sav”文件 2.分析回归曲线估计 ? 图3-1 ? 3.选择因变量，变量和模型（默认为线性，也最为常用）。 ? 图3-2 ? 4.然后点击“确认”导出数据。 ?对于该结果呢，首先最前面有一个“R方（R square）”，它表示一种得分，越多的点掉在曲线的两侧，得分就高。然后我们还要关注的就是参数估计值了，有一个常数为1.203 和b1为0.151，而我们的方程线性的，即:y=0

9、.151*x +1.203 ? 于是我们就得到了它们两者的相关曲线。 ?图3-3 ? 于是有人就会问了，难道我们只能做直线吗?要是遇上要做其他曲线怎么办呢？首先我来给大家介绍一下剩下的曲线吧。图3-4 ?在模型输出的结果中：我们可以看到“倒数，二次，三次”的R方最高，尤其是三次的，当然有的情况下，某些相关能做出R方接近1的，那么那样的曲线就是非常复合该公式的曲线。图3-5 我们确定好假如就选三次方程为最后的结果，那么，我们就可以得到该方程为：y=1.727x3 -0.147x2+0.004x-4.009 然后我们也来看一下刚刚做出来的曲线吧。如图3-6箭头所指的就是三次方的曲线

10、了。 ?图3-6 ?（二）二分类logistic回归（binary logistic）首先不得不说的是，binary logistic的中文译名还有很多：二元逻辑回归，二分变量回归分析，二进制逻辑回归等等记住英文就行了。至于中文的话，我们学校出版的IBM SPSS19 统计学软件应用教程第二版陈平雁主编的那本书上写的是二分类logistic回归，至于其他的命名，我就不追根溯源了。 ? logistic回归分析材料的应用，对于因变量俄日分类变量或者等级变量的材料，可以用logistic回归分析一个或者多个因素对该变量的影响（就是大家长听到的危险因素分析）。 ? 我们之前讨论了糖化

11、血红蛋白和NLR的相关性以及相关曲线是怎么做出来的，那糖化血红蛋白对NLR是危险因素还是保护因素呢？我们就做一下二分类logsitic回归试一下吧。 ? 操作步骤： 1.打开数据库 2.对你需要讨论的变量进行分组，如图所示，分成了两组，糖化血红蛋白大于6.40的分成了一组，小于等于6.40的分成了另外一组。 ps：有的书中会提到变量标记，如把阴性的结果设为0，把阳性结果设成1 应用到我们这里来，就可以把糖化血红蛋白超高的设置成1，没有过分界线的写成0，这只是一个分组习惯而已。 ?图3-7 ? 3.分析回归二分类logistic回归 ?图3-8 4.选择你需要的变量和因变量，因

12、变量为你刚刚的分组依据 ? 图3-9 ? 我们有时候在文章里面还能看到95%的可行区间，我们只需要点击“选项”键，然后再勾选“exp（B）的Cl”选项就可以了。 ? 图3-10 ? 5.点击确定，输出结果，最下面的一个表格是最后的结果，中间计算过程看看就好了，以后学了统计学就能理解其中的含义，现在就不展开叙述了。 ? 图3-11 ? 我们可以看到常见的Sig.值NLR的p值小于0.001，说明只有NLR和糖化血红蛋白的模型具有统计学的意义。而Exp（B）为9.271，表示着是危险因素，（只要exp（B）值大于1就表示为危险因素，小于1表示保护因素，后面表示Exp（B）值的95%的可信区

13、间；还需要注意的是，在有的软件中，或者文章中，Exp（B）值是用OR值来表示的） ? 接下来我们看一个文章上的表格吧。 ? 每一组都会有 P值,OR值，和 95%的可信区间。 ? 图3-12 ? 而假如说你的分类是三组，就要做多分类，过程同二分类相同，不加赘述。 ?四.统计图形（一）.散点图以我们刚刚做出曲线的HbA1c和NLR的方程为例，我们要做一个它们两者数值变量之间的相关关系或者说是某个变量的个值分布。虽然曲线估计也能做，但是我们有时候需要在图形上加很多的描述性的东西，所以我们常用到散点图。 ? 操作步骤： 1.图形旧对话框散点/点状 ? 图4-1 ? 2.选择简单分布 ?

14、图4-2 ? 3.分别选入X轴和Y轴的数据。 ? 图4-3 ?ps：我们要注意的第一点是“标题”，我们要根据自己的需要在标题，子标题，脚注等地方添加文字。 ? 图4-4 ? 4.点击确认，数据结果。 ? 图4-5 ? 5.添加曲线（有需要才添加曲线，没有需要就不用了）：双击该图，激活曲线编辑器。点击图4-6中的部分，填写方程式：0.151*x +1.203。 ? 图4-6 ?图4-7 6.导出结果。 ? 图4-8 ?（二）箱图用来描述定量变量的5个百分位点，分别是整个数据2.5%，25%，50%， 75%和97.5%的点，由P25到P75来组成“箱”（box）箱内包含中间50%的数据，由P2.5到P25和P75P97.5构成两条“丝”代表两段45%的数据。整个图用来描述数据在人群的分布情况。 ? 1.打开数据库 2.图形旧对话框箱图 ? 图4-9 3.把变量和类别轴加进去。类别轴就是之前的分组。 ? 图4-10 ? 4.点击确定，输出结果，结果见

展开阅读全文