数据统计与分析技术

资源描述

《数据统计与分析技术》由会员分享，可在线阅读，更多相关《数据统计与分析技术（111页珍藏版）》请在金锄头文库上搜索。

1、数据统计与分析技术,数据统计与,分析技术,1. 分析前数据预处理 2. 样本描述性统计 3. 平均数比较与T检验 4. 相关分析 5. 回归分析 6. 非参数检验 7. 方差分析 8. 聚类分析和判别分析 9. 主成分分析和因子分析 10. 时间序列分析,分析前数据预处理,1.1 数据的排序 1.2 数据的转置 1.3 数据的拆分 1.4 数据文件的合并 1.5 数据的选择 1.6 数据的加权 1.7 数据的转换,样本描述性统计,2.1 基本数学模型 2.2 频数分析过程 2.3 数据描述过程 2.4 数据探察过程 2.5 列联表分析过程,平均数比较与T检验,3.1 分组平均数的比较 3.2

2、单一样本t检验 3.3 独立样本t检验 3.4 配对样本t检验,相关分析,4.1 相关系数 4.2 偏相关系数 4.3 距离分析,回归分析,5.1 线性回归 5.2 曲线回归,非参数检验,6.1 非参数检验概述 6.2 单样本检验 6.3 独立样本差异的显著性检验 6.4 相关样本差异的显著性检验,方差分析,7.1 方差分析概述 7.2 方差分析的基本步骤 7.3 单因素方差分析 7.4 多因素方差分析 7.5 协方差分析,聚类分析和判别分析,8.1 聚类分析和判别分析过程概述 8.2 快速样本聚类过程 8.3 分层聚类分析 8.4 判别分析,主成分分析和因子分析,9. 1 主成

3、分分析 9. 2 因子分析,时间序列分析,10.1 指数平滑法 10.2 季节分解法 10.3 自回归法 10.4 自回归综合移动平均模型,Bye,Bye,数据的排序,1. 在主菜单中单击Data菜单选项，打开该菜单条；,2.单击Sort Cases选项，打开对话框；,3. 在左边窗口选定变量名，再用箭头按钮，将变量转到Sort by 窗口中；,4.在Sort Order方框中，选择排序方式。,数据的排序对话框,数据的转置,1. 在主菜单中单击Data菜单选项，打开该菜单条；,2.单击Transpose选项，打开对话框；,3.在左边窗口选定变量名，再用箭头按钮，将变量转到Transpose窗

4、口中；,4. 单击“OK”按钮，确认后，生成新的数据文件。,数据的转置对话框,数据的拆分,1. 在主菜单中单击Data菜单选项，打开该菜单条；,2.单击Split File选项，打开对话框；,3.选择进行拆分的方式；,4.在左边窗口选定变量名，用中间箭头按钮，将变量转到Groups Based on窗口中；,5.注意拆分前的排序，选择两种方式。,数据的拆分对话框,数据文件合并,样本合并(横向拼接） DataMerge FilesAdd Cases,2.变量合并(纵向拼接） DataMerge Files Add Variable,数据的选择,1. 根据逻辑关系表达式选择数据,2.随机选取数据,

5、3.在给定范围内选择数据,4.用过滤器变量选择数据,数据的加权,1.加权（Weight）是一种通过人为方法来调节样本或数据大小的方法，在资料输入、样本分析和科学评价中经常起到举足轻重的作用。,2.加权有两种情况：对变量的值加权对个案加权对话框,数据的加权对话框,数据的转换,1. 利用Compute功能选项转换数据 2. 利用Count功能选项转换数据 3. 利用Recode功能选项转换数据 4. 利用Automatic Recode功能选项转换数据 5. 利用随机数种子转换数据,基本数学模型,描述集中趋势的统计量: 算术平均数调和平均数几何平均数众数中位数 2.描述离散趋势的统计

6、量极差平均差标准差（方差）标准误 3.描述分布特征的统计量偏度峰度,算术平均数,算术平均数等于所有样本数据的总和除以数据个数。算术平均值是描述样本数据中心趋势最常用的统计量。在分组条件下，其公式为：,标准差（方差）,标准差（）与方差（2 ）是反映数据离散趋势最常用的统计量。在分组条件下，方差的公式为：,标准差是方差方差的算术平方根。,频数分析过程,该过程可计算数据资料的各种描述统计指标、给出变量简单频数分布表、绘制几种变量分布图。,Analyze Descriptive Statistics Frequencies 出现对话框,操作,频数分析过程对话框,统计量选择对话框,数据描

7、述过程,操作,该过程计算数据资料的各种描述统计指标，但不给出分布图。,Analyze Descriptive Statistics Descriptives 出现对话框,数据描述过程对话框,Options对话框,数据探察过程,操作,探索性数据分析是指对数据的初步考察，由描述统计指标和直观的图形组成。包括检查数据错误、描述整体或分组数据的数量特征和分布特征，假设检验，奇异值辨认等。,Analyze Descriptive Statistics Explore 出现对话框,数据探察过程对话框,列联表分析过程,操作,列联表是按两个标志对一组观察值进行交叉分组所得到的频数分布表，表中列出同时联系于横行

8、和纵行某特定标志名称的观察值数目，在表的右边栏列出各行频数的合计，在表的底行列出各列频数的合计，在两者交叉处，即表的右下角，列出频数总计。,Analyze Descriptive Statistics Crosstabs 出现对话框,列联表分析过程对话框,平均数分析,该过程主要用于分组计算各统计指标，也可以进行单因素随机设计方差分析和线性检验。,Analyze Compare Means Means 出现对话框,操作,平均数分析对话框,Options对话框,单一样本t检验,Analyze Compare Means One Sample T Test 出现对话框,操作,该过程用于检验样本平均数

9、与总体平均数之间是否存在差异。,单一样本t检验对话框,独立样本t检验,Analyze Compare Means Independent-Sample T test 出现对话框,操作,该过程用于检验两个独立样本的平均数之间是否存在差异。,独立样本t检验对话框,独立样本,独立样本(Independent Sample)是指两个样本彼此独立，没有任何关联。例如实验组与控制组、男生组与女生组、高收入组与低收入组、大学数学系与物理系等。但这里的独立样本是广义的独立，仅是指非关联变量。两独立的样本各接受相同的测量，研究者的兴趣在比较两批样本群在测量结果总体上是否存在差异。独立样本中，所有观测都是独立的，

10、即具体个别样本的顺序可以变化的，与变量无关。,配对样本t检验,Analyze Compare Means Paired-Sample T test 出现对话框,操作,该过程用于检验两个配对样本的平均数之间是否存在差异。,配对样本t检验对话框,配对样本,配对样本（Paired Sample）或相关样本（Correlated Sample），指两个样本的观测值之间彼此有关联，如同一批被试者接受两种实验条件，即同一批观测对象接受两种不同的测量。对于此类样本，研究者所感兴趣的是二次测量之间是否存在差异。如实验前和实验后的测量，即具体个别样本的顺序不可以变化的。,相关分析,相关分析是研究两变量之间的关系

11、。相关模型包括皮尔逊（Pearson）、斯皮尔曼（Spearman）和肯特尔（Kendall）三种子模型。相关模型要求X、Y变量都是随机变量，并都呈正态分布。满足上述正态分布的定量数据可用Pearson相关模型。对于定序、计数数据、对于不满足正态分布的数据，则非参数检验模型，即Spearman和Kendall相关模型。,相关分析,相关过程调用：AnalyzeCorrelate Bivariate：,Pearson相关模型,Pearson相关系数计算公式：,r是最常用的相关系数,偏相关系数,多个变量之间的相关关系是错综复杂的，任何两个变量之间都有简单相关关系，而这种相关关系中夹杂了其他变量所带来

12、的影响。固定其他因素，而计算某两个因素之间的相关系数称为偏相关系数。,偏相关系数,相关过程调用：AnalyzeCorrelate Partial:,距离分析,对于更复杂数据资料之间的关系，可利用距离分析来进行研究。距离分析通过计算各样本点之间的距离，来观测样本之间的相似或不相似程度，从而可进一步进行聚类分析、因子分析和多维分析。,线性回归,一元线性回归多元线性回归可化为线性回归的非线性回归,多元回归的方法,线性回归,线性回归过程调用：AnalyzeRegression Linear Regression,x：可控制或可精确观测得到的数据的变量； Y：与x具有相关关系的随机变量。 xi (i

13、=1, 2, , n) yi (i=1, 2, , n) 数据对（样本值）：(xi, yi) i=1, 2, , n 散点图(Scatter Graph) 假定Y与x具有线性相关关系：,(xi, yi),其中，是数学期望为0的随机变量，假设满足正态分布，于是：,一元线性回归,x1, x2, , xr：r个可控制或可精确观测得到的数据的变量； Y：与x1, x2, , xr具有相关关系的随机变量。假定Y与x1, x2, , xr具有线性相关关系：,其中，是数学期望为0的随机误差，且满足正态分布。对于n组样本观察值（nr）： xi1, xi2, , xir (i=1, 2, , n) yi (

14、i=1, 2, , n) 多元线性回归模型为：,其中，i互不相关。,多元线性回归,多元线性回归方法,Enter (全回归法) Stepwise （逐步回归法） Remove（剔除法） Backward（向后回归法） Forward（向前回归法）,引入自变量的显著性水平1 剔除自变量的显著性水平2,对不在方程中的自变量能否引入？,引入自变量,对已在方程中的自变量能否剔除？,剔除自变量,筛选结束,能,否,能,否,逐步回归的基本步骤,1. 双曲线型,方法：变量替换,可化为线性回归的非线性回归,2. 指数曲线型,若a0，则令v=lny，得到：,若a0，则令v=ln(-y），得到：,3. 幂函数型,

15、若a0，则令v=lny，u=lnx，得到（a0情况类推）：,可化为线性回归的非线性回归,4. 对数曲线型,令u=logx，得到：,令v=logy，得到：,令u=logx， v=logy，得到：,可化为线性回归的非线性回归,5. S曲线型,令：,得到：,可化为线性回归的非线性回归,曲线回归,客观实现中各因素之间呈现线性关系的现象并不很多，更多的是呈现曲线关系，这时应采用非线性回归分析。非线性回归模型包括两种形式：一是可线性化的，如二次曲线模型、对数模型等；一是不可线性化的，如逻辑曲线模型。 SPSS提供了拟合各种常用曲线模型的功能。,曲线回归,线性回归过程调用：AnalyzeRegression

16、 Curve Estimation,非参数检验概述,非参数检验的着眼点不是总体参数，而是总体的分布情况，即研究目标总体的分布是否与已知理论分布相同，或者各样本所在总体的分布位置，形状是否相同。由于这一类方法并不涉及总体参数，因而被称为非参数方法。,非参数检验概述,Nonparametric Tests 菜单提供八种非参数检验的分析方法，分为两类： 1. 分布类型检验方法 Chi-Square过程；检验二项分类变量分布的Binomial过程；检验样本序列随机性的Runs过程及检验样本是否服从各种常用分布的l-Sample K-S过程。 2. 分布位置检验方法独立样本分布位置检验的2 、K Independent Samples过程；相关样本分布位

展开阅读全文