三常用的统计分析方法[课件]]

资源描述

常用的统计分析方法常用的统计分析方法一回归分析研究变量（指标）之间关系的一种统计方法，也就是要建立一个变量和另一个变量（或几个变量）之间的数学表达式。一元线性回归一元线性回归对斜率检验的假设是，总体回归系数对斜率检验的假设是，总体回归系数b=0。检验该假设的。检验该假设的t值计算公式是：值计算公式是：对截距检验的假设是，总体回归方程截距对截距检验的假设是，总体回归方程截距a=0。检验该假设的。检验该假设的t值计算公式是：值计算公式是：在两公式中，在两公式中，SEb是回归系数的标准误。是回归系数的标准误。SEa是截距的标准误。是截距的标准误。1 一元线性回归方程一元线性回归方程最优线性回归方程：常用的方法是最小二乘法，也就是使直线与各点的纵向距离最小，即使实测值y与之差的平方和达到最小，因此，求回归方程问题，归根结底就是求最小时a和b的问题。A称为截距，b为回归直线的斜率，它们又称为回归系数。2 一元回归方程的检验一元回归方程的检验（1 1）回归系数的显著性检验）回归系数的显著性检验一元线性回归一元线性回归（2 2）R R2 2判定系数判定系数（3 3）方差分析）方差分析表明判定系数等于回归平方和在总平方和中所占的比率，体现了回归模型所解释的因变量变异的百分比。如果R2 0.775，说明变异中又77.5是由变量x引起的。R2 1表明因变量与自变量为函数关系。R2 0，表示自变量与因变量无线性关系。(a)(b)(c)(d)(e)(f)(g)一元线性回归一元线性回归各种残差与预测值关系示意图各种残差与预测值关系示意图以预测值为横轴，测定值与预测值之间的误差（残差）为纵轴，绘制残差的散点图n例：例：在某铂矿氧化带的探槽中，采集了18个样品，分析其中铂与砷含量，其结果见表123456789101112131415161718Y1.591.691.811.891.491.893.132.312.660.852.281.152.220.30.780.30.30.3X0.40.780.540.540.540.651.0410.70.30.600.7800.540.540-0.03n由图可见，它们之间呈现线性关系nY=a+bX n若用则实测值Y与Yi间，就会有误差：最小二乘法原理：误差平方和达到最小的回归直线是最好的。回归方程：Y=0.433+2.146X n回归分析是研究随机变量对其它变量（可以是随机变量，也可以回归分析是研究随机变量对其它变量（可以是随机变量，也可以是确定性变量）的依赖关系的一种统计分折方法。虽然回归分析是确定性变量）的依赖关系的一种统计分折方法。虽然回归分析与相关分析之间有微小的区别，人们常常把它们统称为回归分析与相关分析之间有微小的区别，人们常常把它们统称为回归分析或相关分析。或相关分析。n回归分析主要解决以下几方面的问题：回归分析主要解决以下几方面的问题：（1 1）建立回归方程）建立回归方程 b b0 0b b1 1X X1 1b b2 2X X2 2b bp pX Xp p （2 2）讨论回归方程中各自变量的作用，或者说检验）讨论回归方程中各自变量的作用，或者说检验每个自变量对回归的贡献大小。每个自变量对回归的贡献大小。（3 3）最优回归方程的选择。）最优回归方程的选择。（4 4）对因变量）对因变量y y的预测或控制。的预测或控制。二二多元回归分析多元回归分析多元线性回归的概念多元线性回归的概念1 1 多元回归分析的模型多元回归分析的模型（1 1）校正）校正R R2 2判定系数的公式判定系数的公式其中其中k k为自变量的个数，为自变量的个数，n n为观测量数目为观测量数目偏回归系数和常数项的偏回归系数和常数项的t t检验的公式检验的公式 2 多元线性回归分析中的统计指标多元线性回归分析中的统计指标（2）ZeroOrder（3）Part Correlation（4）Partial Correlation回归菜单回归菜单线性回归主对话框线性回归主对话框Dependent：因变量Independent：自变量Enter：强行进入法，候选自变量全部纳入模型，不作任何筛选。Stepwise：逐步法Remove：强制剔除法Backward：向后法Forward：向前法WLS Weight：加权最小二乘法的回归分析设定运算规则对话框设定运算规则对话框选入一个筛选变量，并利用右选入一个筛选变量，并利用右侧的侧的RulesRules钮建立一个选择条钮建立一个选择条件，这样，满足该条件的记录件，这样，满足该条件的记录才会进入回归分析。才会进入回归分析。当然，也可以通过当然，也可以通过DataData菜单中菜单中的的Select CaseSelect Case过程来选择记过程来选择记录，两者功能是等价的。录，两者功能是等价的。输出统计量对话框输出统计量对话框Estimates：可输出回归系数及其标准误，t值、p值，还有标准化回归系数Beta；Confidence intervals：输出每个回归系数的95%的可信区间；Covariance Matrix：输出各个自变量的相关矩阵和方差、协方差矩阵。Model fit：模型拟和过程中进入、退出的变量的列表，以及有关拟和优度的检验。选择对话框选择对话框Use probability of FUse probability of F采用采用F F检验的概率值作为判据，检验的概率值作为判据，图中为系统默认值。档一个图中为系统默认值。档一个变量的变量的SigSig值值EntryEntry值时，值时，该变量被引入回归方程，当该变量被引入回归方程，当SigSig值值RemovalRemoval值时，该变值时，该变量从回归方程剔除。量从回归方程剔除。注意：注意：EntryEntry值要小于值要小于RemovalRemoval值，且必须大于值，且必须大于0 0简单散点图对话框图简单散点图对话框图散点图示例散点图示例n例：例：四川某铂族元素矿区，该矿区内的基性、超基性岩浆岩具有明显的铂族元素矿化特征，请用逐步回归分析方法，求出Pt含量与其它元素的回归方程。线性回归方程：y=0.010X1-16.154X2+168.944自变量:Pt 例：某钨矿床矿石定量分析结果及WO3预报值统计分析得线性回归方程：y 49.21795.709X24.732X7独立变量 WO3二相关分析 Correlations 相关分析的概念与相关分析过程基本概念：基本概念：Pearson积矩相关积矩相关 Spearman相关系数相关系数式中式中Ri是第是第i个个x值的秩，值的秩，Si是第是第i个个y值的秩。值的秩。分别是分别是Ri和和Si的平均值。的平均值。相关系数是描述线性相关关系强弱程度和方向的统计量。相关系数是描述线性相关关系强弱程度和方向的统计量。1 正态分布的等间隔测度的变量X和y间相关系数2 数据分布不满足正态分布的条件是Pearson相关系数的非参数形式，是根据数据的秩而不是根据实际值计算的基本概念：基本概念：Kendalls tau-b：其中其中 ti（或（或ui）是）是x（或（或y）的第）的第i 组结点组结点x（或（或y）值的数目，）值的数目，n为观测量数。为观测量数。*如果数据不满足正态分布的条件，应使用如果数据不满足正态分布的条件，应使用SpearmanSpearman和和KendallKendall相关分析方法相关分析方法基本概念：基本概念：关于相关系数统计意义的检验关于相关系数统计意义的检验式中式中r是相关系数，是相关系数，n是样本观测量数，是样本观测量数，n2是自由度。是自由度。当当tt0.05(n-2)时，时，pt0.05(n-k-2)时，时，p0.05拒绝原假设拒绝原假设偏相关分析的主对话框偏相关分析的主对话框偏相关的选择项对话框偏相关的选择项对话框偏相关应用实例输出偏相关应用实例输出1 四川绵阳地区3年生中山柏的数据，分析月生长量与月平均气温、月降雨量、月平均日照时数、月平均湿度这四个气候因素哪个因素有关。数据来源于袁佳祖编著灰色系统理论，数据编号data10-03。各变量的描述统计量各变量的描述统计量生长量与各变量间生长量与各变量间PearsonPearson相关分析结果相关分析结果距离分析Distance 距离分析的主对话框图距离分析的主对话框图不相似性距离测度选择项对话框不相似性距离测度选择项对话框相似性测度选择项对话框相似性测度选择项对话框距离分析实例距离分析实例观测量间的欧氏距离观测量间的欧氏距离变量间不相似性分析例题输出变量间不相似性分析例题输出变量间的不相似性测度变量间的不相似性测度标准化后的欧氏距离标准化后的欧氏距离变量间的相似性测度例题变量间的相似性测度例题相关系数矩阵相关系数矩阵注意使用辅助方法注意使用辅助方法GraphScatter三三聚类分析聚类分析定义：根据研究对象（样品或变量）的多种特征在数定义：根据研究对象（样品或变量）的多种特征在数值上可能存在着的相似性程度，将它们聚合为不同的值上可能存在着的相似性程度，将它们聚合为不同的点群的一种多元统计分析方法。点群的一种多元统计分析方法。分类：聚类分析按其研究对象的不同可分为两类：一分类：聚类分析按其研究对象的不同可分为两类：一类是对样品分类，称类是对样品分类，称Q Q型分析；另一类是对变量分类，型分析；另一类是对变量分类，称称R R型分析。型分析。距离尺度距离尺度n（1 1）距离系数）距离系数Z Z 把把n n个研究对象（个体）表示为个研究对象（个体）表示为m m维坐标空间维坐标空间中的中的n n个点，很自然这些点之间的欧氏距离可个点，很自然这些点之间的欧氏距离可用来度量两两点之间的亲疏关系，即两点之间用来度量两两点之间的亲疏关系，即两点之间的空间距离愈近，它们就愈相似。的空间距离愈近，它们就愈相似。n（2 2）相关系数）相关系数r rijij 相关系数相关系数r rijij是第是第i i个样品与第个样品与第j j个样品的相个样品的相关程度的一种度量关程度的一种度量 n聚类分析一般步骤：n（1 1）选择描述事物对象的变量（或指标）。要求）选择描述事物对象的变量（或指标）。要求选取的变量既要能够全面反映对象性质的各个方选取的变量既要能够全面反映对象性质的各个方面，又要使不同变量反映的对象性质有所差别。面，又要使不同变量反映的对象性质有所差别。n（2 2）形成数据文件，建立样品资料矩阵。）形成数据文件，建立样品资料矩阵。n（3 3）确定数据是否需要标准化。）确定数据是否需要标准化。n（4 4）确定表示对象距离或相似程度的统计量。）确定表示对象距离或相似程度的统计量。n（5 5）选择适当的事物对象聚类方法，进行聚类。）选择适当的事物对象聚类方法，进行聚类。例5.3 由图可见，SiO2、Mo、Cu、Ag属于一类；CaO、MgO属于一类。前一类为矿化作用带进围岩中的组分，并富集形成铜钼矿。后一类CaO、MgO为围岩成分。各种聚类分析过程的位置各种聚类分析过程的位置 1 TwoStep Cluster两步聚类，可以分析大数据文件；2 KMeans Cluster快速聚类分析过程，仅对现测量进行快速聚类；3 Hierarchical Cluster进行样本聚类和变量聚类的过程；4 Discriminate进行判别分析的过程。两两步步聚聚类类Two Step Cluster两步聚类分析主对话框两步聚类分析主对话框要求模型中的变量是独立的，分变量是多项式分布，连续变量是正态分布。Categoreical：分类变量Continuous Variables：连续型变量Distance Measure：计算两类间相似程度的算法。快快速速样样本本聚聚类类 K-Means Cluster QUICK CLUSTER过程 K-Means Cluster AnalysisK-Means Cluster Analysis主对话框主对话框分分层层聚聚类类 Hiera

展开阅读全文

温馨提示：

金锄头文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。