文档详情

第六章 相关和回归5.13讲义

今***
实名认证
店铺
PPT
1.55MB
约58页
文档ID:108269807
第六章 相关和回归5.13讲义_第1页
1/58

第六章 相关与回归分析 (Correlation and Regression),学习目的,1.相关与回归的概念; 2.直线相关与直线回归分析; 3.多重线性回归分析学习内容,1.直线相关 2.秩相关 3.直线回归 4.曲线回归 5.多重线性回归,,第一节 直线相关,一、相关关系的概念,相关关系,变量之间的依存关系,确定性、严格的 依存关系,函数关系,不确定、不规则 的依存关系,宏观关系,,,相关关系的特点: (1)现象之间确实存在数量上的依存关系 (2)现象之间数量上的依存关系不是确定的联系(1)本来具有函数关系的变量,当在观测误差 时,其函数关系往往以相关的形式表现出来 (2)如果我们对所研究对象有更深入的认识,便 可以将影响因素全部纳入方程,使之成为函数关系相关关系与函数关系存在区别,但在一定的条件下是可以相互转换的区别:(1)两变量之间的关系是否确定 (2)是否可用数学公式表式,,直线相关又称简单线性相关,是描述两变量间是否有线性关系以及线性关系的方向和密切程度的统计分析方法 直线相关用于双变量正态分布资料,两变量之间的直线相关关系用相关系数来描述样本相关系数用r表示,总体相关系数用ρ 表示。

一)相关关系的种类,按相关的程度,可分为,完全相关 不完全相关 不相关,正相关 负相关,线性相关 非线性相关,单相关 复相关,按涉及变量的多少,可分为,按相关的形式,可分为,按相关的方向,可分为,,按相关的程度,按相关程度划分 完全相关:当一种现象的数量变化完全由另一个现象的数量变化所确定时,这两种现象间的关系为完全相关即函数关系 不完全相关:两个现象之间的关系介于完全相关和不相关之间,称为不完全相关 不相关:当两个现象彼此互不影响,其数量变化各自独立时,称为不相关如:股票价格的高低与气温的高低是不相关的直线相关按相关方向划分,正相关:当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关如工人的工资随劳动生产率的提高而增加 负相关:当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关如商品流转的规模越大,流通费用水平则越低按相关形式划分,线性相关:当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关如人均消费水平与人均收入水平通常呈线性关系 非线性相关:如果两种相关现象之间,并不表现为直线的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。

如产品的平均成本与产品总产量之间的相关关系就是一种非线性关系按变量多少划分,单相关:一个变量对另一个变量的相关关系,称为单相关 复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关如某种商品的需求与其价格水平及人们收入水平之间的相关关系就是一种复相关散点图,直观的说明直线相关的性质,(二)相关系数 定量描述两变量间直线相关方向和密切程度的统计指标以两变量与各自平均值的离均差为基础 积差相关系数(Product-moment correlation coefficient)Pearson相关系数,相关系数参数统计1 ≤ r ≤1 符号→相关方向 绝对值→密切程度 r0 :正相关 r0 :负相关 r=0 :零相关非线性相关or无相关 不服从双变量正态分布→变量变换→正态化→Pearson积差相关系数二、相关系数的假设检验 r 估计总体相关系数ρ,当r≠0时,因为存在抽样误差,不能认为ρ≠0,需要检验样本相关关系是否来自ρ=0的总体 相关系数采用t检验方法,df=n-2,,,,,三、直线相关分析步骤 1.双变量正态性检验:x、y是否满足正态性 2.散点图: 直线趋势→直线回归、 曲线趋势→曲线方程。

3.计算r: 4. r的假设检验:,,四、注意事项 1.选择合适的回归模型: 在计算相关系数之前先用散点图观察两变量之间是否有线性联系,曲线联系时不能用直线相关分析 2.X,Y中任意一个变量的数值是认为选定时不应作直线相关分析 3.做相关分析时,要剔除异常点(离群值),,,4.专业上要有意义:两变量相关并不代表两变量之间一定存在内在联系,如儿童身高与小树树高计算得的相关系数 5.分层资料不要盲目合并作直线相关分析:如不同年龄人群体重与年龄的关系,以自变量的观测范围为限,随意外延表9-1 某地10名三岁儿童的体重与体表面积数据,,P111【SPSS操作】以“(胰岛素)”、“(血糖)”为变量名,建立2列20行数据集li0601.sav (1)正态性检验:Analyze → Descriptive Statistics → explore →胰岛素、血糖入Dependent variable→ plots → Nomality plots with tests →OK (2)作散点图 :Graphs(绘图)→Legacy Dialogs→ Scatter/Dot(散点图)→Simple Scatter→Define,“血糖”→Y Axis(轴)框,“胰岛素”→X Axis(轴)框,→OK。

(3)线性相关 Analyze→Correlate→Bivariate,血糖”与“胰岛素”→Variables → Pearson → Two-tailed→OK第二节 等级相关(秩相关) 等级相关是一种非参数统计的方法 条件:①双变量中的一个或两个不服从正态分布; ②总体分布类型不知; ③用等级或相对数表示的资料; ④数据一端或两端有不确定值 方法:Kendall法:等级相关系数rk Spearman法:等级相关系数rs,,,,rk和rs的取值范围和意义同r,都需进行检验 取值范围都在-1到1之间 需要做总体相关系数等于0的假设检验 等级相关系数的假设检验用z检验P112【SPSS操作】以“血小板数”和“出血症状”为变量名,建立2列12行数据集li0602.sav Analyze→Correlate→Bivariate,“血小板数”、“出血症状”→Variables框,在Correlation Coefficients选项下选择复选框Spearman,在Test of Significance下选中Two-tailed→OK第三节 直线回归,对具有高度相关关系的现象,根据其相关的形态,建立一个适宜的数学模型(回归方程),来近似地反映变量之间的一般变化关系,利用所建立的数学模型进行估计和预测,这个数学模型就是回归方程。

自变量与因变量,在回归分析中,需要搞清是哪一个变量的变动影响另一个变量的变动,即分清自变量和因变量起影响作用的变量叫自变量,用X表示;由于自变量的变动而发生对应变化的变量叫因变量,用Y表示研究一个自变量与一个因变量,且这两个变量之间呈直线关系的回归分析成为直线回归分析 研究多个自变量与一个因变量,且这些变量之间呈直线关系的回归分析成为多重线性回归分析相关分析与回归分析,相关分析 就是用一个指标来表明现象间相互依存关系的密切程度 回归分析 就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系区别,①相关分析所研究的变量是对等关系;回归分析所研究的两个变量不是对等关系 ②对两个变量来说,相关分析只能计算出一个相关系数,而回归分析,可分别建立两个不同的回归方程 ③相关分析要求两个变量都必须是随机的,而回归分析的要求,自变量是给定的,因变量是随机的一、直线回归的模型 一元线性回归模型是最简单的回归模型,又称为简单线性回归或简单回归:只有一个自变量的直线回归 在一元线性回归模型中,X为可以精确测定和控制的变量,且当X取得某确定值时,对应的Y值相互独立,服从正态分布。

图6-8 简单线性回归统计学模型 μy=α+βx 总体回归方程 样本直线回归方程 a:截距(intercept) b:斜率(slope),回归系数,,,x每改变1个单位时y平均改变b个单位 b0表示自变量↑应变量↑ ,直线上升 │b│↑→越陡→ y随x变化率大 b=0,表示回归直线与X轴平行,即X与Y无直线关系二、直线回归分析的应用条件: 1、XY具有线性相关关系 2、对于每一个确定的X,相应的Y值间独立 3、Y值具有正态性 4、对于任意一组自变量值,因变量Y具有相同的方差,三、直线回归方程的建立、检验与应用,1.建立:最小二乘法原则,使各个实测点到回归直线纵向距离的平方和最小a,b的计算公式由此推导出来 2.应用:在样本数据范围内 3.检验:用样本数据建立的直线回归方程是样本方程,样本方程是否能在总体上反应两个变量之间的直线回归关系,需要对样本方程进行假设检验1)回归方程的假设检验采用方差分析 (2)将总的变异SS总分解为SS回归和SS剩余,然后利用F检验来判断回归方程是否成立4.对回归方程总体进行假设检验以后,需要对回归系数b进行检验 回归系数的检验采用t检验 假设β=0,即X和Y之间不存在依存关系。

5.b为总体回归系数β的点估计,可用公式6-15对总体回归系数β做区间估计6.决定系数(R2) R2 = SS回 /SS总 = (SS总-SS剩 )/SS总 =1-SS剩 / SS总 R2表示y的总变异中被x所决定的部分占多少比例 0≤R2 ≤ 1, → 1,回归效果越好,模型对数据的拟合效果越好,用回归方程进行预测也越有意义R2 是评价回归效果的重要的指标对例题6-1的资料做直线回归分析 1、考察资料是否满足应用条件 2、绘制散点图 3、求直线方程 4、回归方程的假设检验 5、回归系数的假设检验,,6、用决定系数评价回归方程 7、绘制回归直线 8、残差分析 9、回归方程的应用,,表9-1 某地10名三岁儿童的体重与体表面积数据,,P112【SPSS操作】以“(胰岛素)”、“(血糖)”为变量名,建立2列20行数据集li0601.sav (1)正态性检验:Analyze → Descriptive Statistics → explore →胰岛素、血糖入Dependent variable→ plots → Nomality plots with tests →OK (2)作散点图 :Graphs(绘图)→Legacy Dialogs→ Scatter/Dot(散点图)→Simple Scatter→Define,“血糖”→Y Axis(轴)框,“胰岛素”→X Axis(轴)框,→OK。

(3)线性回归: Analyze→Regression→Linear,“血糖→Dependent,“胰岛素”→Independent框→OK 改用影像1-2班统计学与科研方法成绩分析: 正态性检验P=0.000(非正态)→等级相关P=0.000(相关系数rk=0.293,rs =0.405,不用r表达)→直线回归(y=40.63+0.50x ),第五节 多重线性回归 一、多元(多重)线性回归( multiple linear regression) 1个应变量与多个自变量之间线性依存关系 Example:SBP versus age, weight, height, etc,,偏回归系数的含义:β1表示当Ⅹ2, Ⅹ3……等等不变时, Ⅹ1每变动一个单位,因变量Y的平均变动量二、基本条件 ① xy呈线性关系; ② x 互相独立; ③ y正态分布 三、多重线性回归方程的建立:最小二乘法原理 确定n:n应自变量个数m的5倍、最好20倍,否则效能不足 n↑→结果越稳定标准化偏回归系数用来评价每个自变量对因变量的作用大小,绝对值越大,说明相应的自变量对因变量的影响越大多重共线性 1.多重共线性(multicollinearity) :x间线性相关。

2.判别:相关系数r : r>0.8 容忍度(tolerance 1-r2。

下载提示
相似文档
正为您匹配相似的精品文档