《9第九章双变量回归与相关》由会员分享,可在线阅读,更多相关《9第九章双变量回归与相关(101页珍藏版)》请在金锄头文库上搜索。
1、1021第九章双变量回归与相关Linear Regression and Correlation1022双变量计量资料:双变量计量资料:每个个体有两个变量值每个个体有两个变量值 总体:总体:无限或有限对变量值无限或有限对变量值 样本:样本:从总体随机抽取的从总体随机抽取的n n对变量值对变量值 (X1,Y1), (X2,Y2), , (Xn,Yn) 目的:目的:研究研究X X和和Y Y的数量关系的数量关系 方法:方法:回归与相关回归与相关 简单、基本简单、基本直线回归、直线相关直线回归、直线相关1023 ContentContent 1. Linear regression 1. Linear
2、 regression 2. Linear correlation 2. Linear correlation 3. Rank correlation 3. Rank correlation 4. Curve fitting 4. Curve fitting 1024 十九世纪英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现发现:历史背景:1025 儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系
3、: 即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。1026 目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。1027第一节 直线回归1028一、直线回归的概念 目的:目的:研究应变量研究应变量Y对自变量对自变量X的数量依的数量依 存关系。存关系。特点:特点:统计关系。统计关系。 X值和值和Y的均数的关系,的均数的关系, 不同于一
4、般数学上的不同于一般数学上的X 和和Y的函数的函数 关系。关系。1029 例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。10210 表表9-1 8名正常儿童的年龄名正常儿童的年龄 (岁)与尿肌酐含量(岁)与尿肌酐含量 (mmol/24h) 1021110212 在定量描述儿童年龄与其尿肌酐含量数量上的依存关系时,将年龄称为自变量(independent variable),用 X 表示;尿肌酐含量称为应变量(dependent variable),用 Y 表示。10213 由图9-1可见,尿肌酐含量 Y 随年
5、龄 X 增加而增大且呈直线趋势,但并非8个点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其其方方程程叫叫直直线线回回归归方方程程,以区别严格意义的直线方程。以区别严格意义的直线方程。 双双变变量量直直线线回回归归是是回回归归分分析析中中最最基基本本、最最简简单单的的一一种,故又称种,故又称简单回归简单回归。10214直线回归方程的一般表达式为直线回归方程的一般表达式为 为各X处Y的总体均数的估计。102151a 为回归直线在为回归直线在 Y 轴上的截距。轴上的截距。a 0,表表示示直直线线与与纵纵轴轴的的交交点点在在原原点点的的
6、上方;上方;a 0,则则交交点点在在原原点的下方;点的下方;a = 0,则则回回归归直直线线通过原点。通过原点。a = 0a 0XY10216b0,直直线线从从左左下下方方走走向向右右上上方方,Y 随随 X 增增大大而而增大;增大; b0b0b=010217 1021810219二、直线回归方程的求法 残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小(X,Y)10220 1022110
7、222 例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。10223 表表9-1 8名正常儿童的年龄名正常儿童的年龄 (岁)与尿肌酐含量(岁)与尿肌酐含量 (mmol/24h) 10224解题步骤102251022610227 此直线必然通过点此直线必然通过点( , )( , )且与纵坐标轴且与纵坐标轴相交于截距相交于截距 a a 。如果散点图没有从坐标系原。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读点开始,可在自变量实测范围内远端取易于读数的数的 X X 值代入回归方程得到一个点的坐标,值
8、代入回归方程得到一个点的坐标,连接此点与点连接此点与点( , )( , )也可绘出回归直线。也可绘出回归直线。 1022810229三、直线回归中的统计推断10230(一)回归方程的假设检验 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 ?1023110232102331方差分析 10234(X,Y)10235数理统计可证明:10236上式用符号表示为 式中 1023710238上述三个平方和,各有其相应的自由度 ,并有如下的关系: 10239 如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差
9、,大到何种程度时可以认为具有统计意义,可计算统计量 F10240式中102412. t 检验10242 例9-2 检验例9-1数据得到的直线回归方程是否成立? 10243(1)方差分析10244 表9-2 方差分析表 列出方差分析表如表9-2。10245(2)t 检验10246注意:10247(二)总体回归系数 的可信区间 利用上述对回归系数的t检验,可以得到的1双侧可信区间为10248 例9-3 根据例9-1中所得b=0.1392,估计其总体回归系数的双侧95%可信区间。10249(0.1392-2.4470.0304,0.1392+2.4470.0304)=(0.0648,0.2136)1
10、0250(三)利用回归方程进行估计和预测 10251(9-15) (9-14) 反映其抽样误差大小的标准误为10252(9-16) (9-17) 10253两条实曲线总体均数的可信区间;两条虚曲线个体Y值的预测区间,范围更宽。二者都是中间窄,两头宽;都在X= 处最窄。10254 例9-4 用例9-1所得直线回归方程,计算当X0=12时, 的95%可信区间和相应个体值的95%预测区间。10255计算步骤例9-1、例9-2已计算出 1025610257第二节 直线相关10258 直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布
11、(bivariate normal distribution)资料。其性质可由图9-6散点图直观的说明。 目的:研究 两个变量X,Y数量上的依存(或相关) 关系。 特点:统计关系一、直线相关的概念10259二、相关系数的意义与计算 1. 意义:相关系数意义:相关系数(correlation coefficient)又称)又称Pearson积差相关系数,用来说明具有直线关系的两积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。变量间相关的密切程度与相关方向。相关系数没有单位,其值为相关系数没有单位,其值为-1 -1 r r 1 1。r r值为正值为正表示正相关,表示正相关,r
12、 r值为负表示负相关,值为负表示负相关,r r的绝对值等的绝对值等于于1 1为完全相关,为完全相关,r r=0=0为零相关。为零相关。 10260102612. 计算:样本相关系数的计算公式为(9-18) 10262由例9-1算得,按公式(9-18) 例9-5 对例9-1数据(见表9-1),计算8名儿童的尿肌酐含量与其年龄的相关系数。10263三、相关系数的统计推断(一)相关系数的假设检验(9-19)10264 例9-6 对例9-5所得 r 值,检验尿肌酐含量与年龄是否有直线相关关系?10265检验步骤本例n=8,r=0.8818,按公式(9-19)10266(二)总体相关系数的可信区间 10
13、267具体步骤如下10268 例9-7 对例9-5所得r值,估计总体相关系数的95%可信区间。 再按公式(9-22)将z作反变换,得到年龄与尿肌酐含量的总体相关系数95%可信区间为(0.4678,0.9971)。 10269四、决定系数(coefficient of determination) 定义为回归平方和与总平方和之比,计算公式为:(9-23) 取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。 1027010271五、直线回归与相关应用的注意事项10272 1根据分析目的选择变量及统计方法 直线相关用于说明两变量之间直线关系的
14、方向和密切程度,X与Y没有主次之分; 直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。 两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。10273102742进行相关、回归分析前应绘制散点图第一步(1) 散点图可考察两变量是否有直线趋势;(2) 可发现离群点(outlier)。 散点图对离群点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至
15、过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。102753资料的要求 直线相关分析要求 X与Y 服从双变量正态分布; 直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量; * 对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。10276 反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数的绝对值,而不是假设检验的P值。 P值越小只能说越
16、有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。4结果解释及正确应用 10277第三节 秩相关(非参数统计方法) 10278适用条件: 双变量计量资料:双变量计量资料: 资料不服从双变量态分布; 总体分布型未知,一端或两端是不确定数值(如10岁,65岁)的资料;原始数据(一个或两个变量值)用等级表原始数据(一个或两个变量值)用等级表示的资料。示的资料。10279一、Spearman秩相关 1. 意义:等级相关系数 rs 用来说明两个变量间直线相关关系的密切程度与相关方向。102803. 计算公式 (9-25
17、) (9-26) 1028110282表9-3 某省1995年到1999年居民死因构成与WYPLL构成10283检验步骤10284二、相同秩较多时 rs 的校正公式中Tx(或TY)(t3t)/12,t为X(或Y)中相同秩的个数。显然当TxTY0时,公式(9-27)与公式(9-25)相等。 (9-27) 10285、 (9-18)PiXQiY10286第六节 曲线拟合 (curve fitting)10287 医学现象中并非所有的两变量间关系都表现为前面所述的直线形式,其较为典型的是服药后血药浓度时间曲线或毒理学动物实验中动物死亡率与给药剂量的关系就非直线形式。 当发现散点图中应变量 Y 和自变
18、量 X 间表现出非线性趋势时,可以通过曲线拟合方法来刻画两变量间数量上的依存关系。 10288一、曲线拟合的一般步骤10289此处决定系数R2定义为 (9-51)10290 例9-13 以不同剂量的标准促肾上腺皮质激素释放因子CRF(nmol/L)刺激离体培养的大鼠垂体前叶细胞,监测其垂体合成分泌肾上腺皮质激素ACTH的量(pmol/L)。根据表9-10中测得的5对数据建立CRF-ACTH工作曲线。1029110292对数曲线?对数曲线:10293102941029510296指数曲线?指数曲线:102971029810299三、常见的几种曲线拟合102100对数曲线 指数曲线 抛物线 S型曲线 102101