多元回归分析应注意的两个问题.pdf

上传人:飞****9 文档编号:136866408 上传时间:2020-07-03 格式:PDF 页数:5 大小:459.12KB
返回 下载 相关 举报
多元回归分析应注意的两个问题.pdf_第1页
第1页 / 共5页
多元回归分析应注意的两个问题.pdf_第2页
第2页 / 共5页
多元回归分析应注意的两个问题.pdf_第3页
第3页 / 共5页
多元回归分析应注意的两个问题.pdf_第4页
第4页 / 共5页
多元回归分析应注意的两个问题.pdf_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《多元回归分析应注意的两个问题.pdf》由会员分享,可在线阅读,更多相关《多元回归分析应注意的两个问题.pdf(5页珍藏版)》请在金锄头文库上搜索。

1、体育科研中运用多元回归分析时应注意的两个问题体育科研中运用多元回归分析时应注意的两个问题 【说明】 目前在体育科研中, 有些人在做多元回归分析时, 还是经常出现错误。 因此, 很有必要将我 1988 年在全国体育统计学会报告会上发表的论文,供大家参考。 回归分析是研究变量之间的相关关系的一种数理统计方法。 在体育领域中存在着大量 多因素(变量)的问题。所以,近年来体育科研中多元回归和逐步回归分析方法运用得越来 越多了。 回归分析主要可用于解决下列问题: (一)确定几个变量之间是否存在相关关系确定几个变量之间是否存在相关关系。如果存在,则找出它们之间合适的数学 表达式回归方程。如在体质研究、运动

2、员选材研究中为了研究各项形态、机能、素质指 标之间的相关关系, 常常通过大样本统计数据计算各指标之间的相关系数ij, 并建立各指 标 之间的回归方程。 如 1979 年全国体质调研后建立了 1825 岁男青年的身高、 体重对肺活量 的二元回归方程: 270827.89135.562 (肺活量) (身高) (体重) (二)根据回归方程用一个或几个自变量的值预测或控制另一个因变量的取值用一个或几个自变量的值预测或控制另一个因变量的取值。对于 一些不容易测的指标,可以通过建立回归方程用几个比较容易测的指标来推测它的估计值。 如果自变量选得恰当, 这样的回归方程是很有实用价值的。 如北京体院高强等人研

3、究建立了 推测快肌纤维百分比的三元回归方程: 5.9035.53 118.2 2一 6.41 3 (快肌) (相对肌力) (MPE ) (IEMG) 只要进行肌肉力量和肌电图的几项测试,就可以实现肌纤维成分的无损伤测定。 (三)进行因素分析进行因素分析。当许多个变量(因素)都对某一个变量有影响时,可以通过回归 分析找出其中哪几个是重要因素, 哪几个是次要因素。 如对田径十项全能世界级优秀运动员 的十项全能总分和十个单项成绩进行逐步回归计算,从中可筛选出四个比较重要的项自是: 400 米、铅球、110 米栏、跳高。有的研究还根据多元回归方程的系数i。或标准回归系数 i 来确定各指标的“权重” 。

4、 但是, 近来在运用多元回归和逐步回归的研究论文中也出现了一些对回归分析的运用条 件注意不够的问题。 一、样本含量和自变量个数一、样本含量和自变量个数 k k 之间的关系问题之间的关系问题 复相关系数是检验多元回归方程效果的重要指标。 一般讲, 越接近即表示回归方 程的效果越好。因此当计算的结果值接近时,有些作者就立即认定计算结果十分理想。 如“广东省少体校游泳运动员因素分析与运动模型, (1983 年全国体育统计报告会论文) 一文中, 男 1516 岁组自由泳成绩与形态机能指标的十元回归方程0.999, 十三元回归 方程。又如“对男秀篮球运动员五大关节活动幅度与运动成绩逐步回归的探讨” (体

5、育科学 86 年期)一文中,辽宁男篮队员运动成绩与四项关节活动幅度建立的四元回 归方程0.995, 辽宁女篮队员运动成绩与七项关节活动幅度建立的七元回归方程。 作者都认为回归方程十分理想,并根据回归方程作了进一步的分析和结论。但是,再看回归 方程中各个指标与因变量()的相关系数则发现有许多指标和是不相关的(p0.05) 。 可见, 接近的原因并不是这些指标和相关程度极高, 而是作者用于计算的样本 n 太小 (游泳一文15,篮球一文10) 。 在体育统计方法及一些数理统计书中,都指出:复相关系数 R 与多元回归方程中自 变量的个数 k 及样本含量 n 有关。当 n 相对于 k 并不很大时,常有较

6、大的 R,当 n=k+1 时, 即使这 k 个自变量与 Y 并不相关,也会 R1。 如设变量 Y 与另外 K 个变量 1, 2k 的内在联系是线性的,它的第 次测试 数据是: (a,a1,a2,ak) a1,2,n 则这一组数据可以有如下的结构式: 10111212k1k1 20121222k2k 2 n01n12n2knk n 其中:0,1是 K+ 1 个待估计参数,1,2,k 是 K 个可以精确测得 的变量,1, 2, n 是 n 个相互独立且服从正态分布 N( , )的随机变量,这就 是多元回归的数学模型。把它写成矩阵形式: 用最小二乘法原理,建立正规方程,可解出 bo,bl,bk。它们

7、是参数0,1 k的最小二乘估计,则多元回归方程为: bob11b22bkk 计算 bo, b1, b2,,bk 时要计算下列四个矩阵:X,A,C,B 其中:X 是 n 组侧试数据 Ya 的结构矩阵,AXX 是正规方程组的系数 L ij 矩阵, CA -1 是系数矩阵 A 的逆矩阵, B 是正规方程组的常数项 Liy 矩阵。 多元回归的系数 b=A -1 B可见,多元回归方程的系数 bi 的解是和所侧得的原始数据的 组数(样本含量)n 紧密相系的。可以推导出:当 n=k + 1 时,结构矩阵 X 是方阵,这时解 出的 bi,即使 X,和 Y 全都不相关,仍可以得到:Q=E(Y-Y)0 亦即:U=

8、 bi LijLyy 所 以 Rsqrt(U/Lyy)1。 为了用计算实例来说明以上的理论推导,我们随机抽取了 K=34,n10 的一个样本。其 中大部分 X 和 Y 是不相关的(即 r iy 的值,经检验为 P0.05) 。选取其中 9 个和 Y 不相关 的 X 作九元回归计算, riy 最小的为一 0.011,最大的为 0.471,均为 P0.05,计算结果见表 1, 虽然每个 X 的偏回归平方和 Pi 作 F 检验时,都是 P0.05,但复相关系数 R0.9999975。 把多元回归的 X 增加到 15,20 和 34 个时,R 值分别为:0.9999891,1.000009,1.000

9、0830 可见当样本含量 n 太小与自变量个数 K 的比例不恰当时,解出的 bi 是不能正确地反映各自 变量和 Y 之间的内在关系的。 如果用这样的多元回归方程为依据去分析和作结论, 就一定会 产生谬误。 表 1: K9 n10 的多元回归计算结果 i b i P i F i R iy B iLiy 0 -60.35889 1 0.3407009 1.023885 6.017856 E-39 -0.094 -2.166176 2 1.517284 4.210444 2.474677 E-38 -0.329 26.610420 3 2.002341 3.569278 2.097833 E-38

10、-0.011 -1.657173 4 0.2552928 0.0514697 0 -0.201 -0.2532503 5 -6.171681 2.057776 1.209452 E-38 0.148 -16.49322 6 1.620504 2.74502 1.613378 E-38 0.471 12.78416 7 -0.08038962 0.0523418 0 0.068 -0.2451078 8 1.835966 1.7869 1.050245 E-38 0.065 4.7166 9 -2.215276 2.497759 1.468051 E-38 0.160 13.23939 R=0

11、.9999975 Lyy10.05696 U10.05692 有的数理统计专著上提出: n 应是 K 的 510 倍, 这是我们在计算时应特别注意的问题。 体育科研中,特别是研究优秀运动员的时候,样本含量一般都比较小。而希望分析与专 项成绩有关的指标时,又常常取许多个 Xi,所以,K 和 n 的比例常是一个大问题。 我们认为:在运用多元回归分析时,首先应尽可能地扩大样本含量 n,特别要注意 n 与 K 的比例。其次,在算出多元回归方程后,不仅要看 R 值的大小(或对方程作方差分析后的 F 值大小) ,还必须仔细看一下每个自变量的 Pi 的 F 检验结果,以决定这个方程是否具有实 用价值。 二、

12、自变量之间相关的问题二、自变量之间相关的问题 在体育科研中常常运用多元回归或逐步回归来进沂因素分析。即从许多个自变量 Xi 中 分析哪几个是影响 Y 的主要因素,哪几个是影响 Y 的次要因素。 按照回归分析的原理,在多元回归中,回归平方和 U 是所有自变量对 Y 变差(波动)的 总贡献。在原有的自变量中减去一个自变量后,U 就会减小,减小的数值越大,就说明这个 自变量对 Y 的作用越大。所以,把取消一个自变量后,回归平方和 U 减少的值称为:Y 对这 个自变量的偏回归平方和 Pi。但是,通常情况下由于自变量之间互相存在着相关关系,所 以 PiU,只有当各自变量之间的相关系数 rij=0 即正规

13、方程的系数矩阵为对角阵(除主 对角线元素 L11,L22,Lkk 外其余元素全为 0)时,才有 U Pi。 通过计算偏回归平方和 Pi 后可以作比较,Pi 值越大的自变量对 Y 的作用就越大。如果 Pi 经 F 检验为 P0.05,就可认为它对 Y 的影响不显著。但是,这样用 Pi 来进行比较的前 提是:各自变量之间的相关程度应该很小,即 r ij 的绝对值都不大,其分析结果才正确。 可是,体育科研中对许多指标作回归分析时,往往自变量之间的相关程度都很高。如以 100 米跑成绩为 Y,分析各项形态、机能、素质指标和 100 米跑成绩之间的关系时,形态指标 中的身高、指距、下肢长这类长度指标之间

14、的 rij 都在 0.8 一 0.9 左右,体重和胸围、 上臂紧张围、 大腿围等围度类指标之间的 rij 约在 0.8-0.9 之间, 素质指标中 30 米跑、 立定跳远、纵跳之间的 rij 也在 0.7左右。如果计算者不注意自变量之间的相关性的 问题,按计算的结果下结论,也会出现错误的。 因为,假设在一个多元回归中,X1 和X2 对Y 的影响都很大,但是它们之间高度相关。 由于 X1 对 Y 的影响中很大部分可以从 X2对 Y 的影响中反映出来, 这时如从回归方程中减去 X1,U 并不会减小很多,即 P1的值一定不大,同样的理由,P2 也不会很大。因此,这时看 P1、P2 的值就不能正确地反

15、映出 X1, X2 对 Y 的重要性。 我们在一次四元回归计算中遇到这样一个实例(n=31) ,四个变量和 Y 之间的相关系数 如表 2: 由表 2 可见, X1 与 X2 的相关系数 r12=0.949 呈高度相关, 而其他 Xi 之间不 仅相关系数 rij 的绝对值较小 而且 P0. 05,即相互之间相关不显著。 再看表上 r3y0 245 (P0. 05) ,即 X3 与 Y 相关不显著。但做四元回归计算出的 Pi(见表 3) ,P2P3 而且对 P2 作 F 检验,F:0528( P0.05),似乎可得出结论 X2 对 Y 的影响比 X3 小,而且由于 经 F 检验不显著应把 X2 剔除。 表 2 X 2 X 3 X 4 Y X 1 0.949 * 0.151 -0.120 -0.499 * X 2 0.188 -0.099 -0.434 * X 3 0.190 0.245 X 4 0.741

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号