正交回归(正交多项式回归)多项式回归虽然是一种有效的统计方法,但这种方法存在着两个缺点:一是计算量较大,特别是当自变量个数较多,或者自变量幂较高时,计算量迅速增加;二是回归系数间存在着相关性,从而剔除一个变量后还必须重新计算求出回归系数当自变量 x 的取值是等间隔时,我们可以利用正交性原理有效地克服上述缺点这种多项式回归方法就是本节将要介绍的正交多项式回归一、正交多项式回归的数学模型设变量 y 和 x 的 n 组观测数据服从以下 k 次多项式(2-4-17)令(2-4-18)… 分别是 x 的一次、二次,…k 次多项式,a ij 是一些适当选择的常数,如何选择将在下面讨论(i=1,2,…,n)将(2-4-18) 式代入(2-4-17) 式,则有(2-4-19)比较(2-4-19) 和(2-4-17)式可知,二者系数间存在简单的函数关系,只要求出 ,就可以求出 若把 … 看作新的自变量,则(2-4-19)式就成为一个k 元线性模型,其结构矩阵为(2-4-20)正规方程为(2-4-21)(2-4-22)其中在上节中我们遇到的困难是解正规方程系数矩阵的工作量太大,如果我们有办法使其对角线上的元素不为零,而其余元素均为零,那么计算就大大简化了,而且同时消去了系数间的相关性。
对于 … 我们可以通过选择系数 a10,a21,a20,…,ak,k-i,…,ak0 使得(2-4-23) (2-4-24 )从而使则正规方程组为(2-4-29)回归系数为(2-4-30)满足(2-4-23) 和(2-4-24)式的多项式组 … 我们称之为正交多项式显然这里关键的问题是如何找出一组正交多项式换言之,就是如何选择系数 a10,a21,a20,…,ak,k-i,…,ak0 使(2-4-23)和(2-4-24)式成立在正交多项式回归中自变量的选择是等间隔的,设间隔为 h,x0=a, 则(2-4-31)若令(2-4-32)则(2-4-33)由此可见, 是 1 至 n 的正整数只要我们用 代替 x 作为自变量,问题就变得简单了在条件许可时,为简便起见我们在选取自变量时可直接取x1=1,x2=2,…,x n=n当 x1=1,x2=2,…,x n=n 时有这时可验证以下多项式是正交的,即 (2-4-34)显然,当 x 取正整数时, 不一定是整数,为了克服这给计算上带来的困难,取(2-4-35)为这样一个系数,它使 x 取正整数时 是整数可以验证用正交多项式 代替 所求得的回归方程与用正交多项式 所求得的回归方程是完全一样的。
对于正交多项式 有(2-4-36)不同的 n 相对应的 , 在 时的值以及 Si 值都已制成正交多项式表(见附录) ,根据正交多项式表,可以计算出回归方程的系数令(2-4-37)则 回归方程为(2-4-40)由于正交多项式回归系数之间不存在相关性,因此某一项如果不显著,只要将它剔除即可,而不必对整个回归方程重新计算二、回归方程与回归系数的显著性检验正交多项式回归方程与回归系数的显著性检验可利用正交多项式的性质按表 2-4-5 进行经检验不显著的高次项可以剔除,将其效应并入残差平方和,自由度也同时并入,如果对回归方程精度不满意,可以增加高次项,而已经计算出的结果不必重算表 2-4-5 正交多项式回归方差分析表 一、应用举例我们仍以例 2-4-2 为例讨论正交多项回归的应用由图 2-4-3 我们知道,y 是 x 的二次函数,现在我们利用正交多项式方法配一个三次多项式首先做变换 其中 a=36.5,h=0.5,则 然后查正交多项式表,将 n=13 表中 数据抄录下来计算:将以上结果列于计算表,见表 2-4-6表 2-4-6 计算表 由表 2-4-6 可得S 总 = Lyy= S 残 =L yy-S 回 =L yy- =0.8139b0= 方差分析结果列于表 2-4-7。
表 2-4-7 方差分析表 查 F 分布表, F0.01(1,9)=10.6,F0.05(1,9)=5.12,对照表 2-4-7 可知,一次项显著,二次项高度显著,三次项不显著,故可将三次项剔除,并将三次项的偏回归平方和并入残差项多项式回归方程为为了利用回归方程进行予报和控制,常需要求出 的估计值当存在不显著项时,估计方法如下:本例中故 二、正交多项式回归分析程序框图1.数学模型2.变量及数组说明J-正确读入数据的控制变量N-试验组数M-所取正交多项式项数X(I)-存自变量数值Y(I)-存因变量数值Z(I)-存 Y(I)的平方项E(I,1)-存在正交多项式一次项 E(I,2)-存在正交多项式二次项 E(I,3)-存在正交多项式三次项 (其中 I=1,…N)S(J)-结构矩阵逆矩阵元素 J=1,2,3B(J)-常数项矩阵 B J=1,2,3D(J)-回归系数 J=0,1,2,3Q(J)-偏回归平方和 J=0,1,2,3S0-剩余平方和S-标准离差S1-总平方和F(J)-F 检验值3.程序框图: 。