小二乘及偏最小二乘的参数估计方法-v

资源描述

《小二乘及偏最小二乘的参数估计方法-v》由会员分享，可在线阅读，更多相关《小二乘及偏最小二乘的参数估计方法-v（83页珍藏版）》请在金锄头文库上搜索。

1、2019/3/2,化工过程动态数学模型（化工与环境学院）,1,化工过程动态数学模型硕士研究生课程-2010 陈祥光,2019/3/2,化工过程动态数学模型（化工与环境学院）,2,第6章最小二乘及偏最小二乘的参数估计方法 6.1 最小二乘整批算法 6.2 最小二乘递推算法 6.3 实验数据处理 6.4 问题提出及最小二乘原理 6.5 偏最小二乘的基本含义 6.6 偏最小二乘的重要性 6.7 应用举例 6.8 单因变量的偏最小二乘回归模型,2019/3/2,化工过程动态数学模型（化工与环境学院）,3,第6章最小二乘及偏最小二乘的参数估计方法,最小二乘法自高斯在1795年提出以来，已有二百多年

2、的历史，但至今仍广泛用于参数估计。其主要原因是这种方法简单方便，而且是其他几种方法的基础。,上式中：Y量测向量；参数向量；H量测矩阵 e考虑量测误差的随机向量。,2019/3/2,化工过程动态数学模型（化工与环境学院）,4,例如：当模型形式为 Y=a1x1+a2x2+anxn,一共进行了N 次量测时：,实际过程 (或装置),2019/3/2,化工过程动态数学模型（化工与环境学院）,5,上式中R-1 是加权矩阵，在此讨论R=I（单位矩阵）时的最小二乘估计。为了使J成为最小值，取,现在要使下列目标函数J为最小时，求出参数的估计值,（6-2）,一般情况下，量测次数N远大于待估计的参数的数目n。,2

3、019/3/2,化工过程动态数学模型（化工与环境学院）,6,（2）动态模型算法,考虑单输入单输出（SISO）线性系统，用后移差分算符q-1 表示的脉冲传递函数是：,（6-4）,考虑到量测噪声的存在，（6-4）式可写成：,（6-5）,上式中：k是采样次数，y是输出，u是输入，e是考虑噪声或不确定性的随机变量。,2019/3/2,化工过程动态数学模型（化工与环境学院）,7,该系统的框图如6-1所示：,图6-1 辨识系统示意图,假定e(k)是独立的，零均值随机变量序列，而且在不同的k 值下有相同的分布。如果采样次数从(1-n)至k，一共进行了(n+k)次时量测，则对y(k)可得出下列方程：,20

4、19/3/2,化工过程动态数学模型（化工与环境学院）,8,（6-6）,可以看出，上式与（6-1）式很相似，在得到k次采样数据后的最小二乘估计值可象（6-3）式一样求取：,2019/3/2,化工过程动态数学模型（化工与环境学院）,9,（6-7）,2019/3/2,化工过程动态数学模型（化工与环境学院）,10,上述的算法是在取得整批数据后，一次求取参数的估计值。在采样次数k值大的时候，矩阵HTH的计算比较费时，在模型阶次n高时，(HTH)求逆的计算工作量很大。,6.2 最小二乘递推算法,值得注意的是：如果取得新的测量数据，需对估计值进行修正时，必须从头算起，完全不能利用原来的计算结果。,在

5、很多应用中，在有些自适应系统中，需要依据动态模型参数的估计值来确定控制作用，必须不断依据新的数据来修正参数估计值。这就要求采用递推算法。,2019/3/2,化工过程动态数学模型（化工与环境学院）,11,（6-8）,（1）基本的递推算法递推算法的一般形式是：,2019/3/2,化工过程动态数学模型（化工与环境学院）,12,（2）式（6-8）的物理意义：在收到新的量测值后，要依据实际 y值与预报值之差，对参数的估计值进行适当的修正。,在此，关键的问题是如何确定Kk+1，这在不同的算法中有不同的解答。如果Kk+1的修正过于强烈，估计值将波动较大，甚至不能收敛；但如果过于微弱，则需要经过很多

6、次采样后，才能接近可靠的估计值。,2019/3/2,化工过程动态数学模型（化工与环境学院）,13,在式（6-10）中，是个纯量，项成为简单的求倒数计算，只不过要有了，的计算就不困难。,（6-10）,但是，作为完整的算法，对P(k+1)也要有个递推算式，才能满足下一采样后进一步修正估计值的计算中的需要。由矩阵求逆引理可以导出：,（6-11）,递推算法：已有数据求P(k)求Kk+1由， ,2019/3/2,化工过程动态数学模型（化工与环境学院）,14,以上的递推算法尽管在计算步骤上与整批算法不同，但计算结果是相同的，对所采集的各组数据，对最终结果起着同等程度的影响。在许多情况下

7、，例如对于时变的系统，需要逐步减少老数据的作用，加强新数据的地位。,一种办法是对数据组数作限制，一直规定为k，在收到第 (k+1)组数据后，把第1组数据弃掉，吐故纳新。另一种常用的办法是引入遗忘因子。把记忆中的数据乘上小于1的数，犹如逐渐淡忘一样。采用遗忘因子的算法步骤如下：,2019/3/2,化工过程动态数学模型（化工与环境学院）,15,依据过去已有的数据，求取P(k)和，如：,（6-12）,也可按照某些初值假定，如，等,2019/3/2,化工过程动态数学模型（化工与环境学院）,16,计算新的P值,（6-15）,这样，构成一个完整的算法，一步一步计算，可设的值在01之间，通

8、常取0.951。如 =1，则对新旧数据一视同仁值越小，对旧的数据遗忘越快。,2019/3/2,化工过程动态数学模型（化工与环境学院）,17,将现场测试得到的数据直接代入回归方程，所得到的结果一般是不正确的。其原因是：目标函数同生产变量之间不一定都是线性关系，如下图6-2所示的实验数据分布：,6.3 实验数据处理,2019/3/2,化工过程动态数学模型（化工与环境学院）,18,从以上的实验数据分布图可知：只有图(a)是线性关系。因此，在进行实验数据收集之前，建议进行有目的的试验，以找出目标函数y同各个过程变量的定性关系。有目的试验的最简单的方法是固定所有的有关变量，仅让其中一个变量变化，

9、观察目标函数(或称目标变量)同此变量的关系。,2019/3/2,化工过程动态数学模型（化工与环境学院）,19,实验数据的处理通常需要从几组测定的数据（例如N个点xi,yi）去求数据拟合的问题。这种方法在有些场合称为线性回归问题，在系统辨识中称为参数据计。,6.4 问题提出及最小二乘原理,由于在实验中给出的数据总是有观测误差的，如果要求估计曲线通过所有的点，那么会使曲线保留全部观测误差的影响，这与古典的数据拟合方法是不相符的，由于数据拟合方法不要求曲线通过所有的点（xi, yi），而是根据这些数之间的相互关系，用其它方法给出它们之间合适的数学公式，绘出一条近似曲线，以反映给定数据的一般趋势。,

10、2019/3/2,化工过程动态数学模型（化工与环境学院）,20,假设生产过程中，某一因变量与自变量之间的关系，通过实际测定。如下表6-1所示：,表 6-1 实际测定数据表,2019/3/2,化工过程动态数学模型（化工与环境学院）,21,把x, y的观测值标在坐标纸上，每组数据（x, y）在图中以一个星点表示，这种图称为散点图，从散点图可直观地看出两个变量之间的大致关系。,x,y,图6-3 散点图,2019/3/2,化工过程动态数学模型（化工与环境学院）,22,从以上的图可以看出x与y之间大致呈线性关系，因此，可用一条直线来表示两者之间的关系，即设 y = a + b x (6-16),若取式（

11、6-17）中的第2和第24两方程联立起来：,解得：a = -0.4, b = 0.85,2019/3/2,化工过程动态数学模型（化工与环境学院）,23,但是，当选取不同的点值时，得到的a 、b值就不同，这说明解不是唯一的！假定用某种方法把a 和 b确定下来，这时有了x就可以算出y值，可记为：,（6-18）,当然，这样得到的与不一定相同，把两个数据之差记为,（6-19）,可以有许多方法来确定最好的a和b参数，但常用的是最小二乘原理，即使误差平方和达到最小。即,2019/3/2,化工过程动态数学模型（化工与环境学院）,24,为了求出a 和 b的最好值，把（6-19）式代入（6-20）式，可得

12、,（6-20）,（6-21）,2019/3/2,化工过程动态数学模型（化工与环境学院）,25,整理（6-22）式可得：,（6-23）,2019/3/2,化工过程动态数学模型（化工与环境学院）,26,从向量和矩阵的角度来讨论最小二乘估计，即,则：,（6-25）,（6-26）,2019/3/2,化工过程动态数学模型（化工与环境学院）,27,由（6-27）式可知：,由于量测矩阵H的秩为2，与被估计量的维数相等，其逆存在，因此，利用公式（6-26）可得最小二乘估计为：,2019/3/2,化工过程动态数学模型（化工与环境学院）,28,因此：,例6-2. 对于时变系统的参数估计： y(k)+a(k)y(k

13、-1)=b(k)u(k-1)+e(k) a(k), b(k)具有以下的数值： a(k)=0.8, b(k)=0.5, 当0k300 a(k)=0.6, b(k)=0.3, 当k300,2019/3/2,化工过程动态数学模型（化工与环境学院）,29,e(k)为零均值白噪声，利用上述的递推算法估计时变参数：,2019/3/2,化工过程动态数学模型（化工与环境学院）,30,从上面的图6-3a和6-3b可以看出：当的值取得较小时，参数估计变化较快，但对噪声的跟踪能力也大。当的值取较大时，参数估计变化较慢，但最后估计精度较高。,2019/3/2,化工过程动态数学模型（化工与环境学院）,31,已知整批

14、的最小二乘估计公式为：,（6-28）,2019/3/2,化工过程动态数学模型（化工与环境学院）,32,可以证明，从第n+1组数据就可以利用公式(6-29)、(6-30) 进行递推。,注：在利用公式(6-29)、(6-30)进行递推计算时，需要一组初值或和。通常可利用公式（6-28）计算出一组初值，也可以根据历史数据选择一组初始值。如果没有任何历史数据可供参考的话，那么可设：,2019/3/2,化工过程动态数学模型（化工与环境学院）,33,其中的是充分大的正数，通常选择，可以证明，经过相当次数的推递之后，这种初始值的影响就逐渐消失，而得到满意的估计值。,递推最小二乘法的计算

15、框图如下：,图6-4 递推最小二乘法程序框图,2019/3/2,化工过程动态数学模型（化工与环境学院）,34,例6-3. 基于递推最小二乘法所需要的存储单元数，考虑二阶线性动态模型：,在输入n组数据时，从第n+1组数据开始推递计算：,2019/3/2,化工过程动态数学模型（化工与环境学院）,35,从第3组数据开始递推：从上面的计算过程可见，递推最小二乘法，每一步需要存储单元的数目是：,2019/3/2,化工过程动态数学模型（化工与环境学院）,36,6.5 偏最小二乘的基本含义,偏最小二乘回归是一种新型的多元统计分析方法, 它于1983 年由伍德（S.Wold）和阿巴诺（C.Albano）

16、等人首次提出。伍德教授执教于瑞典的Umea大学有机化学系，在他的指导下，发表了多篇有关偏最小二乘回归理论和应用的论文，并开发了相关软件，用以支持偏最小二乘回归的计算和结果解释。也正因此，偏最小二乘回归首先在化工领域得到广泛应用。 1996年10月在法国巴黎召开一次有关偏最小二乘回归方法理论与实践的学术研讨会。美国密西根大学（Michigan Univer- sity）的弗耐尔（Fornell）教授称偏最小二乘回归为第二代回归分析方法。,2019/3/2,化工过程动态数学模型（化工与环境学院）,37,6.6 偏最小二乘的重要性,偏最小二乘回归方法在统计应用中的重要性有：偏最小二乘回归是一种多因变量对多自变量的回归建模

展开阅读全文