机器学习中用到的数值分析

上传人:m**** 文档编号:459152633 上传时间:2023-06-15 格式:DOCX 页数:17 大小:241.67KB
返回 下载 相关 举报
机器学习中用到的数值分析_第1页
第1页 / 共17页
机器学习中用到的数值分析_第2页
第2页 / 共17页
机器学习中用到的数值分析_第3页
第3页 / 共17页
机器学习中用到的数值分析_第4页
第4页 / 共17页
机器学习中用到的数值分析_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《机器学习中用到的数值分析》由会员分享,可在线阅读,更多相关《机器学习中用到的数值分析(17页珍藏版)》请在金锄头文库上搜索。

1、第四章背景知识condition number从优化或者数值计算的角度来说,L2范数有助于处理condition number不好的情况下矩阵 求逆很困难的问题。(=|刘心|如果方阵A是奇异的,那么A的condition number就是正无穷大了。实际上,每一个可 逆方阵都存在一个 condition numbero对condition number来个一句话总结:condition number是一个矩阵(或者它所描述的线性 系统)的稳定性或者敏感度的度量,如果一个矩阵的condition number在1附近,那么它 就是well-conditioned的,如果远大于1,那么它就是ill

2、-conditioned的,如果一个系统是 ill-conditioned的,它的输出结果就不要太相信了。应用如果当我们的样本X的数目比每个样本的维度还要小的时候,矩阵X T X将会不是满秩 的,也就是XTX会变得不可逆,所以w八 就没办法直接计算出来了。如果加上L2规则项,就变成了下面这种情况,就可以直接求逆了:ib = (XrX-XI)1XTbcondition number 一般在矩阵里被定义做最大singular value和最小singular value的比值。一般说来,如果一个矩阵的condition number大于1000, 数值计算inv(A)或者解线性方程AX=Y可能会遇

3、到严重的舍入问题,这样的问题通常被称为ill-conditionedo最简单的解决方法是把A的diagonal entries都加上一个微小量delta以后再计算一一这样做虽然会引入误差,但是可以改善ill-conditiono梯度设体系中某处的物理参数(如温度、速度、浓度等)为w,在与其垂直距离的dy处该参数为 w+dw,则称为该物理参数的梯度,也即该物理参数的变化率。如果参数为速度、浓度、温 度或空间,则分别称为速度梯度、浓度梯度、温度梯度或空间梯度。其中温度梯度在直角坐 标系下的表达式如右图。Ox dy ds 在向量微积分中,标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长

4、 最快的方向,梯度的长度是这个最大的变化率。更严格的说,从欧氏空间Rn到R的函数的 梯度是在Rn某一点最佳的线性近似。在这个意义上,梯度是雅戈比矩阵的一个特殊情况。 在单变量的实值函数的情况,梯度只是导数,或者,对于一个线性函数,也就是线的斜率。 梯度一词有时用于斜度,也就是一个曲面沿着给定方向的倾斜程度。可以通过取向量梯度和 所研究的方向的点积来得到斜度。梯度的数值有时也被称为梯度。在二元函数的情形,设函数z=f(x,y)在平面区域D内具有一阶连续偏导数,则对于每一点 P(x,y)ED,都可以定出一个向量(Sf/x)*i+(Sf/y)*j这向量称为函数z=f(x,y)在点P(x,y)的梯度,

5、记作gradf(x,y)类似的对三元函数也可以定义一个:(S f/x)*i+( 6 f/y)*j+( 6 f/z)*k记为gradf(x,y,z)梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值, 即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。方向导数(directional derivative的通俗解释是:我们不仅要知道函数在坐标轴方向上的变化率方向与(即偏导数),而且还要设法求得函数在其他特定方向上的变化率。而方向导数就是函数在其他特定方向上的变化率。 定义方向导数的精确定义(以三元函数为例):设三元函数f在点P0 (x0,

6、y0,z0)的某邻域内 有定义,l为从点P0出发的射线,P (x,y,z)为l上且含于邻域内的任一点,以P(rou) 表示P和P0两点间的距离。若极限lim ( (f(P)-f(P0) / P ) = lim (Al f / p)(当 P0 时)存在,则称此极限为函数f在点P0沿方向l的方向导数。雅可比矩阵Jacobian矩阵和Hessian矩阵1. Jacobian在向量分析中担可L德阵岩书倘昙数以一定方式日咧成的炬阵.其行列式称为雅可比行列式一还有. 在f蔑几何中,代数曲城的雅可t僵表示推可t窗:伴随该曲线的一心理群;曲线可以嵌入其中一它 们全帑都以戳学家卡尔短可比(CM 屁口b 304年

7、1明4日 僦1年?月18曰命名;英支雅可比 rJacobianT可以发言为ja ko bi mn回暗虫白to bi an.雅可比斐阵雅可t好阵的重要性在于它砰说了一可微方程或给出点的最忧统性逼近.因此,雅可比矩阵奘以阵 元匣数的导簌.假设E:巩 T从更式n维空间转诲!IE5I式e维空司的函数一应个函数由m个实函散色成y1 (x1r.,xn): ., ym(x1.Kn). /些函敞的肩导寂(如果存在;可以纽成一个布n列的矩阵;这就是所 的雅可比矩阵;-也.官如1目疏 _ : 8 :此炬阵表示为.介:.,),或者:叫项-牛两J逮个矩阵的卸行是由梯京函数的转藏i (i -1,., rn津示的.如杲p

8、金&中的一点F在p点可微分,那么在这一点的导数由,Zr(p)始出t这是求该点导数最蓿便的 方法)一在此清况下,由尸(P)描述的线性其孑艮接近点P的F的最优线性逼近;*逼近亍pF(x)用 F(p) - Jf(p) (x-p)雅可期亍列式玄睥m r n,那么F是从n缝空间到僦空间的函数三它的雅可E施阵是f 方块矩阵 于是我门可以取 它的彳亍列式,称为雅可比亍列式一在某个结定点的雅可比行列式提供了左接近该点时的表现的重要信忌.例如如具查绩可微函数&在 P点的羌可比列式不是零.归吆它在该点明近具有反函数一这称为反函叛定坦一更进一坦如果p点的 难可比行列式是正数.则F在P点的取向不鼓:如果是典数,贝JF

9、前幼司相反而从雅可比行列式的绝 对值;就可以知道函数F在p点的做因子;这就是为什么它出现在换元积分法中对干取向问题可祺这么理舞例女个物体在平面J匀速运动.女谏施扪一1、正方司的力F,即取吁相 巳则加速运动,类比于速厦的导救加速魇为正:如果施加f 反方向的力F.即物可相反:则痼更运动 类比H取的导期口回以鱼2 ,海森也哭ian矩阵 在数字中,海森矩阵(Hessian matrixHessian)-自变量为向星的卖值函数的二阶偏导教组成 块矩阵,此函数如下:如果f的所有二阶导教都存在:由吆f的海森矩阵即:H(fU誓)=功方勉)其中J; = (si, a a.? 2;四),即H (了)为:-砰,砂f

10、Suf 3趴3害 i 8血d2fd2fd2f如9沮18时8踏dXn,a, III 说萨/df_。跖2, 8町8跖8蹭8或他有人把海森定义为以上矩阵的行列式)海森矩B轲蜒 用于牛顿法解决的火觌模优化问题一 海森矩阵在牛顿法中的应用鬼牛顿法主史应用在两个方面,1,求方程的硬2最优化一门g方程并不是所有的方程都有求恨公式,或吉求根公式夜复杂.导致求解困难.利用牛顿法,可以迭代求解原理1利用泰勒公式;在划处展开 巨展开到-阶即月时=/|0) + (厂卷口)f (叼求解方程3)。,即/(3q) - (r-so)yf(a?oi - 0;求解a? - si 如一上(如/Vo),因为运是 利用泰勒公式的一吩展

11、开;/(r| -吼)-(席-如ifOu)处并K是完全相等.而是近似相等这里 求得的曲并不能让= 0具能说的值比了0()更接近fw)二。,于是乎,送代求解的想法就 狠自然了;可以注而挂出方,+i - %六%)/(地),通过送代.这个式孑必然在/(足二一。的时候收 敛.整个过程如下图;X M牛镇法求实根囹示2):会优化在最优化的问函中线性最优化至少可以使匡单纯形法(或称不前点算;去)求髀,但对于非迎优化问乱 牛顿法提蜜了 -种求解的办沽一假设任务是忧化一个目标函数f.求函数f的极大极小司题.可以转化为 求解函数f的导教r=0的-可煎这蚌求可以把优化问题看成方程求函问题(r二。).剩下的向题就疝第

12、部分提到的牛顿法求赭艮相似了.这次为了求解f0的棍把六时的泰勤展开,展开到2阶形式;+ As?) f(3?) Ai? +(2)Ai-a这个式子是成立曲.当旦仅当Air无了蜓近于口町f(x + 史)一f (也),约去这两项;并对余项式 如)心+壹广侮)蝉=。对卿题注f/),rw)均为常数项此时上怀价与:f(I)十(3:)正=0求解:得出迭代公式71 0h 1?.f 认为牛顿法可以利用到曲珑本身的I:限度下除法更容易收敛(哭代更少次数),如图是 小景小彳小目标方程的例子,江邑曲线是利用牛用页法迭f想锵绿色君线是利用悌度下降法求解在上面M仑的是2锥陶况.高雄悸况的牛顿迭忧公式是:与+1 = i但-7

13、JW3nK #。其中H是旭55治ni矩阵定义见且高堆号况依然可以用牛函送代求爵但是问题是隹珀imn矩障引人的羿性.使缱牛顿迭制弊的畦度 大大瑁;口,但是已经有了薜决逸个问秘的打法就是Qug RJmwton meth叫7再互壅计算he Man矩阵; 而是4 步的时候使用珈度向呈更新h e s b ian矩弹的近似.二阶导数的集合意义:(1) 斜线斜率变化的速度(2) 函数的凹凸性.二阶导数是比较理论的、比较抽象的一个量,它不像一阶导数那样有明显的几何意义,因为它 表示的是一阶导数的变化率.在图形上,它主要表现函数的凹凸性,直观的说,函数是向上突起 的,还是向下突起的.应用:如果一个函数f(x)在

14、某个区间I上有f(x)(即二阶导数)0恒成立,那么对于区间I上的任 意x,y,总有:f(x)+f(y)N2f(x+y)/2,如果总有f(x)0恒成立,那么在区间I上f(x)的图象上的任意两点连出的 一条线段,这两点之间的函数图象都在该线段的下方,反之在该线段的上方.机器学习中梯度下降法和牛顿法的比较在机器学习的优化问题中,梯度下降法和牛顿法是常用的两种凸函数求极值的方法,他们都是为了求得目标函数的近似解。在逻辑斯蒂 回归模型的参数求解中,一般用改良的梯度下降法,也可以用牛顿法。由于两种方法有些相似,我特地拿来简单地对比一下。下面的内 容需要读者之前熟悉两种算法。梯度下降法梯度下降法用来求解目标

15、函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为:d% :=四-。海T可以看出,梯度下降法更新参数的方式为目标函数在当前参数取值下的梯度值,前面再加上一个步长控制参数alpha。梯度下降法通常用 一个三维图来展示,迭代过程就好像在不断地下坡,最终到达坡底。为了更形象地理解,也为了和牛顿法比较,这里我用一个二维图来 表示:懒得画图了直接用这个展示一下。在二维图中,梯度就相当于凸函数切线的斜率,横坐标就是每次迭代的参数,纵坐标是目标函数的取 值。每次迭代的过程是这样:1. 首先计算目标函数在当前参数值的斜率(梯度),然后乘以步长因子后带入更新公式,如图点所在位置(极值点右边),此时 斜率为正,那么更新参数后参数减小,更接近极小值对应的参数。2. 如果更新参数后,当前参数值仍然在极值点右边,那么继续上面更新,效果一样。3. 如果更新参数后,当前参数值到了极值点的左边,然后计算斜率会发现是负的,这样经过再一次更新后就会又向着极值点的 方向更新。根据这个过程我们发现,每一步走的距离在极值点附近非常重要,如果走的步

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号