线性回归与分类

上传人:ni****g 文档编号:486068713 上传时间:2022-12-09 格式:DOCX 页数:5 大小:133.59KB
返回 下载 相关 举报
线性回归与分类_第1页
第1页 / 共5页
线性回归与分类_第2页
第2页 / 共5页
线性回归与分类_第3页
第3页 / 共5页
线性回归与分类_第4页
第4页 / 共5页
线性回归与分类_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《线性回归与分类》由会员分享,可在线阅读,更多相关《线性回归与分类(5页珍藏版)》请在金锄头文库上搜索。

1、线性回归与线性分类1. 线性回归在温洲的一个房产网(http:/ 万六中学区环境忧美 320001 售市中心59.9m!191.6S 万市中心哪里买的到的好西城路金山组团西向58m:凹.9万西城路,老装修,价格新桥头集新组团西向68m!119万精装修2年,房东包税康锦公寓西向120m!2万电梯房,毛坯的,套型叵鹿城二组团西向165m!363万价格是康城盘便宜的国鹿园西向156m!312万产权满5年,价格很便叵萤龙二医登燧组西向87m!174万套型很好,精装修,产国银厦公寓西向143m!343.2万全新精装,公证區银原公寓西向142m:326.6 万毛坯房,公证區黄龙六区渚泉组西向65m!120

2、.9 万楼层垫高相当于2层出售苗龙九区玉西向57m:95.19 万渚爽装修产权满亍年圆国闻宅公寓市中心77.79m!311.16 万城南总校学医房国飞虹公寓市中心47m:108.1 万你好?如果说你买房囲湖疸新村市中心60m!万房子的套型光线非国麻行小区江疸路90m:3 3 3万有两平阳台的价格忧區谢池商厦市中心71m!205.45 万路段好公园旁边现在我们以横轴表示房子面积,纵轴表示房子价格,画到坐标轴上:18001600140012006004U02001001502503001000氏800200m2现在问题来了,我想要一套200平方米的房子价格大概是多少呢?这时在数据表中我又找不到到对

3、应的数据。那么这时就要做线性回归分析了。如下图 找到下面这样的一条直线,使图中的所有点到直线的距离最小(即使误差最 小)。下面我们用数学语言来表达“使图中的所有点到直线的距离最小”这句话。图中的(面积,价格)可以用坐标点(Xi,Yi)表示。数学中的直线方程解析式为: y=kx+b,现在我们用机器学习里的表达方式如下:y=b+wx (在机器学习中 b 叫偏至, w 叫超越平面参数) 这样的表达还不够统一,不方便计算,写成下式: y=wx,(w=1,w x=1,x). 现在我们继续把上面改写成向量形式,以便于推广到 N 维形式,改写成正式Y %); WT (W1, W2,. - -, Wn); X

4、T =(X1,11:2, ,11使图中的所有点到直线的距离最小”用数学的语言描述如下:上式叫误差平方和式,写成向量形式如下:J(w) = (Y Xw) 丁 (Y Xrw)我们的目标是使J(W)最小,上式对W求导得:W 再(XrX)-XTYW 就是我们要求的结果了。把 200 平方米的代入式(1 )就得到我们的估计 房价了 这里的解有一个陷阱,不知道大家知道了没有。在分类问题中,我会提出一 种要求更低的解决算法,即著名的感知机算法。2. 线性分类什么是分类呢?下面我列出一些实际的分类任务如下:1. 识别图像中的人脸,非人脸。2. 识别正常邮件,垃圾邮件。3. 识别信贷中的正常行为,欺诈行为。4.

5、 入侵检测中的系统的的正常访问跟非法访问。5. 一些符号说明如下:x = ti,. .= 1,2,.丿特征向量,其中凤表示特征属性xrXI迅以下图的两类分类问题为例,样本点的类别是已知的,并且两类样本点是线性可分的,定义映谢:f :(旳化)T -1,1仗12)是图中点的坐标,-1,1是点所属的类别,即图中的红点,蓝点。求分类平面使得:若 + wo 0.则X e 1 类 为了便于计算,对(2)式进行扩展,定义:所以式(2)式又可以简化为:分类平面应该尽可能的把两类点集分开,即,使下式的平方误差最小:依照回归的例子,我们有同样的结论:笙叭=Xr(Y Xw)三 0 (7Ww = (XTX)iXY上面

6、的解要求XTX是正定的,也就是可逆的。现中的数据往往会不满足这一条件。还好有个万金有的方法,梯度下降算法,梯度下降算法能得到局部最优解。 我们先看一下,一元二次函数:通过对上式求一阶导数,得到一下最优解:X=-b/(2a)处是方程的一个最优解现在我们随机给定一个初始的x,要经过怎么样的过程,或没什么方向才能靠近 -b/(2a)这个解?答案就是没着,曲线y的梯度下降方向。函数:那么梯度定义如下:算法的迭代式如下:回到我们的问题也就是:n 是学习速率, n 一般取 0.010.2,一般我们会设定一个最大的迭次系数。 n 过大会过快收敛,不利于达到局部的最优解,太小又会收敛太慢。 下面看一元二次函数应用的例子:move1.gif二值分类例子:move2.gif代码说明:regressio n.m回归例子movedemol.m一元二次函数例子lin eperce.m二值分类例子

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号