常见的回归七种

上传人:公**** 文档编号:550287071 上传时间:2022-12-28 格式:DOCX 页数:8 大小:57.44KB
返回 下载 相关 举报
常见的回归七种_第1页
第1页 / 共8页
常见的回归七种_第2页
第2页 / 共8页
常见的回归七种_第3页
第3页 / 共8页
常见的回归七种_第4页
第4页 / 共8页
常见的回归七种_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《常见的回归七种》由会员分享,可在线阅读,更多相关《常见的回归七种(8页珍藏版)》请在金锄头文库上搜索。

1、常见的七种回归技术字数2478 阅读443 评论1 喜欢2介绍根据受欢送程度,线性回归和逻辑回归经常是我们做预测模型时,且 第一个学习的算法。但是如果认为回归就两个算法,就大错特错了。事实上我们 有许多类型的回归方法可以去建模。每一个算法都有其重要性和特殊性。1什么是回归分析?2. 我们为什么要使用回归分析?3. 回归有哪些类型?4. 线性回归5. 逻辑回归6. 多项式回归7. 逐步回归8. 岭回归9. Lasso 回归10. EIasticNet回归什么是回归分析?回归分析是研究自变量和因变量之间关系的一种预测模型技术。这 些技术应用于预测,时间序列模型和找到变量之间关系。例如可以通过回归去

2、研 究超速与交通事故发生次数的关系。我们为什么要用回归分析?这里有一些使用回归分析的好处:它指示出自变量与因变量之间的显著 关系;它指示出多个自变量对因变量的影响。 回归分析允许我们比拟不同尺度的 变量,例如:价格改变的影响和宣传活动的次数。 这些好处可以帮助市场研究者 /数据分析师去除和评价用于建立预测模型里面的变量。回归有哪些类型?我们有很多种回归方法用预测。这些技术可通过三种方法分类:自变 量的个数、因变量的类型和回归线的形状。1. 线性回归线性回归可谓是世界上最知名的建模方法之一,也是应该是我们第 一个接触的模型。在模型中,因变量是连续型的,自变量可以使连续型或离散型 的,回归线是线性

3、的。线性回归用最适直线(回归线)去建立因变量Y和一个或多个自变量X之间的关系 可以用公式来表示:Y=a+b*X+ea为截距,b为回归线的斜率,e是误差项F15-LS- *,. * f. *- * -丁叮二牛,-V* 鼻. # * * *- / * * * ,3ri5.54nigti School CPA简单线性回归与多元线性回归的差异在于:多元线性回归有多个 (1) 自变量,而简单线性回归只有一个自变量。 到现在我们的问题就是:如何找到那 条回归线?我们可以通过最小二乘法把这个问题解决。其实最小二乘法就是线性回归模型的损失函数,只要把损失函数做到最小时得出的参数, 才是我们最需要 的参数。40

4、 aLii;ear regression550 -500ZSD -200150 -100丄20Q400我们一般用决定系数(R方)去评价模型的表现。重点:1. 自变量与因变量之间必须要有线性关系。2. 多重共线性、自相关和异方差 对多元线性回归的影响很大。3. 线性回归对异常值非常敏感,其能严重影响回归线,最终影响预测值。4. 在多元的自变量中,我们可以通过前进法,后退法和逐步法去选择最显著的自 变量。2. 逻辑回归逻辑回归是用来找到事件成功或事件失败的概率。当我们的因变量是二分类0/1, True/False,Yes/No时我们应该使用逻辑回归。重点:1. 在分类问题中使用的非常多。2. 逻辑

5、回归因其应用非线性log转换方法,使得其不需要自变量与因变量之间有 线性关系。3. 为防止过拟合和低拟合,我们应该确保每个变量是显著的。应该使用逐步回归 方法去估计逻辑回归。4. 逻辑回归需要大样本量,因为最大似然估计在低样本量的情况下表现不好。5. 要求没有共线性。6. 如果因变量是序数型的,那么称为序数型逻辑回归。7. 如果因变量有多个,那么称为多项逻辑回归。3. 多项式回归写在前面:多项式回归在回归问题中占特殊的地位,因为任何函数至少在一个比拟小的邻域可用多项式任意逼近,因此通常在比拟复杂的实际问题中,可以不问与诸因素确实切关系如何,而用多项式回归当然首先应试用最简单的一次多项式即线性回

6、归进展分析和计算如果一个回归,它的自变量指数超过1,那么称为多项式回归。可以用公式表示:y = a + b * xA2在这个回归技术中,最适的线不是一条直线,而是一条曲线。重点:1. 很多情况下,我们为了降低误差,经常会抵抗不了使用多项式回归的诱惑, 但 事实是,我们经常会造成过拟合。所以要经常的把数据可视化,观察数据与模型 的拟合程度。2. 特别是要看曲线的结尾局部,看它的形状和趋势是否有意义。高的多项式往往 会产生特别乖僻的预测值。4. 逐步回归当我们要处理多个自变量时,我们就需要这个回归方法。在这个方法 中选择变量都是通过自动过程实现的,不需要人的干预。这个工程是通过观察统计值,比方判定

7、系数,t值和最小信息准那么 等去筛选变量。逐步回归变量一般是基于特定的标准参加或移除变量来拟合回归 模型。一些常用的逐步回归方法如下:1. 标准逐步回归做两件事情。只要是需要每一步它都会添加或移除一些变量。2. 前进法是开场于最显著的变量然后在模型中逐渐增加次显著变量。3. 后退法是开场于所有变量,然后逐渐移除一些不显著变量。4. 这个模型技术的目的是为了用最少的变量去最大化模型的预测能力。它也是种降维技术。5.岭回归当碰到数据有多重共线性时,我们就会用到岭回归。所谓多重共线性, 简单的说就是自变量之间有高度相关关系。 在多重共线性中,即使是最小二乘法 是无偏的,它们的方差也会很大。通过在回归

8、中参加一些偏差,岭回归酒会减少 标准误差。岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是 一种改进的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失局部信息、 降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。百度百科岭回归是通过岭参数 入去解决多重共线性的问题。看下面的公式:=argmin |y 一 XftK + A 制;Penalty其中loss为损失函数,penalty为惩罚项。重点:1. 岭回归的假设与最小二乘法回归的假设一样除了假设正态性。2. 它把系数的值收缩了,但是不会为 0.3. 正那么化方法是使用了 12正那么.6.

9、LASS 0 回归和岭回归类似,Lasso(least Absolute Shri nkage and SelectionOperator)也是通过惩罚其回归系数的绝对值。看下面的公式:=Argnnn |y-X0|E +A |3|L陇时 P*LomPenjiJtyLasso回归和岭回归不同的是,Lasso回归在惩罚方程中用的是绝对 值,而不是平方。这就使得惩罚后的值可能会变成0.重点:1. 其假设与最小二乘回归一样除了正态性。2. 其能把系数收缩到0,使得其能帮助特征选择。3. 这个正那么化方法为11正那么化。4. 如果一组变量是高度相关的,lasso会选择其中的一个,然后把其他的都变为0.7

10、. ElasticNet 回归ElasticNet 回归是Lasso回归和岭回归的组合。它会事先训练 L1和 L2作为惩罚项。当许多变量是相关的时候,Elastic-net 是有用的。Lasso 一般 会随机选择其中一个,而Elastic- net 那么会选在两个。3 =祇辭品(加一+如+人制,与Lasso和岭回归的利弊比拟,一个实用的优点就是Elastic-Net 会继承一些岭回归的稳定性。重点:1. 在选择变量的数量上没有限制2. 双重收缩对其有影响3. 除了这7个常用的回归技术,你也可以看看贝叶斯回归、生态学回归和鲁棒回 归。如何去选择回归模型面对如此多的回归模型,最重要的是根据自变量因

11、变量的类型、数据 的维数和其他数据的重要特征去选择最适宜的方法。以下是我们选择正确回归模 型时要主要考虑的因素:1. 数据探索是建立预测模型不可或缺的局部。它应该是在选择正确模型之前要做 的。2. 为了比拟不同模型的拟合程度,我们可以分析不同的度量,比方统计显著性参 数、R方、调整R方、最小信息标准、BIC和误差准那么。另一个是Mallow s Cp 准那么。3. 穿插验证是验证预测模型最好的方法。 你把你的数据集分成两组:一组用于训 练,一组用于验证。4. 如果你的数据集有许多让你困惑的变量, 你就不应该用自动模型选择方法,因 为你不想把这些变量放在模型当中。5. 不强大的模型往往容易建立,而强大的模型很难建立。6. 回归正那么方法在高维度和多重共线性的情况下表现的很好。.an alyticsvidhya./blog/2015/08/comprehe nsive-guide-regressi on/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号