数学专业论文-逻辑回归初步.doc

资源描述

《数学专业论文-逻辑回归初步.doc》由会员分享，可在线阅读，更多相关《数学专业论文-逻辑回归初步.doc（17页珍藏版）》请在金锄头文库上搜索。

1、数学专业论文逻辑回归初步1、总述逻辑回归是应用非常广泛的一个分类机器学习算法，它将数据拟合到一个logit函数(或者叫做logistic函数)中，从而能够完成对事件发生的概率进行预测。2、由来要说逻辑回归，我们得追溯到线性回归，想必大家对线性回归都有一定的了解，即对于多维空间中存在的样本点，我们用特征的线性组合去拟合空间中点的分布和轨迹。如下图所示：线性回归能对连续值结果进行预测，而现实生活中常见的另外一类问题是，分类问题。最简单的情况是是与否的二分类问题。比如说医生需要判断病人是否生病，银行要判断一个人的信用程度是否达到可以给他发信用卡的程度，邮件收件箱要自动对邮件分类为正常邮件和垃圾邮件

2、等等。当然，我们最直接的想法是，既然能够用线性回归预测出连续值结果，那根据结果设定一个阈值是不是就可以解决这个问题了呢？事实是，对于很标准的情况，确实可以的，这里我们套用Andrew Ng老师的课件中的例子，下图中X为数据点肿瘤的大小，Y为观测结果是否是恶性肿瘤。通过构建线性回归模型，如h(x)所示，构建线性回归模型后，我们设定一个阈值0.5，预测h(x)0.5的这些点为恶性肿瘤，而h(x)0.5为良性肿瘤。但很多实际的情况下，我们需要学习的分类数据并没有这么精准，比如说上述例子中突然有一个不按套路出牌的数据点出现，如下图所示：你看，现在你再设定0.5，这个判定阈值就失效了，而现实生活的分类问

3、题的数据，会比例子中这个更为复杂，而这个时候我们借助于线性回归+阈值的方式，已经很难完成一个鲁棒性很好的分类器了。在这样的场景下，逻辑回归就诞生了。它的核心思想是，如果线性回归的结果输出是一个连续值，而值的范围是无法限定的，那我们有没有办法把这个结果值映射为可以帮助我们判断的结果呢。而如果输出结果是 (0,1) 的一个概率值，这个问题就很清楚了。我们在数学上找了一圈，还真就找着这样一个简单的函数了，就是很神奇的sigmoid函数(如下)：如果把sigmoid函数图像画出来，是如下的样子：Sigmoid Logistic Function从函数图上可以看出，函数y=g(z)在z=0的时候取值为1

4、/2，而随着z逐渐变小，函数值趋于0，z逐渐变大的同时函数值逐渐趋于1，而这正是一个概率的范围。所以我们定义线性回归的预测函数为Y=WTX，那么逻辑回归的输出Y=g(WTX)，其中y=g(z)函数正是上述sigmoid函数(或者简单叫做S形函数)。3、判定边界我们现在再来看看，为什么逻辑回归能够解决分类问题。这里引入一个概念，叫做判定边界，可以理解为是用以对不同类别的数据分割的边界，边界的两旁应该是不同类别的数据。从二维直角坐标系中，举几个例子，大概是如下这个样子：有时候是这个样子：甚至可能是这个样子：上述三幅图中的红绿样本点为不同类别的样本，而我们划出的线，不管是直线、圆或者是曲线，都能比较

5、好地将图中的两类样本分割开来。这就是我们的判定边界，下面我们来看看，逻辑回归是如何根据样本点获得这些判定边界的。我们依旧借用Andrew Ng教授的课程中部分例子来讲述这个问题。回到sigmoid函数，我们发现：当g(z)0.5时,z0;对于h(x)=g(TX)0.5, 则TX0, 此时意味着预估y=1;反之，当预测y = 0时，TX，这很好地惩罚了最后的结果。而对于y=0的情况，如下图所示，也同样合理：下面我们说说梯度下降，梯度下降算法是调整参数使得代价函数J()取得最小值的最基本方法之一。从直观上理解，就是我们在碗状结构的凸函数上取一个初始值，然后挪动这个值一步步靠近最低点的过程，如

6、下图所示：我们先简化一下逻辑回归的代价函数：从数学上理解，我们为了找到最小值点，就应该朝着下降速度最快的方向(导函数/偏导方向)迈进，每次迈进一小步，再看看此时的下降最快方向是哪，再朝着这个方向迈进，直至最低点。用迭代公式表示出来的最小化J()的梯度下降算法如下：5、代码与实现我们来一起看两个具体数据上做逻辑回归分类的例子，其中一份数据为线性判定边界，另一份为非线性。示例1。第一份数据为data1.txt，部分内容如下：我们先来看看数据在空间的分布，代码如下。pythonview plaincopy1. fromnumpyimportloadtxt,where2. frompylabi

7、mportscatter,show,legend,xlabel,ylabel3. 4. #loadthedataset5. data=loadtxt(/home/HanXiaoyang/data/data1.txt,delimiter=,)6. 7. X=data:,0:28. y=data:,29. 10. pos=where(y=1)11. neg=where(y=0)12. scatter(Xpos,0,Xpos,1,marker=o,c=b)13. scatter(Xneg,0,Xneg,1,marker=x,c=r)14. xlabel(Feature1/Exam1score)15.

8、 ylabel(Feature2/Exam2score)16. legend(Fail,Pass)17. show()得到的结果如下：下面我们写好计算sigmoid函数、代价函数、和梯度下降的程序：pythonview plaincopy1. defsigmoid(X):2. Computesigmoidfunction3. den=1.0+e*(-1.0*X)4. gz=1.0/den5. returngz6. defcompute_cost(theta,X,y):7. computescostgivenpredictedandactualvalues8. m=X.shape0#number

9、oftrainingexamples9. theta=reshape(theta,(len(theta),1)10. 11. J=(1./m)*(-transpose(y).dot(log(sigmoid(X.dot(theta)-transpose(1-y).dot(log(1-sigmoid(X.dot(theta)12. 13. grad=transpose(1./m)*transpose(sigmoid(X.dot(theta)-y).dot(X)14. #optimize.fminexpectsasinglevalue,socannotreturngrad15. returnJ00#

10、,grad16. defcompute_grad(theta,X,y):17. computegradient18. theta.shape=(1,3)19. grad=zeros(3)20. h=sigmoid(X.dot(theta.T)21. delta=h-y22. l=grad.size23. foriinrange(l):24. sumdelta=delta.T.dot(X:,i)25. gradi=(1.0/m)*sumdelta*-126. theta.shape=(3,)27. returngrad我们用梯度下降算法得到的结果判定边界是如下的样子：最后我们使用我们的判定边界对training data做一个预测，然后比对一下准确率：pythonview plaincopy1. defpredict(theta,X):2. Predictlabelusinglearnedlogisticregressionparameters3. m,n=X.shape4. p=ze

展开阅读全文