统计计算算法－金锄头文库

资源描述

《统计计算算法》由会员分享，可在线阅读，更多相关《统计计算算法（22页珍藏版）》请在金锄头文库上搜索。

1、. .分类算法-决策树常用的分类算法包括：决策树分类法，朴素的贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM)的分类器，神经网络法，k-最近邻法(k-nearest neighbor，kNN)，模糊分类法等等。监视学习与无监视学习机器学习开展到现在，一般划分为监视学习(supervised learning)，半监视学习(semi-supervised learning)以及无监视学习(unsupervised learning)三类。常见的分类算法属于监视学习，聚类那么属于无监视学习而在支持向量机导论一书给监视学习下的定义是：当样例是输入/输出

2、对给出时，称为监视学习，有关输入/输出函数关系的样例称为训练数据。而在无监视学习中，其数据不包含输出值，学习的任务是理解数据产生的过程。第一局部、决策树学习1.1、什么是决策树机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径那么代表的某个可能的属性值，而每个叶结点那么对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，假设欲有复数输出，可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗点说就是决策树，说白了，这是一种依托于分类、训练上的预测树，根据预测、归类未来。来

3、理论的太过抽象，下面举两个浅显易懂的例子：第一个例子那么这个可以用以下列图表示女孩的决策逻辑：第二个例子此例子来自Tom M.Mitchell著的机器学习一书：小王的目的是通过下周天气预报寻找什么时候人们会打高尔夫，他了解到人们决定是否打球的原因最主要取决于天气情况。而天气状况有晴，云和雨；气温用华氏温度表示；相对湿度用百分比；还有有无风。如此，我们便可以构造一棵决策树，如下根据天气这个分类决策这天是否适宜打网球：上述决策树对应于以下表达式：Outlook=Sunny Humiditywind增益的0.048。说白了，就是在星期六上午是否适合打网球的问题诀策中，采取humidity较wind作

4、为分类属性更佳，决策树由此而来。、ID3算法决策树的形成以下列图为ID3算法第一步后形成的局部决策树。这样综合起来看，就容易理解多了。1、overcast样例必为正，所以为叶子结点，总为yes；2、ID3无回溯，局部最优，而非全局最优，还有另一种树后修剪决策树。以下列图是ID3算法第一步后形成的局部决策树：如上图，训练样例被排列到对应的分支结点。分支Overcast的所有样例都是正例，所以成为目标分类为Yes的叶结点。另两个结点将被进一步展开，方法是按照新的样例子集选取信息增益最高的属性。1.3、C4.5算法C4.5用信息增益率来选择属性。ID3选择属性用的是子树的信息增益。1对非离散数据也能

5、处理。 2能够对不完整数据进展处理针对上述第一点，解释下：一般来说率就是用来取平衡用的，就像方差起的作用差不多，比方有两个跑步的人，一个起点是10m/s的人、其10s后为20m/s；另一个人起速是1m/s、其1s后为2m/s。如果紧紧算差值那么两个差距就很大了，如果使用速度增加率(加速度，即都是为1m/s2)来衡量，2个人就是一样的加速度。因此，C4.5抑制了ID3用信息增益选择属性时偏向选择取值多的属性的缺乏。C4.5算法之信息增益率。一个可以选择的度量标准是增益比率gain ratio。增益比率度量是用前面的增益度量Gain(S，A)和分裂信息度量SplitInformation(S，A)

6、来共同定义的，如下所示：其中，分裂信息度量被定义为(分裂信息用来衡量属性分裂数据的广度和均匀)：其中S1到Sc是c个值的属性A分割S而形成的c个样例子集。注意分裂信息实际上就是S关于属性A的各值的熵。这与我们前面对熵的使用不同，在那里我们只考虑S关于学习到的树要预测的目标属性的值的熵。、C4.5算法实现中的几个关键步骤在上文中，我们已经知道了决策树学习C4.5算法中4个重要概念的表达，如下：一 Boosting 算法的起源boost 算法系列的起源来自于PAC Learnability(PAC 可学习性)。定义了学习算法的强弱弱学习算法-识别错误率小1/2(即准确率仅比随机猜测略高的学习算法)

7、强学习算法-识别准确率很高并能在多项式时间完成的学习算法二 Boosting算法的开展历史Boosting算法是一种把假设干个分类器整合为一个分类器的方法。1bootstrapping方法的主要过程主要步骤：i)重复地从一个样本集合D中采样n个样本ii)针对每次采样的子样本集，进展统计学习，获得假设Hiiii)将假设干个假设进展组合，形成最终的假设Hfinaliv)将最终的假设用于具体的分类任务2bagging方法的主要过程 -bagging可以有多种抽取方法主要思路：i)训练分类器从整体样本集合中，抽样n* N个样本针对抽样的集合训练分类器Ciii)分类器进展投票，最终的结果是分类器投票的优

8、胜结果.现在的adaboost算法，其主要框架可以描述为：i)循环迭代屡次更新样本分布寻找当前分布下的最优弱分类器计算弱分类器误差率ii)聚合屡次训练的弱分类器三 Adaboost 算法AdaBoost 是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器，即弱分类器，然后把这些弱分类器集合起来，构造一个更强的最终分类器。算法本身是改变数据分布实现的，它根据每次训练集之中的每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改权值的新数据送给下层分类器进展训练，然后将每次训练得到的分类器融合起来，作为最后的决策分类器。完整的adaboost算法如下简单来说，A

9、daboost有很多优点:1)adaboost是一种有很高精度的分类器2)可以使用各种方法构建子分类器，adaboost算法提供的是框架3)当使用简单分类器时，计算出的结果是可以理解的。而且弱分类器构造极其简单4)简单，不用做特征筛选5)不用担忧overfitting！四 Adaboost 举例下面我们举一个简单的例子来看看adaboost的实现过程：图中，+和-分别表示两种类别，在这个过程中，我们使用水平或者垂直的直线作为分类器，来进展分类。第一步：根据分类的正确率，得到一个新的样本分布D2,一个子分类器h1其中划圈的样本:被分错的。在右边:比较大的+表示对该样本做了加权.第二步：根据分类的

10、正确率，得到一个新的样本分布D3，一个子分类器h2第三步：得到一个子分类器h3整合所有子分类器：因此可以得到整合的结果，从结果中看，及时简单的分类器，组合起来也能获得很好的分类效果，在例子中所有的。每次迭代都要把分错的点的权值变大这样也许提高错误点可以让后面的分类器权值更高.六总结最后，我们可以总结下adaboost算法的一些实际可以使用的场景：1用于二分类或多分类的应用场景2用于做分类任务的baseline无脑化，简单，不会overfitting，不用调分类器3用于特征选择feature selection)4Boosting框架用于对badcase的修正只需要增加新的分类器，不需要变动原有分类器由于adaboost算法是一种实现简单，应用也很简单的算法。Adaboost算法通过组合弱分类器而得到强分

展开阅读全文