基于有监督学习的流量分类

资源描述

《基于有监督学习的流量分类》由会员分享，可在线阅读，更多相关《基于有监督学习的流量分类（2页珍藏版）》请在金锄头文库上搜索。

1、subsection基于主机行为的流量分类在解决流量分类的有关问题时，该方法的主要措施是主机在传输层的行为模式，其往往可以在不读取流量包负载信息的状态下进行，这也决定了该方法的面临的风险较小。另一方面，该方法对于端口号的信息也没有明显的依赖，分析效率的整体水平较高。而路由器则可以在获取Netflow 数据包信息环节发挥主要作用。因为主机行为的流分类也不可能十全十美，在面对一些应用子类型的识别方面往往显得无能为力，并且一旦传输层加密，该方法就无法发挥作用。section基于机器学习的网络流量分类方法在现阶段，机器学习成为很多学习者的首选。其主要由建立分类模型和对模型的分类两类组成。在建立模型的过

2、程中，如果选择这种办法，那么第一步需要采集训练样本，第二步则是发挥分类器的作用，完成有关数据的分类工作。另一方面，就学习方法而言，机器学习现在比较流行的是有监督学习和无监督学习流分类两种。subsection基于有监督学习的流量分类有监督的流量分类技术很多时候被人们称为统计方法技术。该技术的特点是，为了使得给定的样本充分反映数据流量的实际情况，首先分析数据集的特点，然后以此为依据，建立相应的函数，有的时候是建立模型。建立完整的分类模型是数据分类的必要条件，然后如实对预定的数据类进行描述，紧接着需要对模型的准确率进行了解，在此基础上发挥模型的作用，对数据进行针对性的分类，操作环节如图2所示。

3、beginfigurecenteringsetlengthbelowcaptionskip10ptincludegraphicsscale=0.82.pngcaption基于有监督机器学习的流量分类过程label图2endfigure 在分类模型的构造方法方面，很多学者都提出了自己的看法，并且也给出了不同的方法，例如：贝叶斯方法、决策树方法等。贝叶斯分类方法主要表现为有向无环图，但是该图的绘制往往是在重点参考概率有关知识的基础的进行的，因此其在预测未知样本的类别方面往往具有明显的效果，同时可以根据概率大小将其进行排序，并把概率最大的作为最终类别。而所谓决策树，即将所有的决策通过树的形状表示出来

4、，不同的分支表示相应的测试输出，而每个类别则是由节点来表示。而关联规则的分类，第一步就需要充分挖掘算法，准确发现其中存在的关联规则，在此基础上设置针对性的分类器。神经网络（neural networks）当中，具有不知一个的输入和输出单元，并且在参考不同权重的基础上，完成连接。不过这种网络会根据系统实际的难度，针对性的对内部节点进行调节，最终完成对信息的处理。例如单就准确率来说，贝叶斯法往往比其它的水平更高。William 等人主要研究了分类准确率和计算性能等，在对上述方法进行比较之后发现，他们的准确率并无太大差别，但是性能则大不一样，主要表现为决策树的速度最快，而最慢的是贝叶斯算法。subs

5、ubsection随机森林分类器随机森林分类器的优点有：（1）使用范围较广，可以适用于多种不同资料，并且产生的分类器准确度有保障，学习的效率极高。另一方面，如果出现资料遗失的情况，其可以对这些遗失的资料进行科学的估计，并且准确度保持在较高水平。而对于那些失衡的分类资料集，其主要作用表现为能够平衡误差。（2）能够高效解决输入变数方面的问题，而且可以在决定类别时，针对变数的重要性做出科学的评估。（3）能够计算出亲近度，在挖掘数据、侦测离群点（outlier）等发面发挥重要作用；随机森林分类器即发挥多棵树的作用，在此基础上对样本进行训练检测的。简而言之，随机森林就是由多棵CART (Classifi

6、cation And Regression Tree)构成的。单就训练集而言，所有树是从总的训练集中放回采样出来的。因此，在总体的训练集当中，相同的样本既有可能一次也不出现在一棵树的训练集中，也有可能出现很多次。具体分类器过程如下：（1）训练用例（样本）通过$N$来表示，特征数目则用进行$M$来表示。（2）输入特征数目$m$，在此基础上才能确定决策树上各个节点的结果；其中$M$要一直大于$m$。（3）从$N$个训练用例（样本）中以有放回抽样的方式，取样$N$次，在此基础上形成训练集（即bootstrap取样），而且为了更好评估误差，往往通过未抽到的用例（样本）作预测。（4）对于各个节点来说，随机选择$m$个特征，决策树上不同的决定都和这些特征息息相关。参照$m$个特征，算出其最好的分裂方式。（5）所有树都会完整成长，这有可能在建完一棵正常树状分类器后会被采用）。据前文所述，对于有监督学习的流量分类算法来说，最明显的缺陷是在提高分类器的准确度环节，往往只有一个选择，那就是完全依靠给定类别的流量数据，因此一般情况下难以寻找全新的应用模式。

展开阅读全文