基于有监督学习的流量分类

上传人:王*** 文档编号:139608035 上传时间:2020-07-22 格式:DOCX 页数:2 大小:17.04KB
返回 下载 相关 举报
基于有监督学习的流量分类_第1页
第1页 / 共2页
基于有监督学习的流量分类_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于有监督学习的流量分类》由会员分享,可在线阅读,更多相关《基于有监督学习的流量分类(2页珍藏版)》请在金锄头文库上搜索。

1、subsection基于主机行为的流量分类在解决流量分类的有关问题时,该方法的主要措施是主机在传输层的行为模式,其往往可以在不读取流量包负载信息的状态下进行,这也决定了该方法的面临的风险较小。另一方面,该方法对于端口号的信息也没有明显的依赖,分析效率的整体水平较高。而路由器则可以在获取Netflow 数据包信息环节发挥主要作用。因为主机行为的流分类也不可能十全十美,在面对一些应用子类型的识别方面往往显得无能为力,并且一旦传输层加密,该方法就无法发挥作用。section基于机器学习的网络流量分类方法在现阶段,机器学习成为很多学习者的首选。其主要由建立分类模型和对模型的分类两类组成。在建立模型的过

2、程中,如果选择这种办法,那么第一步需要采集训练样本,第二步则是发挥分类器的作用,完成有关数据的分类工作。另一方面,就学习方法而言,机器学习现在比较流行的是有监督学习和无监督学习流分类两种。subsection基于有监督学习的流量分类 有监督的流量分类技术很多时候被人们称为统计方法技术。该技术的特点是,为了使得给定的样本充分反映数据流量的实际情况,首先分析数据集的特点,然后以此为依据,建立相应的函数,有的时候是建立模型。 建立完整的分类模型是数据分类的必要条件,然后如实对预定的数据类进行描述,紧接着需要对模型的准确率进行了解,在此基础上发挥模型的作用,对数据进行针对性的分类,操作环节如图2所示。

3、beginfigurecenteringsetlengthbelowcaptionskip10ptincludegraphicsscale=0.82.pngcaption基于有监督机器学习的流量分类过程label图2endfigure 在分类模型的构造方法方面,很多学者都提出了自己的看法,并且也给出了不同的方法,例如:贝叶斯方法、决策树方法等。贝叶斯分类方法主要表现为有向无环图,但是该图的绘制往往是在重点参考概率有关知识的基础的进行的,因此其在预测未知样本的类别方面往往具有明显的效果,同时可以根据概率大小将其进行排序,并把概率最大的作为最终类别。而所谓决策树,即将所有的决策通过树的形状表示出来

4、,不同的分支表示相应的测试输出,而每个类别则是由节点来表示。而关联规则的分类,第一步就需要充分挖掘算法,准确发现其中存在的关联规则,在此基础上设置针对性的分类器。神经网络(neural networks)当中,具有不知一个的输入和输出单元,并且在参考不同权重的基础上,完成连接。不过这种网络会根据系统实际的难度,针对性的对内部节点进行调节,最终完成对信息的处理。例如单就准确率来说,贝叶斯法往往比其它的水平更高。William 等人主要研究了分类准确率和计算性能等,在对上述方法进行比较之后发现,他们的准确率并无太大差别,但是性能则大不一样,主要表现为决策树的速度最快,而最慢的是贝叶斯算法。subs

5、ubsection随机森林分类器随机森林分类器的优点有:(1)使用范围较广,可以适用于多种不同资料,并且产生的分类器准确度有保障,学习的效率极高。另一方面,如果出现资料遗失的情况,其可以对这些遗失的资料进行科学的估计,并且准确度保持在较高水平。而对于那些失衡的分类资料集,其主要作用表现为能够平衡误差。(2)能够高效解决输入变数方面的问题,而且可以在决定类别时,针对变数的重要性做出科学的评估。(3)能够计算出亲近度,在挖掘数据、侦测离群点(outlier)等发面发挥重要作用;随机森林分类器即发挥多棵树的作用,在此基础上对样本进行训练检测的。简而言之,随机森林就是由多棵CART (Classifi

6、cation And Regression Tree)构成的。单就训练集而言,所有树是从总的训练集中放回采样出来的。因此,在总体的训练集当中,相同的样本既有可能一次也不出现在一棵树的训练集中,也有可能出现很多次。具体分类器过程如下:(1)训练用例(样本)通过$N$来表示,特征数目则用进行$M$来表示。(2)输入特征数目$m$,在此基础上才能确定决策树上各个节点的结果;其中$M$要一直大于$m$。(3)从$N$个训练用例(样本)中以有放回抽样的方式,取样$N$次,在此基础上形成训练集(即bootstrap取样),而且为了更好评估误差,往往通过未抽到的用例(样本)作预测。(4)对于各个节点来说,随机选择$m$个特征,决策树上不同的决定都和这些特征息息相关。参照$m$个特征,算出其最好的分裂方式。(5)所有树都会完整成长,这有可能在建完一棵正常树状分类器后会被采用)。据前文所述,对于有监督学习的流量分类算法来说,最明显的缺陷是在提高分类器的准确度环节,往往只有一个选择,那就是完全依靠给定类别的流量数据,因此一般情况下难以寻找全新的应用模式。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作范文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号