针对无监督下的异常入侵检测的数据规范新方法

资源描述

《针对无监督下的异常入侵检测的数据规范新方法》由会员分享，可在线阅读，更多相关《针对无监督下的异常入侵检测的数据规范新方法（11页珍藏版）》请在金锄头文库上搜索。

1、网络与信息安全论文翻译入侵检测入侵检测/ /入侵防御入侵防御针对无监督下的异常入侵检测的数据规范新方法针对无监督下的异常入侵检测的数据规范新方法中文版组号：组号： 3333 组组课题负责人名：课题负责人名：索索楠楠 09431111520943111152 同组成员名单：同组成员名单：姚金柱姚金柱 09431111280943111128 朱晓龙朱晓龙 09431112160943111216 赵智闻赵智闻 09431111360943111136 提交报告时间：2011 年 12 月 7 日针对无监督下的异常入侵检测的数据规范新方法针对无监督下的异常入侵检测的数据规范新方法摘要摘要无

2、监督下的异常入侵检测可以在没有简洁和规范数据的情况下检测入侵攻击。本论文研究了针对无监督下的异常入侵（ACUAD）的应用的集群讨论。数据记录是特征空间的反映。通过检测信息系数地区的数据特征可以得知是否发生了异常入侵。此方法是否有效的一个至关重要的因素是数据记录间的距离函数。我们通过数据和数据符号的混合特征提出了一个记录距离框架的统一方法。一个启发式的计算特征数据间距离的方法现在被提出了：利用标志功能的重要特征它们的可能分布，然后这个强大的方法可以用于衡量并计算特征数据间的距离，这使得我们可以容许大规模和多样化数据间的差额可以存在。KDD 1999 的实验证明数据集显示，相对其他方法而言，ACU

3、AD 检测入侵的错误率相对较低。关键词关键词无监督下的异常入侵检测，数据挖掘，入侵检测，网络安全1 1 简介简介目前存在两种入侵检测系统（IDS）：滥用入侵检测系统（MIDS）和异常入侵检测系统（AIDS）。MIDS 模式适用于已知的入侵攻击，这是和本文要论证的情况是相反的。只要竞争存在，入侵就存在。MIDS 模式最大的缺陷在于他只可以检测已知的入侵行为。针对那些潜在的未知入侵行为，AIDS 模式是 MIDS 模式的最好补充。传统钓 AIDS，也被称为有监督下的 AIDS，只能对本文中相对常见的情况下起作用。这种方法存在可用性和可靠性方面的缺陷：用人工分类的方法产生纯净数据或有类数据非常

4、昂贵，耗时，而且不能保证数据完全纯净或分类完全正确。为此，研究不需要纯净规范数据的异常入侵检测方法，即无监督异常入侵检测。所采用的方法统计分析法和聚类法。本文研究的是非纯净异常数据检测方法 ACUAD。这种方法建立的检测模型是以数据包头部字段为属性的统计模型。其特征为（1）由于训练数据集中正常数据包和攻击数据包的概率分布不同，因而他们所引入的属性值也具有不同的分布。（2）ACUAD 根据属性值的概率分布从非纯净训练数据建立网络的正常行为模型，并用该模型作为检测段的检测模型。（3）在用聚类法进行无监督异常入侵检测时，数据记录首先被映射为属性空间的点，然后用聚类法算法找出属性空间稀疏区域的点，这

5、些点所对应的数据记录就是入侵记录。就目前系统安全状况而言，系统存在被攻击的可能性。入侵检测作为安全技术起作用在于：识别入侵行为，检测和监视已成功的安全突破，为对抗入侵及时提供重要信息，阻止事件的发生和事态的扩大。2 2 最近的成果最近的成果Leung 和 Leckie（2005）对异常入侵检测进行了研究。加密技术主要是信息传输过程中和储存时的保密性和完整性（2008）Eskin(2000)提出了可以统计混合数据无监督异常入侵的模型（2002）同时也提出了两个可以反映网络数据特征的数据距离算法（k-NN），和支持向量机（SVM），用于在 Cansado 和Soto（2008）作为数据净化的检

6、测参数。Kwit 和 Hofmann（2007）应用 PCA 检测数据异常工作流量的参数。3 3 固定宽度的聚类算法固定宽度的聚类算法现有的无监督异常入侵检测方法主要有两个方面，基于统计分析的非纯净训练数据异常入侵检测方法和基于聚类分析的无监督异常入侵检测方法。重点研究聚类算法的聚类依据是记录距离间计算方法和距离间函数的定义，属性空间的选取，属性映射方法。为由数据属性和符号属性组成的混合数据记录提出了统一距离计算框架，使得两种属性包含的信息都能得到充分利用。该方法以含有攻击的网络连接记录为数据源，建立检测模型所使用的属性既有网络数据包的头部字段，也包括应用层的数据。该方法的另一个特点是为不同服

7、务类型的网络连接分别建立检测模型。固定宽度的聚类算法采用欧几里得距离计算数值属性的相似度，分类属性的距离测定定义为属性不匹配的个数，总的相似度的度量为加权的分类属性举例和数值属性距离之和。4 4 距离函数的定义距离函数的定义为了检测网络或者体统中的入侵事件，我们必须掌握数据间距离准确的计算方法。分析引擎实现检测算法，检测算法多种多样，各种检测数据也放在检测策略中。分析引擎将判断结果直接发给相应模块。数据记录集群的数据间的距离是距离函数定义数据距离的关键。假设数集 D 有 n 个对象，每个人对象有 m 个属性，m=mc+mn.（1）划分聚类算法在聚类过程中，可能会有一小部分正常数据分布不均，在当

8、标记正常和入侵数据的时候，因为按照无监督入侵检测的方法的假设，正常数据应该远大于入侵数据，所以这部分数据会被当做入侵数据标记为异常。这样，在进行检测时，与这类数据相似的正常数据会被标记为异常。这样，在进行检测时，与这类数据相似的正常数据就会被认为是入侵数据，误报率将会有所提高。因此，本文依据凝聚层次聚类算法的思想对以划分的族进行整合和合并，根据族之间的差异度，使用整体近似度作为聚类质量评价标准来决定是否合并相似的两个组，合并后能使族中心更集中，族内对象更紧密。聚集层次聚类算法虽然很简单，但是经常会遇到选择合并点的问题，因为一组对象被合并，就无法回到先前的聚类状态，如果在某一步所做的聚类决策不合

9、适，那么将会导致低质量的聚类效果。因此，本文首先计算两两组之间的差异度和数据间的距离，根据差异度的值选出待合并的两个组，然后使用整体相似度来衡量这两个组合并前和合并后的聚类质量。若是合并后整体相似度比合并前小，表明组内对象比合并前紧密，聚类质量上升，则将两个组合并，反之则不合并。4.14.1 数据之间的距离框架数据之间的距离框架假设存在数集，代表了数据记录 P 和 M 的功能，则给定对象的位置可以表示为其中 E 是由公式（1）计算得到的，分别为两种不同属性对距离影响度的权重，对于数值属性，使用欧几里得公式计算距离（2）公式 2 是两个数据之间的距离框架的计算公式，这个公式可以被广泛的应用于下面

10、即将讨论的情况当中。4.24.2 数据函数间的距离数据函数间的距离对于给定的数据函数间的距离，需要注意 E 出现的次数，而数据函数间的距离是 E 在两个组中出现的次数之和，对于属性值，我们可以得到下面这个公式（3）训练数据中可能混有杂音，对训练数据进行聚类之后有一些组规模很小，一般把这些组看做噪音组，这些组对测试集的检测影响很小，将噪音组清除之后聚类个数大大减少，降低了算法的时间和空间复杂度，提高了检测的速度。因此，本文对噪音组做这样的处理：对聚类后生成的所有组，计算其成员个数，当某个组中成员个数小于给定的值0,1，就把该组记录为噪音组并将其从数据集中去除。另一个特征映射方法是“标准化”。在这

11、种方法中，对于一个特征，所有的值都根据远离平均值的距离被规范化到标准偏差。假设数据集E=E1，E2，En有 N 个记录。E 中特征 Xk 的值来自于数据集X1k,X2k,Xnk。k 和 k 分别是 Xk 的平均值和标准偏差。那么Xik(i1，2, ,N)标准化之后的值就是（4）对于一个数据集，平均值是一个位置估计值，标准偏差是一个分散估计值。因为 99.7%的数据距离平均值有三倍标准偏差的距离，所以平均值和标准偏差可以用来描述一个近似常态数据集。平均值和标准偏差比极端值跟好。一个特诊映射疾语其平均值和标准偏差比基于极值更为合理。虽然平均值和标准偏差可以很好的估量一个常态数据集，但是他们

12、不能很好的估量一个无人监督的异常检测。因为在攻击引起的异常中他们的值会显著的变化。对于一个数据集，中值是一个比平均值更好的位置估量值，把一个数据集 X1，X2，X3从小到大排序，中间的那个数据就是中间值。注意，在中值前至少 50%的观测数据中会被破坏，变得任意大或者任意小。相反的，由攻击引起的一个单独值的异常会在平均值上表现的非常明显。 Shorth，代表最短的一半，是一个比标准偏差更好的估计值。Shorth 的计算方法如下：（德国，2002）第一步：把数据集Xlk，X2k，，XNk从小到大排序，获得新的数据集 dataset X(1)k ，X(2)k，X(N)k，X(1)k

13、是最小值，X(N)k 是最大值。第二步：对于 j=1 到 N/2，计算 Dj=X(j+N2)k-X(j)k 第三步：从 Dj(j 属于1,2,3，.，N/2),比如 Dm 第四步：shorth(k)=0.75*Dm. 近似的，在 shorth 前的至少 50%的数据观测值会被破坏，变得任意大或者任意小。因此，在无人监督的异常检测中，当数据集中有数据被攻击影响的时候，shorth 是一个比标准偏差更好的估量值。假设特征 Xk 的中值和 shorth 分别为 median(k)和 shorth(k)。基于中值和 shorth 的 Xik,标准化之后是：(Xik-nedian(k)/short

14、h(k)。在通过前面这个表达式标准化之后，在数据记录 Ei 和 Ej 间，所有数据特征对于这两个数据记录的距离的平方的贡献是：. (6)4.34.3 名义上特征的距离名义上特征的距离在等式(2)中，在数据记录 Ei 和 Ej 间，所有名义上特征对于他们距离的平方的贡献是： (7) 根据数据记录的定义，每个名义特征 Yk(k1，2，)都属于 DOM(Yk) 的范畴。假设 DOM(Yk)中有 Nk 个类别，比如： DOM(Yk)=Yk.1，Yk.2 ，Y k.n， (8) 我们可以映射记录中特征 Yk 的值到 nk 空间大小 Rnk.。-如果记录中特征 Yk 的范畴是 Yk，j(j1，2，nk

15、 )，那么它在 j 维空间 Rnk 中拥有坐标 1.所有其他坐标都是 0。比如，假设记录 Ei 中，特征 Yk 类别是 y(ik)=y(k,2)，那么它在空间 Rnk 的坐标就是（0，1，0），因此，y(ik)和 y(jk)的距离就是：如果 y(jk) 不等于 y(k,2),比如，y(jk)=y(k,3),它在空间 Rnk 的坐标就是（0,1,0,0）那么 y(ik)和 y(jk)的距离就是：通过前面的讨论，我们可以得到：(9) 等式(9)没有考虑名义特征中类别的相对频率。类别分布对于一个名义特征，是一个重要特点。因为无人监督的异常检测，正常的数据记录远远比攻击的记录多，类别的低频应该被攻击记录影响，或者相反的，类别的高频应该被正常的数据记录影响。在特征空间中去隔断正常记录和攻击记录，等式(9)应该乘以一个系数，这个系数与名义特征的类别分布有关。系数 a 应该要有用两个名义特征的高频类别记录和两个低频类别进一步记录。假设有两条记录Ei，Ej和Ei，Em。名义特征 Yk 的类别是yik,yjk,ylk,ymk.这些类别在记录集 E 中的出现顺序分别是和。于是(10) 记录集 E 中类别 yik 和 yjk 出现的次数是，可能具有这些类别的有，其中 N 是 E 中记录的数量。Yik 和 Yjk 的距离应该是他们出现概率的反比，所以 a

展开阅读全文

针对无监督下的异常入侵检测的数据规范新方法

最新文档