一种关联规则增量式挖掘算法研究.doc

资源描述

《一种关联规则增量式挖掘算法研究.doc》由会员分享，可在线阅读，更多相关《一种关联规则增量式挖掘算法研究.doc（8页珍藏版）》请在金锄头文库上搜索。

1、一种关联规则增量式挖掘算法研究摘要：现有关联规则更新算法都是基于支持度-置信度框架而提出的，仅针对大于最小支持度闭值的频繁项集进行挖掘。为了提高告警关联规则的完整性和准确性，在相关度aarsc算法基础上，提出了一种增量式挖掘uaarsc算法(updating-aarsc)。该算法对增量计算进行了改进，可以发现频繁和非频繁告警序列间的关联规则。关键词：关联规则；数据发掘；滑动窗口；增量计算an algorithm of associative rule increment miningliu zaoxin（department of information engineering,

2、 jiangxi professional training college of transportation, nanchang， jiangxi 330013， china）abstract： the existing algorithms of association rule update are based on the framework of support-confidence and they mine only the frequent closure of the set value greater than the minimum support. to enhanc

3、e the completeness and accuracy, the author presents in this paper an increment mining uaarsc algorithm based on the correlative aarsc algorithm. the algorithm improves incremental computation and may find the associative rules between the frequent and non-frequent alarm sequences.key words： associa

4、tive rules； data mining； sliding window； incremental computation0 引言数据挖掘是从大量、不完整、有噪声的随机数据中，提取隐含在其中、人们不知道但又潜在有用的信息和知识的过程。agrawal等人提出了挖掘关联规则的一个重要方法apriori算法1。为了挖掘具有时序特征的告警关联规则问题，hatonen等在apriori算法基础上提出了基于滑动窗口的winepi算法2，并在tasa(telecommunications alarm sequence analyzer)系统中采用了该算法3。这些算法的处理过程一般分为两个阶段：利用支持

5、度发现频繁告警序列；利用置信度产生关联规则。为了提高算法的效率、减少数据库访问次数，避免在第一阶段中生成大量候选项目集，han等人提出了基于fp树生成频繁项目集的fp-growth算法，该算法将频繁项集压缩保存在一棵fp-tree中，在一定程度上提高了频繁项集的存取速度，从而提高了挖掘频繁项目集的效率。以上算法都是在高支持度，高置信度的条件下，挖掘出告警关联规则。但在挖掘电信网络告警关联规则时，以高支持度和高置信度为条件的算法具有一定局限性。如在分析某省电信网管告警数据库连续6万条告警记录时发现，该数据库中共有1738个网元上报告警：其中1个网元上报8521次告警，1个网元上报4729次告警，

6、14个网元上报告警次数在10002000之间，12个网元上报告警次数在5001000之间，而上报告警次数小于100次的网元有1669个，若在上述告警数据库中采用apriori、winepi或fp-growth算法产生关联规则，即使支持度设定为1%也只能发现28个网元之间的告警关联关系，甚至设定为0.1%（己经很低了）仍然无法发现告警次数小于100的1669个网元之间的关联关系。而这些非频繁的告警序列之间也会存在一些关联规则，这些告警间关联规则在实际工作中对网管人员解决故障有很大的帮助。因此，挖掘在高置信度和低支持度（或者不考虑支持度）条件下的告警关联规则具有重要的实际意义。在实际网络中非频繁告

7、警的种类是巨大的，而且具有很强的随机性，挖掘这些告警间的关联规则，对于网络管理具有很大的实际意义。本文在分析以高相关度、高置信度为条件，在基于相关度统计的告警关联规则挖掘aarsc算法(alarm association rules algorithm based on statistical correlation)的基础上，为了适应告警数据动态增加的特点，提出了一种增量式挖掘uaarsc算法(updating-aarsc)。uaarsc算法可以发现频繁和非频繁告警序列间的关联规则，从而提高了告警关联规则的完整性和准确性。1 关联规则的增量式更新算法目前关联规则的更新算法，如fup算法4、f

8、up2算法5和iua算法6都是基于支持度-置信度框架下提出的，仅针对大于最小支持度闭值的频繁项集进行挖掘。我们这里在基于相关度aarsc算法基础上，提出一种在数据库增加时的增量式挖掘uaarsc(updating-aarsc)算法。1.1 算法框架设数据库为d，新增数据库为d。由于计算cov(x,y)和x在aarsc算法中耗时较多，因此在增量式挖掘算法中针对这两部分进行改进。下面分别介绍增量计算cov(x,y)和x的方法。算法中的符号说明。如表1所示。表1 算法中符号说明&数据库d&数据库d&数据库dd&窗口数&n1&n2&n1n2&均值&i0&i1&i&我们以i0表示告警次在dd与d中的均值

9、差，即i0=ii0；i1表示告警次在dd与d中的均值差，即i1i一i1。增量计算cov(x,y)这部分耗时最大，在dd数据库中的相关系数为cov(x,y)=+= 增量计算xx=因此在数据库dd中计算结果为分别在d和d上计算cov(x,y)和x的结果。再加上一个常数。通常来讲，n1n2，因此每次都只需要计算很少的数据量。1.2 算法描述增量挖掘uaarsc算法的基本描述如下。输入：告警数据库d；告警增量数据库d；最小相关度mincor；最小置信度minconf；滑动窗口win和滑动步长step。输出：s中满足mincor和minconf的关联规则。方法： cov2l，aver=com

10、putecorr(d，mincor，win，step) cov2lold=cov2l，averold=aver; cov2l，aver=computercorr(d,mincor，win，step) average=mean(dd，averold，aver)， averlaverageave， aver2averageaverold 将两次挖掘结果，根据均值，调整、组合根据mincor和minconf，挖掘二项关联规则生成多项集2 实验及其分析实验采用的测试数据是某省电信公司连续二周的告警数据(15万条记录)。实验中将告警类型标识和告警发生时间（单位/秒）作为关键字进行挖掘。告警时间窗设为

11、5min，滑动步长设为2min；最小支持度1%，最小相关度0.5。实验1：告警记录分别设为3、6、9、12、15万条记录；采用winepi算法、aarsc算法及其更新uaarsc算法(等量增加)分别进行挖掘。在执行效率方面，比较的结果如图1所示。图1 执行时间比较相关矩阵aarsc算法比winepi的执行速度要快，主要是因为winepi算法产生频繁候选集时，长度每增加一个，都要扫描一次数据库，所以时间开销很大；基于相关矩阵aarsc算法只需扫描一次数据库，然后进行矩阵运算即可，因此执行时间比winepi少；从图1可以看出，由于uaarsc算法利用前次的挖掘结果，仅需要计算增量部分的告警数据，因

12、此执行效率最高。实验2：用五种不同的增量交易数据库，以5万条记录为基准，分别增加4、3、2、1万条记录，比较更新算法在执行效率方面的优势。结果如图2所示。图2 增量数据执行时间比较数据库记录增加时，增量式挖掘算法在系统执行时间上有较大改进。主要是因为随着数据库记录的增加，winepi和相关矩阵算法都要重新挖掘数据库，而增量式挖掘算法只对新增数据进行挖掘，因此算法的效率有显著提高。如图2中告警记录为15万，新增1万条告警记录时，更新算法只需挖掘新增数据，然后与原有数据合并，产生关联规则，而其他算法都只能重新挖掘15万条告警记录，因此算法效率有很大差别。3 结束语本文针对实际网管系统数据逐渐更新的

13、情况，提出了增量式更新算法，从理论推导和实验结果两方面证明了增量式挖掘更加有利于实际电信网络中告警关联规则的挖掘。参考文献：1 agrawal r,t.imielinski,and a.swami.mining association rulesbetween sets of items in largedatabasesc.proeeedings of the 1993 acm sigmod conference,washington,d.c.,may 1993:2072162 k.hatonen,m.klemettinen,h.mannila,p.ronkainen.knowledgedi

14、scovery from telecommunication network alarm databases c.proceesing of the 12th intemational conference on data engineer,(icde96) new orleans,louisiana,feb.1996:1151223 k. hatonen, m.klemettinen,h.mannila,portland,oregon.tasa:telecommunications alarm sequence analyzer or how to enjoy faults in your

15、network a.ieee/ifip 1996 network operations and management symposium(noms96)c.,kyoto,japan,april 1996:5205294 cheung d.w.et al.maintenance of diseovered association rules inlarge databases:an incremental updating techniquec.in:proeeedings of the 1996 international conference on data engineering,new orleans,louisiana,1996:1061145 cheung d.w.et al.a general incremental technique for up dating discovered assoeiation rulesc.in:proceedings of the 1997 international confe

展开阅读全文