对FPTree头表节点数据结构的改进

资源描述

《对FPTree头表节点数据结构的改进》由会员分享，可在线阅读，更多相关《对FPTree头表节点数据结构的改进（6页珍藏版）》请在金锄头文库上搜索。

1、!“#$!%计算机工程与应用*，,，+，0，1)引言数据挖掘（(+;4?3:-.: (/9,4:AB /; (+?/0/;. U%“H)）85-%14-：ILM.A4?:(这里有一个问题，即当每次在?5:(中找到与头表有相同的3()*+,)(时，必须回到头表中，一个一个找出最后一个+.1(*23+4的项后，则将新找到的项再加入，这种做法每次有一个新的项目出现时就必须从头表第一个开始找，直到找出最后一个，时间复杂度为（(），数据量大时效率不佳。例如，在上例中，如果此时又要新增加一个含有=节点的分支，则新增加的=节点要加入头表的+.1(*23+4时，必须先找到头表的

2、=节点，通过其+.1(*23+4才能找到第一个=节点的位置，再通过第一个=节点的+.1(*23+4，找到下一个=节点所在的位置，重复上述步骤一直到找出最后一个=节点后，才将其加入。显然，这样重复多次，对算法的性能有很大影响。要解决这个问题，可以在头表节点中加上一个,32域，用来记录每一项的最后一个值，这样当头表加入一个新值时就不需要循序地一个一个找到最后一个+.1(*23+4，而可以直接将新增加的项放到,32域中即可。如果要新增加一个含有=节点的分支，则新增加的=节点要放入头表的+.1(*23+4中时，先到头表中寻找=节点的,32域，如果,32域的,32*23+4是空的，

3、则直接将新增加的=节点放入,32域中，并将=节点加入其头表的+.1(*23+4中，如果,32域不是空的，则将,32域的,32*23+4所指的接点的+(A指针，指向新增加的=节点，再将=节点加到其+.1(*23+4。回到上边的例子，在头表中增加的,32域，记录着每一项的+.1(*23+4所指的最后一个节点的位置，（这里位置以所在的行和列来表示）。见图!。如果此时新增一分路，内容为)，*，#，则（6）在头表中没找到)。!将+.1(*23+4指向新增加的)的位置；“再将)节点所在位置加入其,32域中。（!）在头表中找到7的,32域，已经有值存在，即,32非空。!将,32域中所

4、指节点的指针，先指向新增加的7节点所在位置；“再将新增加的7节点加入,32域中。（8）在头表中找到=的,32域，已经有值存在，即,32非空。!将,32域中所指节点的指针，先指向新增加的=节点所在位置；“再将新增加的=节点加入,32域中。图!头表中加了,32域的?:(结果如图8所示。图8新增8个节点后的?:(头表数据结构的变化：B5,=2(：5CD(1(9 E:/7F3+ 3()*+,)(；/+E3G+(1 3+ 7./+；H H项目所出现的次数E:/7 +.1( I+.1(*23+4；H H指向头表中相同项目的+.1(*23+4的下一个节点E:/7 +.1( I,32*23+4；H

5、H记录头表中相同项目的+.1(*23+4的最后一个节点所在位置JB5,=2(；算法的变化：只要在?G:.K$?-*661A .*419:4.6)1 +4.4 B*)C D6:61EA84: .-F.9G3H$I1：J*)N，EW? 3)1B-*-1I;W? I1.: 3)1B )1 W414A-C-1. )B ?4.4，?4:49，QN，!“#$7 NA*404:，7 *6=41.$L49. N:A)*6.KC9 B)* W6161A N99)41E.64A)，3K6:-，然后基于Netbeans 6.1开发平台,采用Java、JFreeChart等开发技术,结合PMML标准,完成关联规则下

6、的数据挖掘可视化技术的设计与实施.实践表明:所完成的工作能够将关联规则下的数据挖掘过程以可视化的元素展示给参与数据挖掘的用户,让用户能够对挖掘结果进行有效评估.4.学位论文邹庆轩基于关联规则的文本数据挖掘研究 2006本文提出并设计了一个文本数据挖掘系统原型，给出了系统原型体系结构并实现了该文本数据挖掘系统原型。文本数据挖掘是通过自动提取文本信息在大量文本数据中发现未知的知识的过程，与自然语言密切相关，其关键是把提取的信息组合起来发现未知知识。文本数据挖掘不同于Web搜索，Web搜索是人们事先已知要查找什么，而文本数据挖掘是发现未知知识，事先可能并不存在。文本数据挖掘也不同于常规意义上

7、的数据挖掘，常规数据挖掘是在数据库中发现感兴趣的模式，而文本数据挖掘是从自然语言文本中发现模式。关联规则是大量数据中各数据项之间的关联或相互联系。关联规则数据挖掘是要在给定的数据集中找出数据项之间的联系。关联规则主要描述数据集一组数据项间关系的密切程度，可以分为布尔型关联规则和量化型关联规则。关联规则的形式为X()Y。关联规则包含前提(X)和结果(Y)两部分，还用两个数值来度量规则的确定度。第一个度量值是支持度，是所有包含X和Y的项集占全部项集的比例。第二个度量值是置信度，是指包含X和Y的项集与包含X的项集之比。最为著名的关联规则发现发法是R.Agrawal提出的Apriori算法。Ap

8、riori算法用于发现单维、单层、布尔关联规则。其基本思想是基于这样一个结论：频繁项目集的任一非空子集必然是频繁项集。关联规则的挖掘一般可分成两个步骤：第一步是找出所有的支持度不低于用户设定的支持度最低值的频繁项目集；第二步是从频繁项目集中生成置信度不低于用户设定的置信度最低值的规则。FP-Growth(Frequent-Patterntree)算法由HanJW等人提出的，是一种不产生候选频繁项目集的方法。加权关联规则算法从用户的角度来解决数据库中各个项目对不同的用户的重要性不同，挖掘出对用户来说确实感兴趣的关联规则。5.会议论文徐慧英.熊岳山.薛建新基于关联规则的数据挖掘系统体系结

9、构设计本文对基于关联规则的数据挖掘系统体系结构设计进行了研究。文章阐述了数据挖掘的定义；介绍了数据挖掘在科学研究、市场营销、金融投资、产品制造、通信网络管理等领域的应用；论述了数据挖掘和AR3基于关联规则的数据挖掘系统体系结构。6.学位论文杨敏数据挖掘中关联规则的优化 2004数据挖掘是当前计算机学科的一个前沿研究方向.作为一门应用性很强的新兴技术,它存在很多值得研究的地方.如何合理的应用数据挖掘技术,如何针对现实生活中的问题改进数据挖掘技术是其中的热点问题.该文尝试从一个新的角度研究数据挖掘中关联规则的优化问题:加强支持度和信任度的定义,使其不用增加新的阈值就可以挖掘出无冗余、无

10、虚假的关联规则.现有的关联规则发现算法基本采用频繁K项目集来生成候选K+1频繁项目集.当交易数据库很大时,计算频繁项目集的时间较长,并且在降低支持度和信任度时,关联规则数目会急剧增加,包含了大量的冗余规则,从而影响到整个算法的效率.同时由于关联规则定义的局限性,使得生成的相当一部分关联规则是虚假的、无意义的.针对这挖掘出来的问题,该文重新给出关联规则的形式定义,提出了一个关联规则生成算法,该算法通过引入反向项目来加强支持度和信任度的定义,并且通过简单冗余规则和严格冗余规则的定义来删除正向规则与反向规则的冗余项,从而从整体上提高了挖掘出来的关联规则的质量.7.期刊论文刘春.谭琨.安向明.

11、Liu Chun.Tan Kun.An Xiangming 数据挖掘中关联规则的研究与应用 -电脑学习2010(3)数据挖掘被称为数据库中的知识发现,是一个跨学科的研究领域.关联规则分析是数据挖掘中一个重要的讲题,用于发现存在于数据库中的项或属性间的关联联系 ,这些联系是事先未知且隐藏的.关联规则的研究主要集中在生成频繁项集的挖掘算法,通过对几种主要关联规则的算法分析,利用Apriori算法研究再生资源系统中关联规则的确定,从而实现物资的二次销售.8.学位论文彭斌基于关联规则的基因芯片数据挖掘与应用 2008人类基因组草图(HumanGenomeDraft，HGD)的绘制完成标志着现代生

12、命科学研究从基因组时代进入了后基因组时代，研究的重心由结构基因组学转向功能基因组学，基因彼此之间的相互作用、相互影响越来越多地受到研究者的关注。基因芯片作为一种高通量的检测技术，可以同时检测成千上万条基因的表达水平，成为研究基因与基因之间相互作用关系的强大工具。随着基因芯片大量数据的产生，数据挖掘成为从基因芯片表达数据中解读基因相关信息的重要技术手段。本研究针对目前关联规则挖掘技术用于基因芯片表达数据分析时存在的问题，从三个方面进行了比较全面和深入的研究：时序基因芯片表达数据的跨事务关联规则挖掘、传统关联规则中基因表达状态信息缺失问题及大量关联规则的聚类问题等。本文的主要内容及贡献包括：

13、(1)时序基因芯片表达数据中的跨事务关联规则挖掘研究为了解决传统关联规则忽视数据中的时间信息以及无法对基因的表达状态进行动态预测的问题，本研究提出将跨事务关联规则挖掘技术引入到时序基因芯片表达数据的分析之中，并对跨事务关联规则进行了详细介绍。结合生物学数据库，包括GeneOntology基因注释数据库、iHOP数据库、DAVID生物信息学资源数据库等，对挖掘出来的跨事务关联规则进行分析，结果显示跨事务关联规则能够有效地挖掘时序基因芯片表达数据中的隐含信息，产生的关联规则符合生物学背景，合理地描述基因之间的动态表达行为。因此，跨事务关联规则为基因功能的预测提供了新的手段和方法。(2)传统关

14、联规则中基因表达状态信息缺失问题研究通过对传统关联规则中基因表达状态信息缺失这一问题的深入分析，本研究设计了一种新型的关联规则类型-差异表达关联规则 (DifferentialExpressionAssociationRules，DEAR)，并给出了基本定义及相关概念。为了能够有效地挖掘差异表达关联规则，本文提出了一种算法-差异表达关联规则矩阵算法(DifferentialExpressionAssociationRulesMatrixAlgorithm，DEARM算法)，并对进行了详细地阐述。实验结果表明，差异表达关联规则在发现基因表达模式及控制冗余规则产生方面要优于传统关联规则。差异表

15、达关联规则作为一种新的关联规则类型，是对关联规则挖掘内容的丰富，将有助于研究人员从基因芯片表达数据中揭示基因之间隐含的表达关系。(3)大量关联规则的聚类研究关联规则挖掘通常会推导出大量的规则，这给后期的分析与利用带来了巨大的障碍。本研究针对这一现实问题，提出了采用聚类分析对关联规则进行后期处理。为了更有效地对关联规则进行聚类，本文提出了新的关联规则相似性度量方法-内容结构加权度量，从关联规则的结构及内容上全面反映关联规则的相似性，克服了已有度量方法的缺陷只注重内容方面的缺陷。本文将聚类结果与生物学数据库GeneOntology相结合进行分析，从生物学的角度说明了同一个子类中的关联规则所

16、涉及的基因有着相似或者相关的生物学基础，体现了聚类在关联规则后期分析处理中的价值。因此，聚类分析将为研究才从关联规则中发现感兴趣的模式提供重要的、可视化的技术手段。9.期刊论文肖冬荣.杨磊.XIAO Dong-rong.TANG Lei 基于遗传算法的关联规则数据挖掘 -通信技术2010,43(1)关联规则是数据挖掘的重要手段,它基于支持度、置信度等对规则进行筛选,生成有用的规则,由于根据实际情况有时会产生虚假规则,所以兴趣度也自然被引入 .遗传算法是自动化技术、专家系统等经常采用的算法.通过改进的遗传算法进行关联规则数据挖掘并进行了实例应用.遗传算法能较好地得出发生交通事故原因与结果的关联规则,提高数据挖掘的效率.10.学位论文陈莉平基于关联规则的数据挖掘算法研究 2008数据挖掘或知识发现是用于数据分析和理解、揭示数据内部知识的技术，在最近几年里已被广泛的研究，其中关联规则是数据挖掘的一个重要的问题。关联规则的挖掘必须经过概念提出、概念

展开阅读全文