广东省高等学校自然科学研究重点项目结题(验收)报告-模板-

资源描述

《广东省高等学校自然科学研究重点项目结题(验收)报告-模板-》由会员分享，可在线阅读，更多相关《广东省高等学校自然科学研究重点项目结题(验收)报告-模板-（16页珍藏版）》请在金锄头文库上搜索。

1、项目编号06Z012广东省高等学校自然科学研究重点项目结题（验收）报告项目名称：数据流异常挖掘及在欺诈检测中的应用研究项目负责人（签字）：蒋盛益研究类别：应用基础研究研究工作起止时间： 2007.9-2010.8 所在学校（盖章）：广东外语外贸大学结题时间： 2011.10 广东省教育厅制填表说明一、本结题（验收）报告填写内容必须实事求是，表达准确，字迹清晰。二、填入结题（验收）报告中的各项内容或数据，必须是省高等学校自然科学研究重点项目资助期间所取得的结果。三、 “项目名称”、“研究类别”、“项目编号”应与资助项目原申请（任务）书中所填相一致。四、本结题（验收

2、）报告应于项目完成后三个月内送交省教育厅科研处。项目原定的研究工作计划本项目的研究内容、工作方案。（包括采取的措施、技术路线、进度安排、拟达到的技术指标、提供成果方式等）1. 研究内容本项目以聚类分析为基础，研究基于聚类的高效数据流异常挖掘算法，并应用于欺诈检测中，具体包括5个方面的内容：（1）研究流数据中数据压缩表示模型和数据相似性的度量方法；（2）研究针对数据流的高效、自适应聚类算法，数据进化度量方法；（3）研究基于聚类模型的异常挖掘算法；（4）在聚类模型的基础上研究分类规则挖掘算法，进而研究基于规则的异常挖掘算法；（5）研究聚类、异常挖掘在欺诈检测等实际领域中的应用。2. 拟解决的关键问

3、题（1）数据流中数据压缩表示模型和数据流中数据相似性的度量方法；（2）数据进化和变化趋势的度量；（3）数据异常程度的度量；（4）基于聚类的分类规则挖掘方法的设计；（5）异常挖掘思想如何与欺诈检测等应用领域有机结合。3. 研究方法采用理论与实践相结合的方法。以聚类分析为基本手段，研究面向数据流的聚类算法，以不同时间粒度下聚类结果的差异性来研究数据进化，研究基于聚类的两阶段数据流异常挖掘算法；用已有的机器学习数据集(信用评估数据集，入侵检测评估数据集)以及实际领域中采集的数据集对异常检测算法进行测试、评估和分析，根据结果确认理论成果或对理论成果进行修改、完善，以达到预期的研究目标。最终将提出的异常

4、挖掘方法应用于欺诈检测领域。4. 技术路线针对5个方面的研究内容，具体技术路线如下：在已有静态数据相似性度量方法及数据表示模型基础上，增加表示时态性的要素，提出数据流的表示模型及数据相似性的度量方法。针对数据流的特点，考虑到数据模式变化的因素，提出可处理混合属性数据的高效率、高精度的据流聚类算法。利用倾斜时间窗口技术来跟踪时间相关的信息，通过多时间粒度下保存的聚类结果的差异性来挖掘数据进化特征和变化的趋势。将异常挖掘看成一类特殊的分类问题，研究基于聚类模型的异常挖掘算法。第一阶段建立聚类模型，研究度量一个类与整体偏离程度的方法，利用这种偏离程度将训练集的聚类结果进行标识，将偏离整体程度大的聚类

5、作为异常类（其中的每个对象或事件均看成异常），其它类作为正常类，而得到描述正常数据和异常数据的聚类模型（带分类标识）。第二阶段检测异常，利用对象与分类模型偏离的程度来判定对象是否异常，从而得到基于聚类的动态（或在线）异常数据挖掘算法。在已建立的刻画异常事件聚类模型基础上，利用流数据表示模型，从聚类模型中提取描述行为的分类规则，进而得到基于规则的流数据异常挖掘算法研究。在公用测试数据集上测试算法的性能，分析实验结果，并根据实际的检测结果，改进和完善算法。将经过测试数据检验后得到改进的算法应用到欺诈检测等实际领域。5. 预期成果理论研究方面：在数据流的相似性度量、数据进化度量、趋势检测、数据流的聚

6、类、高效分类规则的挖掘和数据流的异常挖掘等研究方面，提出新的有效方法，切实解决异常挖掘中存在的可扩展性、时效性与准确性问题。就上述问题写出12篇以上高水平的学术论文在国内外权威学术期刊和会议上发表。在实践方面：将所获得的理论研究成果应用于金融领域中的欺诈检测（信用卡的恶意透支检测、企业资金异常流动检测、反洗钱等），为相关应用领域的决策支持提供新的方法，提交算法实际应用的测试数据与结果。项目实际完成情况请按下列提纲填写：（可根据需要加页）（一）完成的研究内容，取得的主要研究成果，达到的目标及水平。1. 完成的研究内容三年来，项目组成员注意加强对内、外的合作与交流，真诚协作，按照项目规划的研究

7、内容，对数据挖掘的多种相关技术进行了系统的研究，在项目组所有人员的共同努力下，已完成研究计划，并在自然语言处理与信息检索方面进行了拓展研究。研究工作主要包括：数值属性离散化，特征选择，高效、自适应聚类算法，基于聚类的分类规则提取方法，稀有类的分类，基于聚类的异常挖掘算法等；提出的许多算法具有近似线性时间复杂度，可用于大规模数据集或数据流。主要研究工作进展及取得的成果如下：(1) 聚类及其应用研究Chameleon等聚类算法能识别任意形状的数据，但时间复杂度为（这里n，m分别是数据集的规模和数据包含的属性数目），难以用于大规模数据集，且不能处理含分类属性的数据；另一方面，一趟聚类算法时间复杂度为

8、近似线性时间复杂度，且能处理含分类属性的数据。为此，我们将能发现任意形状数据的聚类算法(Chameleon、SNN等)与一趟聚类算法快速高效的特点有机结合，研究两阶段混合聚类算法，设计了针对大规模、数据流的混合属性的高效聚类算法。其基本思想是：首先利用一趟聚类算法获得初始划分，将初始聚类结果的每个簇看成一个对象，再利用Chameleon等算法进行归并，得到最终聚类结果；理论分析表明，这类聚类算法具有近似线性时间复杂度，实验结果表明，提出的聚类算法可以识别任意形状数据。在这些算法的研究过程中，对于参数的选择提出了一些可行的策略，使得算法具有较好的自适应性。同时，我们研究了文本聚类算法，并应用于搜

9、索引擎检索结果的聚类，提出了WEB搜索结果多层聚类方法，以此为基础设计了一个元搜索引擎CluSearch(网址：http:/:8080/clustersearch/clusearch.jsp)，其性能较三个有影响的系统Vivisimo、iBoogie、Carrot2有优势。相关成果发表在“小型微型计算机系统”、“计算机应用”、“情报学报”、“山东大学学报”等期刊。(2) 分类算法研究从不同的应用角度研究了分类算法。不平衡类分类算法研究异常数据挖掘与稀有类分类之间存在一定的共性，许多异常数据包含在稀有类（相当于极端不平衡数据集）中。同时注意到，已有分类方法对不平衡数据集的分类性能不理想。为此

10、，我们将聚类与分类的思想结合，研究稀有类的分类方法，首先利用聚类将原始训练数据分割为2个子集，使两个数据集上的数据分布相对均衡，然后在每个子集上使用经典分类方法建立分类模型(如C4.5, Ripper, Bayes)，最后利用聚类模型和分类模型相结合对新对象分类；实验表明，这种策略可有效提高基分类器在不平衡数据集上的分类性能。基于聚类的分类算法研究结合聚类、关联规则的思想，研究基于聚类的分类规则提取方法，在聚类结果基础上提取分类规则，以提高分类规则提取的效率。相关研究成果有待进一步完善。相关成果发表在CDC2010、ADMA2009等会议及“计算机研究与发展”、“暨南大学学报”等学术期刊上。

11、(3) 异常数据挖掘算法研究及在欺诈检测、风险分析等实际领域中的应用研究在高效聚类算法的基础上，研究基于聚类的高效异常检测算法，提出了一组具有近似线性时间复杂度的异常检测算法。其基本思想是：异常数据会聚集在规模小且偏离大部分数据的地方。首先使用一趟聚类算法对数据进行聚类，然后对聚类结果的每个簇计算其异常程度，将异常程度高的簇识别为异常簇，从而识别异常数据。研究分类、聚类及异常检测方法在商业银行及上市公司风险分析中的应用，特别是在异常交易的发现、客户流失的发现等方面进行了一些基础研究。相关成果发表在“国际经贸探索”、“统计与决策”及FSKD2008、FSKD2009国际会议。(4) 高效特征选择

12、算法研究为提高聚类、分类算法的性能，我们从特征相关性与特征重要性两个方面研究高效特征选择算法。研究基于特征相关性的特征选择算法据我们所知，我们首次研究了混合特征（一个连续特征与一个离散特征）相关度的度量问题，借助方差分析的思想探讨混合特征相关度的度量方法，将这种度量方法应用于特征选择，无须离散化连续特征，有效提高了特征选择的效率。通过利用与目标特征的相关性大小来度量特征的重要程度，进而达到特征选择的目的；在特征相关性基础上进一步研究了特征聚类及特征簇中代表的选择策略（删除冗余特征的策略），从而实现无监督的特征选择。研究基于特征重要性的特征选择算法以聚类分析为基本工具，利用各个特征在不同簇上

13、的差异作为特征重要性的度量，我们研究了几种不同的度量特征重要性的方法，然后按重要程度的大小对特征进行重要性排序，最后采用差分方法根据重要性的变化规律选取特征子集。基于特征聚类和特征重要性的特征选择方法分别从去除冗余特征和不重要特征的角度实现特征选择，将这两种策略结合可以更有效地实现特征选择。相关成果发表在“电子学报”、“郑州大学学报”、“广西师范大学学报”、“小型微型计算机系统”、“计算机工程与应用”等期刊。相关研究论文都被同行引用。(5)数值属性离散化算法研究为研究基于聚类的分类规则提取方法奠定基础，研究了高效的无监督的离散化方法：近似等频离散化方法，提出的离散化方法具有近似线性时间复杂度

14、，适用于大规模数据集，性能优于已有无监督离散化方法，而与经典有监督的离散化方法的性能相当，将之应用于特征选择获得了很好的效果。相关成果发表在GCIS2009国际会议，使用Google学术搜索发现该成果已有5个引用。(6) 自然语言处理与信息检索研究将数据挖掘应用于文本信息处理。我们进行了分词、文本聚类与文本分类、主题词提取等方面的基础研究，提出了一种多层文本聚类算法和主题词提取算法，并应用于搜索引擎结果的归类，实现了一个元搜索引擎系统CluSearch；对KNN算法进行了改进，使分类效率和精度有明显改善。相关成果发表在“情报学报”、“Expert Systems with Applicati

15、ons”、“计算机工程与设计”等期刊上。在本项目的实施过程中，申请人蒋盛益负责全面工作并指导课题组成员的研究，项目组成员之间不仅经常讨论交流，还具体合作撰写论文，项目的完成是集体智慧的结晶和共同努力的结果。主要成员包括：蒋盛益，姜灵敏，王金矿，王雪剑，李霞，庞观松, 王连喜,余雯,郑琪，张振华等。2. 取得的成果项目实施取得的成果主要体现在学术成果的发表和人才的培养方面。(1) 论文发表情况本项目取得了一系列创新性研究成果，资助发表论文20篇，其中1篇论文将被SCI收录，5篇论文被EI收录。(2) 人才培养情况在项目执行期间，培养硕士生3人(王连喜于2010年6月毕业、余雯于2011年6月毕业、庞观松在读)。另资助一个以本科生为主体的“数据挖掘兴趣小组”，现有成员50余人，指导他们从事数据挖掘及应用方面的学习和研究，该小组已成为学生课外拓展学习的场所，许多同学获得了很好的成绩：获2008年“安利杯”泛珠三角大学生计算机毕业设计作品大赛银奖、广东赛区一等奖，2009年、2010年“安利杯”泛珠三角大学生计算机毕业设计作品大赛广东

展开阅读全文