2022年数据挖掘：概念与技术

资源描述

《2022年数据挖掘：概念与技术》由会员分享，可在线阅读，更多相关《2022年数据挖掘：概念与技术（12页珍藏版）》请在金锄头文库上搜索。

1、简介本书完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订，加强和重新组织了全书的技术内容，重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容，还全面讲述了OLAP和离群点检测，并研讨了挖掘网络、复杂数据类型以及重要应用领域。本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书，是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材，可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。序言社会的计算机化显著地增强了我们产生和收集数据的能力。大量数据从我们生活的每个角落涌出。存储的或瞬态的数据的爆炸性增长已激起对新技术和自动

2、工具的需求，以帮助我们智能地将海量数据转换成有用的信息和知识。这导致称做数据挖掘的一个计算机科学前沿学科的产生，这是一个充满希望和欣欣向荣并具有广泛应用的学科。数据挖掘通常又称为数据中的知识发现（KDD ），是自动地或方便地提取代表知识的模式；这些模式隐藏在大型数据库、数据仓库、Web 、其他大量信息库或数据流中。本书考察知识发现和数据挖掘的基本概念和技术。作为一个多学科领域，数据挖掘从多个学科汲取营养。这些学科包括统计学、机器学习、模式识别、数据库技术、信息检索、网络科学、知识库系统、人工智能、高性能计算和数据可视化。我们提供发现隐藏在大型数据集中的模式的技术，关注可行性、有用性、有效性

3、和可伸缩性问题。因此，本书不打算作为数据库系统、机器学习、统计学或其他某领域的导论，尽管我们确实提供了这些领域的必要背景材料，以便读者理解它们各自在数据挖掘中的作用。本书是对数据挖掘的全面介绍。对于计算科学的学生、应用开发人员、行业专业人员以及涉及以上列举的学科的研究人员，本书应当是有用的。数据挖掘出现于20 世纪 80 年代后期， 20 世纪 90 年代有了突飞猛进的发展，并可望在新千年继续繁荣。本书全面展示该领域，介绍有趣的数据挖掘技术和系统，并讨论数据挖掘的应用和研究方向。写本书的重要动机是需要建立一个学习数据挖掘的有组织的框架由于这个快速发展领域的多学科特点，这是一项具有挑战性的任务

4、。我们希望本书有助于具有不同背景和经验的人交换关于数据挖掘的见解，为进一步促进这个令人激动的、不断发展的领域的成长做出贡献。本书的组织自本书第 1 版、第 2 版出版以来，数据挖掘领域已经取得了重大进展，开发出了许多新的数据挖掘方法、系统和应用，特别是对于处理包括信息网络、图、复杂结构和数据流，以及文本、 Web 、多媒体、时间序列、时间空间数据在内的新的数据类型。这种快速发展、新技术不断涌现使得在一本书中涵盖整个领域的广泛内容非常困难。因此，我们决定与其继续扩大本书的涵盖面，还不如让本书以足够的广度和深度涵盖该领域的核心内容，而把复杂数据类型的处理留给另一本即将面世的书。第 3版对本书的前

5、两版做了全面修订，加强和重新组织了全书的技术内容，显著地扩充和加强处理一般数据类型挖掘的核心技术。第2 版中讨论特定主题的章节（例如，数据预处理、频繁模式挖掘、分类和聚类）在这一版都被扩充，每章都分成两章。对于这些主题，一章囊括基本概念和技术，而另一章提供高级概念和方法。第 2 版关于复杂数据类型的章节（例如，流数据、序列数据、图结构数据、社会网络数据和多重关系数据，以及文本、 Web 、多媒体和时间空间数据）现在保留给专门介绍数据挖名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - -

6、第 1 页，共 12 页 - - - - - - - - - 掘的高级课题的新书。为了支持读者学习这些高级课题，我们把第2 版的相关章节的电子版放在本书的网站上，作为第3 版的配套材料。第 3 版各章的简要内容如下（重点介绍新的内容）：第 1 章提供关于数据挖掘的多学科领域的导论。该章讨论导致需要数据挖掘的数据库技术的发展历程和数据挖掘应用的重要性。该章考察挖掘的数据类型，包括关系的、事务的和数据仓库数据，以及复杂的数据类型，如时间序列、序列、数据流、时间空间数据、多媒体数据、文本数据、图、社会网络和Web数据。该章根据所挖掘的知识类型、所使用的技术以及目标应用的类型，对数据挖掘任务进行了

7、一般分类。最后讨论该领域的主要挑战。第 2 章介绍一般数据特征。该章首先讨论数据对象和属性类型，然后介绍基本统计数据描述的典型度量。该章概述各种类型数据的数据可视化技术。除了数值数据的可视化方法外，还介绍文本、标签、图和多维数据的可视化方法。第2 章还介绍度量各种类型数据的相似性和相异性的方法。第 3 章介绍数据预处理技术。该章首先介绍数据质量的概念，然后讨论数据清理、数据集成、数据归约、数据变换和数据离散化的方法。第 4章和第 5 章是数据仓库、OLAP （联机分析处理）和数据立方体技术的引论。第4章介绍数据仓库和OLAP 的基本概念、建模、结构、一般实现，以及数据仓库和其他数据泛化的关系

8、。第 5 章更深入地考察数据立方体技术，详细地研究数据立方体的计算方法，包括Star-Cubing和高维 OLAP方法。该章还讨论数据立方体和OLAP技术的进一步研究，如抽样立方体、排序立方体、预测立方体、用于复杂数据挖掘查询的多特征立方体和发现驱动的数据立方体的探查。第 6 章和第 7 章介绍挖掘大型数据集中的频繁模式、关联和相关性的方法。第 6 章介绍基本概念，如购物篮分析，还有条理地提供了许多频繁项集挖掘技术。这些涵盖从基本Apriori算法和它的变形，到改进性能的更高级的方法，包括频繁模式增长方法，使用数据的垂直形式的频繁模式挖掘，挖掘闭频繁项集和极大频繁项集。该章还讨论模式评

9、估方法并介绍挖掘相关模式的度量。第 7 章介绍高级模式挖掘方法。该章讨论多层和多维空间中的模式挖掘，挖掘稀有和负模式，挖掘巨型模式和高维空间数据，基于约束的模式挖掘和挖掘压缩或近似模式。该章还介绍模式探查和应用的方法，包括频繁模式的语义注解。第 8章和第 9 章介绍数据分类方法。由于分类方法的重要性和多样性，内容被划分成两章。第8 章介绍分类的基本概念和方法，包括决策树归纳、贝叶斯分类和基于规则的分类。该章还讨论模型评估和选择方法，以及提高分类准确率的方法，包括组合方法和处理不平衡数据。第 9 章讨论分类的高级方法，包括贝叶斯信念网络、后向传播的神经网络技术、支持向量机、使用频繁模式的分类、

10、k- 最邻近分类、基于案例的推理、遗传算法、粗糙集理论和模糊集方法。附加的主题包括多类分类、半监督分类、主动学习和迁移学习。聚类分析是第10 章和第 11 章的主题。第10 章介绍数据聚类的基本概念和方法，包括基本聚类分析方法的概述、划分方法、层次方法、基于密度的方法和基于网格的方法。该章还介绍聚类评估方法。第11 章讨论聚类的高级方法，包括基于概率模型的聚类、聚类高维数据、聚类图和网络数据，以及基于约束的聚类。第 12 章专门讨论离群点检测。本章介绍离群点的基本概念和离群点分析，并从各种监督力度（监督的、半监督的和无监督的）以及方法角度（统计学方法、基于邻近性的方法、基于聚类的方法和基

11、于分类的方法）讨论离群点检测方法。该章还讨论挖掘情境离群点和集体离群点，以及高维数据中的离群点检测。最后，在第13 章我们讨论数据挖掘的趋势、应用和研究前沿。我们简略地介绍挖掘复杂数据类型，包括挖掘序列数据（例如，时间序列、符号序列和生物学序列），挖掘图和网络，以及挖掘空间、多媒体、文本和 Web数据。这些数据挖掘方法的深入讨论留给正在撰名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 12 页 - - - - - - - - - 写的数据挖掘高级课题一书。然后，该章

12、转向讨论其他数据挖掘方法学，包括统计学数据挖掘、数据挖掘基础、可视和听觉数据挖掘，以及数据挖掘的应用。讨论数据挖掘在金融数据分析、零售和电信产业、科学与工程，以及入侵检测和预防方面的应用。该章还讨论数据挖掘与推荐系统的联系。由于数据挖掘出现在我们日常生活的方方面面，所以我们讨论数据挖掘与社会，包括无处不在和无形的数据挖掘，以及隐私、安全和数据挖掘对社会的影响。我们用考察数据挖掘的发展趋势结束本书。书中楷体字用于强调定义的术语，而黑体字用于突出主要思想。本书与其他数据挖掘教材相比具有一些显著特点：它广泛、深入地讨论了数据挖掘原理。各章尽可能是自包含的，使得读者可以按自己感兴趣的次序阅读。高级章

13、节提供了更大的视野，感兴趣的读者可以选读。本书提供了数据挖掘的所有主要方法，还提供了关于多维 OLAP分析等数据挖掘的重要主题，这些主题在其他书中常常被忽略或很少提及。本书还维护了一个网站，其中包含大量在线资源，为教师、学生和该领域的专业人员提供支持。这些将在下面介绍。致教师本书旨在提供数据挖掘领域的一个广泛而深入的概览，可以作为高年级本科生或一年级研究生的数据挖掘导论。除了讲稿、教师指南和阅读材料列表等教学资源之外，本书网站还提供了一个样本课程安排。根据授课学时、学生的背景和你的兴趣，你可以选取章节的子集，以不同的顺序进行讲授。例如，如果你只打算给学生讲授数据挖掘入门导论，可以按照图P.

14、1 的建议。注意，根据需要，必要时可以省略其中某些节或某些小节。图 P.1 入门导论课程的建议章节序列根据学时和讲授范围，你可以有选择地把更多的章节增加到这个基本序列中。例如，对高级分类方法更感兴趣的教师可以首先增加“第9 章分类：高级方法”；对模式挖掘更感兴趣的教师可以选择包括“第7 章高级模式挖掘”；而对OLAP 和数据立方体技术感兴趣的教师可以增加“第4 章数据仓库与联机分析处理” 和“第5 章数据立方体技术”。或者，你可以选择在两个学期的系列课程中讲授整本书，包括本书的所有章节，时间允许的话，加上图和网络挖掘这样的高级课题。这些高级课题可以从本书网站提供的配套材料选择，辅以挑选的研

15、究论文。本书的每一章都可以用做自学材料，或者用做数据库系统、机器学习、模式识别和数据智能分析等相关课程的专题。每章后面都有一些习题，适合作为家庭作业。这些习题或者是用于测验对内容的掌握情况的小问题，或者是需要分析思考的大问题，或者是实现设计。有些习题也可以用做研究讨论课题。每章后面的文献注释可以用来查找包含正文中提供的概念和方法的来源、相关课题的深入讨论和可能的扩展的研究文献。致学生我们希望本书将激发你对年青，但正在快速发展的数据挖掘领域的兴趣。我们试图以清晰的方式提供材料，仔细地解释所涵盖的主题。每一章后面都附有一个小结，总结要点。全书包含了许多图和解释，以便使本书更加有趣和便于阅读。尽

16、管本书是作为教材编写的，但是我们也试图把它组织成一本有用的参考书或手册，以有助于你今后在数据挖掘方面进行深入研究和求职。为阅读本书，你需要知道什么？你应当具有关于统计学、数据库系统和机器学习的概念和术语方面的知识。然而，我们尽力提供这些基础知识的足够背景，以便在读者对这些领域不太熟悉或者记忆有些淡忘时，名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 12 页 - - - - - - - - - 也能够理解本书的讨论。你应当具有一些程序设计经验。特别是你应当能够阅读伪代码

17、，能够理解像多维数组这样的简单数据结构。致专业人员本书旨在涵盖数据挖掘领域的广泛主题。因此，本书是关于该主题的一本优秀手册。由于每一章的编写都尽可能独立，所以读者可以关注自己最感兴趣的课题。希望学习数据挖掘关键思想的应用程序员和信息服务管理人员可以使用本书。对于有兴趣使用数据挖掘技术解决其业务问题的银行、保险、医药和零售业的数据分析人员，本书也是有用的。此外，本书也可以作为数据挖掘领域的全面综述，有助于研究人员提升数据挖掘技巧，扩展数据挖掘的应用范围。本书所提供的技术和算法是实用的，介绍的算法适合于发现隐藏在大型、现实数据集中的模式和知识，而不是挑选在小型“玩具”数据库上运行良好的算法。本书

18、提供的每个算法都用伪代码解释。伪代码类似于程序设计语言C，但也精心加以策划，使得不熟悉C或C+ 的程序员易于理解。如果你想实现算法，你会发现将我们的伪代码转换成选定的程序设计语言程序是一项非常简单的任务。本书资源网站这些网站为本书的读者和对数据挖掘感兴趣的人提供了一些附加材料，资源包括：每章的幻灯片。提供了用微软的PowerPoint 制作的每章教案。高级数据挖掘的配套章节。本书第 2 版的第 810 章涵盖了挖掘复杂的数据类型，这超出了本书的主题，对这些高级主题感兴趣的读者可从网站上获取。教师手册。本书习题的完整答案通过出版社的网站只向教师提供。课程提纲和教学计划。使用本书和幻灯片用于数据

19、挖掘导论课程和高级教程的本科生和研究生，可以获取这些资源。带超链接的辅助阅读文献列表。补充读物的原创性文章按章组织。到数据挖掘数据集和软件的链接。我们将提供到数据挖掘数据集和某些包含有趣的数据挖掘软件包的站点的链接，如到伊利诺伊大学厄巴纳- 尚佩恩分校IlliMine的链接。作业、考试和课程设计样本。一组作业、考试和课程设计样本将在出版社的网站上向教师提供。本书的插图。这可能有助于你制作自己的课堂教学幻灯片。本书目录。PDF格式。本书不同印次的勘误表。欢迎读者指出本书中的错误。一旦错误被证实，我们将更新勘误表，并对你的贡献致谢。目录致谢作者简介第 1 章引论1.1 为什么进行数据挖掘1.1

20、.1 迈向信息时代1.1.2 数据挖掘是信息技术的进化1.2 什么是数据挖掘1.3 可以挖掘什么类型的数据名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页，共 12 页 - - - - - - - - - 1.3.1 数据库数据1.3.2 数据仓库1.3.3 事务数据1.3.4 其他类型的数据1.4 可以挖掘什么类型的模式1.4.1 类/ 概念描述：特征化与区分1.4.2 挖掘频繁模式、关联和相关性1.4.3 用于预测分析的分类与回归1.4.4 聚类分析1.4.5 离群点分析1

21、.4.6 所有模式都是有趣的吗1.5 使用什么技术1.5.1 统计学1.5.2 机器学习1.5.3 数据库系统与数据仓库1.5.4 信息检索1.6 面向什么类型的应用1.6.1 商务智能1.6.2 Web搜索引擎1.7 数据挖掘的主要问题1.7.1 挖掘方法1.7.2 用户界面1.7.3 有效性和可伸缩性1.7.4 数据库类型的多样性1.7.5 数据挖掘与社会1.8 小结1.9 习题1.10 文献注释第 2 章认识数据2.1 数据对象与属性类型2.1.1 什么是属性2.1.2 标称属性2.1.3 二元属性2.1.4 序数属性2.1.5 数值属性2.1.6 离散属性与连续属性2.2 数据的基本统

22、计描述2.2.1 中心趋势度量：均值、中位数和众数2.2.2 度量数据散布：极差、四分位数、方差、标准差和四分位数极差2.2.3 数据的基本统计描述的图形显示2.3 数据可视化2.3.1 基于像素的可视化技术2.3.2 几何投影可视化技术2.3.3 基于图符的可视化技术名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页，共 12 页 - - - - - - - - - 2.3.4 层次可视化技术2.3.5 可视化复杂对象和关系2.4 度量数据的相似性和相异性2.4.1 数据矩阵与

23、相异性矩阵2.4.2 标称属性的邻近性度量2.4.3 二元属性的邻近性度量2.4.4 数值属性的相异性：闵可夫斯基距离2.4.5 序数属性的邻近性度量2.4.6 混合类型属性的相异性2.4.7 余弦相似性2.5 小结2.6 习题2.7 文献注释第 3 章数据预处理3.1 数据预处理：概述3.1.1 数据质量：为什么要对数据预处理3.1.2 数据预处理的主要任务3.2 数据清理3.2.1 缺失值3.2.2 噪声数据3.2.3 数据清理作为一个过程3.3 数据集成3.3.1 实体识别问题3.3.2 冗余和相关分析3.3.3 元组重复3.3.4 数据值冲突的检测与处理3.4 数据归约3.4.1 数据

24、归约策略概述3.4.2 小波变换3.4.3 主成分分析3.4.4 属性子集选择3.4.5 回归和对数线性模型：参数化数据归约3.4.6 直方图3.4.7 聚类3.4.8 抽样3.4.9 数据立方体聚集3.5 数据变换与数据离散化3.5.1 数据变换策略概述3.5.2 通过规范化变换数据3.5.3 通过分箱离散化3.5.4 通过直方图分析离散化3.5.5 通过聚类、决策树和相关分析离散化3.5.6 标称数据的概念分层产生3.6 小结名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页

25、，共 12 页 - - - - - - - - - 3.7 习题3.8 文献注释第 4 章数据仓库与联机分析处理4.1 数据仓库：基本概念4.1.1 什么是数据仓库4.1.2 操作数据库系统与数据仓库的区别4.1.3 为什么需要分离的数据仓库4.1.4 数据仓库：一种多层体系结构4.1.5 数据仓库模型：企业仓库、数据集市和虚拟仓库4.1.6 数据提取、变换和装入4.1.7 元数据库4.2 数据仓库建模：数据立方体与OLAP 4.2.1 数据立方体：一种多维数据模型4.2.2 星形、雪花形和事实星座：多维数据模型的模式4.2.3 维：概念分层的作用4.2.4 度量的分类和计算4.2.5 典型的

26、 OLAP操作4.2.6 查询多维数据库的星网查询模型4.3 数据仓库的设计与使用4.3.1 数据仓库的设计的商务分析框架4.3.2 数据仓库的设计过程4.3.3 数据仓库用于信息处理4.3.4 从联机分析处理到多维数据挖掘4.4 数据仓库的实现4.4.1 数据立方体的有效计算：概述4.4.2 索引 OLAP数据：位图索引和连接索引4.4.3 OLAP查询的有效处理4.4.4 OLAP服务器结构：ROLAP 、MOLAP 、HOLAP 的比较4.5 数据泛化：面向属性的归纳4.5.1 数据特征的面向属性的归纳4.5.2 面向属性归纳的有效实现4.5.3 类比较的面向属性归纳4.6 小结4.7

27、习题4.8 文献注释第 5 章数据立方体技术5.1 数据立方体计算：基本概念5.1.1 立方体物化：完全立方体、冰山立方体、闭立方体和立方体外壳5.1.2 数据立方体计算的一般策略5.2 数据立方体计算方法5.2.1 完全立方体计算的多路数组聚集5.2.2 BUC ：从顶点方体向下计算冰山立方体5.2.3 Star-Cubing：使用动态星树结构计算冰山立方体5.2.4 为快速高维OLAP预计算壳片段名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页，共 12 页 - - - -

28、 - - - - - 5.3 使用探索立方体技术处理高级查询5.3.1 抽样立方体：样本数据上基于OLAP的挖掘5.3.2 排序立方体： top-k查询的有效计算5.4 数据立方体空间的多维数据分析5.4.1 预测立方体：立方体空间的预测挖掘5.4.2 多特征立方体：多粒度上的复杂聚集5.4.3 基于异常的、发现驱动的立方体空间探查5.5 小结5.6 习题5.7 文献注释第 6 章挖掘频繁模式、关联和相关性：基本概念和方法6.1 基本概念6.1.1 购物篮分析：一个诱发例子6.1.2 频繁项集、闭项集和关联规则6.2 频繁项集挖掘方法6.2.1 Apriori算法：通过限制候选产生发现频繁项集

29、6.2.2 由频繁项集产生关联规则6.2.3 提高 Apriori算法的效率6.2.4 挖掘频繁项集的模式增长方法6.2.5 使用垂直数据格式挖掘频繁项集6.2.6 挖掘闭模式和极大模式6.3 哪些模式是有趣的：模式评估方法6.3.1 强规则不一定是有趣的6.3.2 从关联分析到相关分析6.3.3 模式评估度量比较6.4 小结6.5 习题6.6 文献注释第 7 章高级模式挖掘7.1 模式挖掘：一个路线图7.2 多层、多维空间中的模式挖掘7.2.1 挖掘多层关联规则7.2.2 挖掘多维关联规则7.2.3 挖掘量化关联规则7.2.4 挖掘稀有模式和负模式7.3 基于约束的频繁模式挖掘7.3.1 关

30、联规则的元规则制导挖掘7.3.2 基于约束的模式产生：模式空间剪枝和数据空间剪枝7.4 挖掘高维数据和巨型模式7.5 挖掘压缩或近似模式7.5.1 通过模式聚类挖掘压缩模式7.5.2 提取感知冗余的top-k模式7.6 模式探索与应用7.6.1 频繁模式的语义注解名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页，共 12 页 - - - - - - - - - 7.6.2 模式挖掘的应用7.7 小结7.8 习题7.9 文献注释第 8 章分类：基本概念8.1 基本概念8.1.1

31、什么是分类8.1.2 分类的一般方法8.2 决策树归纳8.2.1 决策树归纳8.2.2 属性选择度量8.2.3 树剪枝8.2.4 可伸缩性与决策树归纳8.2.5 决策树归纳的可视化挖掘8.3 贝叶斯分类方法8.3.1 贝叶斯定理8.3.2 朴素贝叶斯分类8.4 基于规则的分类8.4.1 使用 IF-THEN 规则分类8.4.2 由决策树提取规则8.4.3 使用顺序覆盖算法的规则归纳8.5 模型评估与选择8.5.1 评估分类器性能的度量8.5.2 保持方法和随机二次抽样8.5.3 交叉验证8.5.4 自助法8.5.5 使用统计显著性检验选择模型8.5.6 基于成本效益和ROC 曲线比较分类器8.

32、6 提高分类准确率的技术8.6.1 组合分类方法简介8.6.2 装袋8.6.3 提升和 AdaBoost 8.6.4 随机森林8.6.5 提高类不平衡数据的分类准确率8.7 小结8.8 习题8.9 文献注释第 9 章分类：高级方法9.1 贝叶斯信念网络9.1.1 概念和机制9.1.2 训练贝叶斯信念网络9.2 用后向传播分类9.2.1 多层前馈神经网络9.2.2 定义网络拓扑名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页，共 12 页 - - - - - - - - - 9.

33、2.3 后向传播9.2.4 黑盒内部：后向传播和可解释性9.3 支持向量机9.3.1 数据线性可分的情况9.3.2 数据非线性可分的情况9.4 使用频繁模式分类9.4.1 关联分类9.4.2 基于有区别力的频繁模式分类9.5 惰性学习法 ( 或从近邻学习）9.5.1 k- 最近邻分类9.5.2 基于案例的推理9.6 其他分类方法9.6.1 遗传算法9.6.2 粗糙集方法9.6.3 模糊集方法9.7 关于分类的其他问题9.7.1 多类分类9.7.2 半监督分类9.7.3 主动学习9.7.4 迁移学习9.8 小结9.9 习题9.10 文献注释第 10 章聚类分析：基本概念和方法10.1 聚类分析1

34、0.1.1 什么是聚类分析10.1.2 对聚类分析的要求10.1.3 基本聚类方法概述10.2 划分方法10.2.1 k- 均值：一种基于形心的技术10.2.2 k- 中心点：一种基于代表对象的技术10.3 层次方法10.3.1 凝聚的与分裂的层次聚类10.3.2 算法方法的距离度量10.3.3 BIRCH ：使用聚类特征树的多阶段聚类10.3.4 Chameleon：使用动态建模的多阶段层次聚类10.3.5 概率层次聚类10.4 基于密度的方法10.4.1 DBSCAN：一种基于高密度连通区域的基于密度的聚类10.4.2 OPTICS ：通过点排序识别聚类结构10.4.3 DENCLUE：基

35、于密度分布函数的聚类10.5 基于网格的方法10.5.1 STING ：统计信息网格10.5.2 CLIQUE ：一种类似于Apriori的子空间聚类方法名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页，共 12 页 - - - - - - - - - 10.6 聚类评估10.6.1 估计聚类趋势10.6.2 确定簇数10.6.3 测定聚类质量10.7 小结10.8 习题10.9 文献注释第 11 章高级聚类分析11.1 基于概率模型的聚类11.1.1 模糊簇11.1.2 基

36、于概率模型的聚类11.1.3 期望最大化算法11.2 聚类高维数据11.2.1 聚类高维数据：问题、挑战和主要方法11.2.2 子空间聚类方法11.2.3 双聚类11.2.4 维归约方法和谱聚类11.3 聚类图和网络数据11.3.1 应用与挑战11.3.2 相似性度量11.3.3 图聚类方法11.4 具有约束的聚类11.4.1 约束的分类11.4.2 具有约束的聚类方法11.5 小结11.6 习题11.7 文献注释第 12 章离群点检测12.1 离群点和离群点分析12.1.1 什么是离群点12.1.2 离群点的类型12.1.3 离群点检测的挑战12.2 离群点检测方法12.2.1 监督、半监督

37、和无监督方法12.2.2 统计方法、基于邻近性的方法和基于聚类的方法12.3 统计学方法12.3.1 参数方法12.3.2 非参数方法12.4 基于邻近性的方法12.4.1 基于距离的离群点检测和嵌套循环方法12.4.2 基于网格的方法12.4.3 基于密度的离群点检测12.5 基于聚类的方法12.6 基于分类的方法名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页，共 12 页 - - - - - - - - - 12.7 挖掘情境离群点和集体离群点12.7.1 把情境离群点

38、检测转换成传统的离群点检测12.7.2 关于情境对正常行为建模12.7.3 挖掘集体离群点12.8 高维数据中的离群点检测12.8.1 扩充的传统离群点检测12.8.2 发现子空间中的离群点12.8.3 高维离群点建模12.9 小结12.10 习题12.11 文献注释第 13 章数据挖掘的发展趋势和研究前沿13.1 挖掘复杂的数据类型13.1.1 挖掘序列数据：时间序列、符号序列和生物学序列13.1.2 挖掘图和网络13.1.3 挖掘其他类型的数据13.2 数据挖掘的其他方法13.2.1 统计学数据挖掘13.2.2 关于数据挖掘基础的观点13.2.3 可视和听觉数据挖掘13.3 数据挖掘应用13.3.1 金融数据分析的数据挖掘13.3.2 零售和电信业的数据挖掘13.3.3 科学与工程数据挖掘13.3.4 入侵检测和预防数据挖掘13.3.5 数据挖掘与推荐系统13.4 数据挖掘与社会13.4.1 普适的和无形的数据挖掘13.4.2 数据挖掘的隐私、安全和社会影响13.5 数据挖掘的发展趋势13.6 小结13.7 习题13.8 文献注释参考文献名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页，共 12 页 - - - - - - - - -

展开阅读全文

2022年数据挖掘：概念与技术

最新文档