第一章1、 数据挖掘的概念P3数据挖掘是从大量数据中提取或“挖掘”知识数据挖掘是个过程,目的是知识发现数据挖掘的过程:1数据预处理:①数据清理(消除重复的、不完全的、违反语义约束的数据),②数据集成(多种数据源可以组合在一起),①数据选择(从数据库中检索与 分析任务相关的数据),④数据变换(数据变换或统一成适合挖掘的形式,如 通过汇总或聚集操作)2数据挖掘(使用智能方法提取数据模式)3模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)4知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)2、 数据挖掘有哪些模式P3数据挖掘的模式:1分类模式,2回归模式,3时间序列模式,4聚类模式,5关 联规则模式,6序列模式3、 什么是有意义的模式1)它易于理解2)在某种必然程度上,对于新的或检验数据是有效的3) 是潜在有用的4)是新颖的如果一个模式符合用户确信的某种假设,它也是 有趣的有趣的模式就是知识4、 数据挖掘中能否挖掘出所有模式数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是 令人感兴趣的第二个问题——“数据挖掘系统能够产生所有有趣的模式吗?”——涉及数据挖掘 算法的完全性。
第三个问题——“数据挖掘系统能够仅产生有趣的模式吗”?一是 数据挖掘的优化问题5、数据挖掘的步骤(4),以及每一步骤的作用P46、 数据挖掘与知识发现有什么关系有趣的数据挖掘模式代表知识如果一个模式符合用户确信的某种假设, 它也是有趣的有趣的模式就是知识7、 数据挖掘的对象(11)P6-131) 数据存储库包括:关系数据库、数据仓库、事务数据库、高级数据库系统、 一般文件、数据流和万维网2) 高级数据库系统包括对象一关系数据库和面向特殊应用的数据库,如空间 数据库、时间序列数据库、文本数据库和多媒体数据库8、 数据挖掘的功能(6)P14-18功能:1概念/类描述:特征化和区分;2挖掘频繁模式,关联和相关;3分类 和预测;4聚类分析;9、 数据挖掘5个相关学科、技术P19图数据挖掘是交叉学科,受多个学科影响包括数据库系统,统计学,机器学习, 可视化和信息科学还有其他科学第二章1、 数据挖掘的第一阶段是数据预处理数据清理是用于去掉数据中的噪声数据,纠正不一致2、 数据预处理的分类、每个分类的作用、有什么技术P311数据清理(可以去掉数据中的噪声,纠正不一致):试图填充缺失的值,光 滑噪声并识别离群点,并纠正数据的不一致。
主要技术:1缺失值;1忽略元 组2人工填写缺失值3使用全局常量填充缺失值4使用属性的均值填充缺失 值5使用与给定元组属同一类的所有样本的属性均值6使用最可能得值填充 缺失值(使用推理进行预测);2光滑技术:1分箱,2回归,3聚类2数据集成(将多个数据源合并成一致的数据存储,构成一个完整的数据集, 如数据仓库或数据立方体);3数据变换(将一种格式的数据转换为另一格式的数据(如规范化)或统一成 合适于挖掘的形式主要技术:①光滑(去掉数据中的噪声,如分箱技术,回归,聚类);⑵聚集(对数据进行汇总或聚集);数据泛化(分层,用高层概念代替低层)①规范化(1最大最小规范化v' = —-~mna— (new _ max - new _ min ) + new _ min ; max 一 min A A A[new_min^,n^w_max^ ]是映射后的区域,[min^,max^ ]是变换前数据的最大最小值y'是转换后的数据2 z-score规范化/=忙土 ^ , b分别是原始 b A A数据的平均值,和标准差);3小数定标规范化、v,=工)10 7④属性构造;4数据归约(可以通过聚集、删除冗余特性或聚类等方法来压缩数据):数据归约是保持原来数据的完整性,将数据集变小,并不影响对结果的分析。
归约的策略:1数据立方体聚集2属性子集的选择3维度归约4数值归约5 离散化和概念分层产生3、 数据清理所需要的方法(6)P39数据清理可以分为有监督和无监督两类主要技术:1缺失值;1忽略元组2人工填写缺失值3使用全局常量填充缺失 值4使用属性的均值填充缺失值5使用与给定元组属同一类的所有样本的属 性均值6使用最可能得值填充缺失值(使用推理进行预测);2光滑技术:1 分箱,2回归,3聚类4、 什么是噪声数据如何处理(3)P40噪声是被测量的变量的随机误差或方差处理:(1)分箱2)聚类3)计算机和人工检查结合.(4)回归5、 数据集成的概念用来干什么方法有哪些P43数据集成是将多个数据源合并成一致的数据存储,构成一个完整的数据集, 如数据仓库或数据立方体它需要统一原始数据中的所有矛盾之处,如字段的:同名异义、异名同义、 单位不统一字长不一致,从而把原始数据在最低层上加以转换,提炼和集成1模式集成,2冗余问题,3数据值冲突的检测与处理6、 有哪些冗余(2),解决方法P43-44属性冗余:常用的解决方法是相关分析检测;卡方检验(分类或离散数据);元组冗余7、 数据变换内容和含义(5)P45数据变换将数据转换成适合于挖掘的形式。
主要是找到数据的特征表示, 对数据进行规格化处理用维变换或转换方式减少有效变量的数目或找到数 据的不变式8、 规范化有哪些方法至少掌握2种计算方法P45-46①最大最小规范化v' = —-~mna— (new _ max - new _ min ) + new _ min ;max 一 min A A A[new _ min A, new _ max A ]是映射后的区域,[min A, max A ]是变换前数据的最大 最小值v'是转换后的数据①z-score规范化v' = MA r ,分别是原始数据的平均值,和标准差);b A A①小数定标规范化、计=上10 79、 数据规约策略(47)P47归约的策略:1数据立方体聚集2属性子集的选择3维度归约4数值归约5 离散化和概念分层产生10、 属性子集选择的基本启发式方法包括什么技术(4)P48-491逐步向前选择2逐步向后删除3向前选择和向后删除的结合4决策树归纳第三章1、 数据仓库的概念、目的、特点P67数据仓库是一个面向主题的(围绕主题组织数据),集成的(由多个异构数据源 集成),时变的和非易失的数据集合,支持管理部门的决策过程2、 数据仓库的逻辑模式。
P72星形,雪花和事实星座模式3、 星型模式的事实表包括(2)P73事实表:包含度量值和关联维度表的码星形事实模型:包括维表和事实表维表记录的是基本信息,事实表记录业务过 程所以星形事实模型中,一般在维表上建立主键,在事实表上建立外键事实表包 括了外键和业务过程的数据事实表包含联系事实与维度表的数字度量值和键 事实数据表包含描述业务内特定事件的数据4、 数据仓库的物理结构(3: MRH-SQL Server是 H*)P865、OLAP 操作(5)P791上卷:就是将高维的数据压缩到低维,是个数据的累加过程Eg:从街道 上卷到城市就是把同一城市的所有街道的数据累加起来维度高低是属性 的个数,维度高属性个数多)通过一个维德概念分层向上攀升,或者通过维 归纳,对数据立方体进行聚集2下钻:是把数据的维度进一步分解,跟上卷相反°Eg:从城市分解到街道 上卷操作的逆操作从高层概括到底层概括,从不详细到更加详细3切片和切块:就是固定某一维数据,再观察其它维度的数据Eg:固定时间维,观察不同地点的销售数量4投影和选择转轴:可视化操作,从不同角度观察数据6、 数据仓库的实现(3)P88高效的立方体计算技术,存取方法和查询处理技术;7、 数据立方体的有效计算(2)。
P88① compute cube操作与维灾难Compute cube操作对操作指定维的所有子集计算聚集立方体计算的方体或 分组总数为2的N次方如3维(3个属性)数据的立方体,分组总数:2人3=8)② 部分物化:方体的选择计算数据立方体的物化:不物化、完全物化、部 分物化8、 维灾难概念P89完全物化指定义数据立方体的格中所有的方体的计算通常需要过多的存储 空间,特别是当维数和相关联的概念分层增长时,该问题称为维灾难9、 N维有多少个顶点2的N次方2N10、 数据仓库的查询(取)方法(3)P901位图索引2连接索引3位图连接索引11、 OLAP查询的有效处理步骤(2)P921确定哪些操作应当在可利用的方体上执行2确定相关操作应当使用哪些物化的方法第四章1、 冰山立方体的概念多路数据聚集不能计算冰山立方体)冰山立方体:不能满足阈值的单元,这种部分物化的单元称作冰山立方体2、 BUC计算冰山立方体P1091从顶点方体向下计算冰山立方体2Apriori剪枝3无共享聚集计算优点:分治策略,减少不必要计算开销计算流程:1扫描整个输入,计算整个度量2针对方体的每一维进行划分3针对每一个 划分,对它进行聚集,为该划分创建一个元组并得到该元组的计算。
判断其分组 计算是否满足最小支持度4如果满足,输出该划分的聚集元组,并在该划分上 对下一维进行递归调用,否则进行剪枝操作3、 OLAP预计算壳片段,缺点、计算P116-1184、点查询、子立方体查询概念、计算P119-1205、 面向属性的归纳是用来干什么过程有哪些P128面向属性的归纳用于复杂的数据类型并依赖数据驱动的泛化过程1使用数据库查询收集任务相关的数据;2收集工作关系的统计量3导出主关系P6、 类比较的过程P1361数据收集2维相关分析3同步泛化4导出比较的表示7、类描述:特征化和比较的表示?(这里不知道考什么)第五章1、支持度、置信度、提升度概念? P147定义N为总事务数,N(A)、N(B)分别为项集A、项集B出现的次数,N(AB)为 项集A、项集B同时出现的次数,A、B为不相交项集AAB=0,规则A—B表 示由A推到B: 支持度:对整体Support t M.E置信度:对条件Confidence(A -> B)=提升度:联合概率* — $叩声灯就&><5耶2、 频繁项集概念P147项的集合称为项集Eg: {computer, antivirus_software}是 2 项集。
支持度计数:项集出现的频率满足最小支持度的阀值的项集就是频繁项集3、 Apriori算法、如何实现、缺点、改进方法P151P156, P157-159Apriori算法:是为布尔关联规则挖掘频繁项集的原创性算法性质:频繁项集的所有非空子集也必须是频繁的缺陷:1、它可能需要产生大量候选项集2、它可能需要重复地扫描数据库,通过模式匹配检查一个很大的候选集合改进:1、不候选产生挖掘频繁项集2、 使用垂直数据格式挖掘频繁项集3、 挖掘闭频繁项集第六早1、分类、预测的区别、关系P186预测分为:分类和数值预测分类是的目标值离散数据数值预测是的目标值是连续值或者有序值但是为了方便,把数值预测简称为预 测分类:*预测分类标号(或离散值)*根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类 新数据预测:是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值。