术语、任务、方法、步骤

资源描述

《术语、任务、方法、步骤》由会员分享，可在线阅读，更多相关《术语、任务、方法、步骤（41页珍藏版）》请在金锄头文库上搜索。

1、术语、任务、方法、步骤,讲课内容纲要,数据挖掘常用术语数据挖掘的任务机器学习方法数据挖掘的步骤数据准备应用举例,“算法”指的是用于实现某一数据挖掘技术如分类树、辨识分析等等的特定程序。 “属性”也被称为“特性”、“变量”、或者从数据库的观点，是一个“域” 。“个体”是关于一个单元的测量值的集合例如一个人的身高、体重、年龄等等；它也被称作“记录”、或者“行”（每一行通常代表一个记录，每一列代表一个变量）。,常用术语,“置信度”在形如“如果买了A和B，就要买C”的关联法则里有特定的含义。置信度是已经买了A和B，还要买C的条件概率。在统计学里，关于选择不同的随机样本导致的估计值的误差大小，置信度有更

2、广泛的含义。“因变量”在有约束学习里是那个被预测的变量；也被称作“输出变量”、“目标变量”、或者“结果变量”。,常用术语,“估计”指的是预测一个连续型输出变量的值；也被称作“预测”。 “特征”也被称作“属性”、“变量”，或者从数据库的观点，称为“域”。“输入变量”是在有约束学习里作预测的变量；也被称作“自变量”、“预测变量”。 “模型”通常指的是一个数学公式，包括为它设置的参数（许多模型具有用户可以调节的参数）。,常用术语,“结果变量” 在有约束学习里是那个被预测的变量；也被称作“因变量” “输出变量”、“目标变量”、或者“输出变量”。“P(A|B)”读作“已知B已经发生，A将发生的概率”。,

3、常用术语,“预测”指的是预测一个连续输出变量的值；也被称作“估计”。 “记录”是关于一个单元的测量值的集合例如一个人的身高、体重、年龄等等；它也被称作“个体”、或者“排”（每一排通常代表一个记录，每一列代表一个变量）。 “分数”指的是一个估计的值或者类。“给新数据打分”意思是利用用训练数据得出的模型预测新数据里的输出值,常用术语,“有约束学习”指的是用已有记录得到算法（Logistic回归、回归树等等）的过程。在这些记录里人们感兴趣的输出变量是已知的，这个算法“学习”如何预测新记录里输出变量的值，这些值在新纪录里是没有的。“测试数据”指的是只在模型建立和选择的过程的末期，用于评价最终模型对新数

4、据的处理效果的那部分数据。 “训练数据”指的是用于拟和模型的那部分数据。,常用术语,“无约束学习” 指的是人们试图从数据中了解一些东西的分析，而不是预测感兴趣的输出值(例如输出结果是否属于某个聚类)。“验证数据” 指的是用于评价模型拟和状况、调整模型、选择最佳模型的那部分数据。“变量”也被称为“特性”、“属性”、或者从数据库的观点，是一个“域” 。,常用术语,2.1 分类数据挖掘的一项基本任务就是对于那些类别或者将来状况未知的数据记录，预测其类别或者预测将来会是什么样子。在此我们用类别已知的数据找出规则，然后把这些规则用在未进行分类的数据上。,2. 数据挖掘任务,2.2 预测预测和分类相似，差

5、别在于我们是预测一个变量的数值，而不是一个类别（比如购买者或者非购买者）。当然，在分类时我们试图去预测一个类别，而“预测”这个术语在这本书里指的是预测一个连续变量的数值。,2. 数据挖掘任务,2.3 关联分析储存客户交易信息的大型数据库自然地产生了购买物品的关联分析（哪种物品和哪种物品是搭配着买的），“关联法则”然后以多种方式被利用。,2. 数据挖掘任务,2.4 数据精简这种把大量的变量（或者记录）合并到一个较小数据集合的过程就叫数据精简。,2. 数据挖掘任务,2.5 数据探索项目的一个重要部分就是查看数据以了解它包含什么信息，就像一个侦探审查一个犯罪现场一样。在此为全面了解数据需要减少数据量

6、的大小或者维数以便让我们看见森林而不是只看见树木。相似的变量（即提供类似信息的变量）可以合并到一个综合所有类似变量的变量。因此，聚类分析可被用于把所有记录分到具有相似记录的几个组里。,2. 数据挖掘任务,2.6 数据可视化数据探索领域里了解数据包含信息的另一个技术是图形分析。例如，两个变量之间的散布图可以让我们迅速地看到变量之间的关系。,2. 数据挖掘任务,2. 数据挖掘任务,2.6 数据可视化散点图和分类图X轴：非商业占地；Y轴：低收入比例,3.1 有约束学习“有约束学习” 算法用于分类和预测。我们用来作分析的数据集合里必须有感兴趣的结果变量数值（例如：是否购买）。分类或预测算法从这些训练数

7、据里“学习”或者“被训练”以得到预测变量和结果变量之间的关系（即模型）。在算法从训练数据得到模型后，把它用到验证数据上。验证数据上的结果是已知的，这样经过和其它模型相比较可以对该模型进行性能评价。,3. 机器学习方法,3.1有约束学习如果有许多模型被尝试，我们会使用另外一个已知结果变量的样本（即测试数据）来估计最后选择模型的性能。这个最终模型将被用于给结果未知的新记录进行分类或预测。简单线性回归分析是有约束学习的一个例子。,3. 机器学习方法,3.2 无约束学习无约束学习算法在使用时没有要分类或预测的输出变量。关联分析、数据精简、聚类技术都是无约束学习方法。,3. 机器学习方法,1. 领会数据

8、挖掘的目的在此我们要明确问题是完成一个项目，即回答一个或几个问题的一次性工作；还是开发一个应用，即一项持续性的工作等等。2. 获取分析所用的数据集合这经常涉及到从一大型数据库随机采样以获取分析所用的记录，还可能需要把几个数据库的数据合并到一起。这些数据库可能是内部的（例如顾客以前的采购记录）或者是外部的（例如信用等级）。虽然数据挖掘处理的是大型数据库，通常所作的分析只需要数千或数万个记录。3. 探索、清理、和预处理数据这是为了确保数据的状态完好。数据缺失怎么办？对于每一个变量其数值是否在合理的范围之内？有没有明显的“异常值”（Outlier)数据要进行图形审查例如用多个散布图可显示许多变

9、量两两之间的关系。我们还需要保证变量、测量单位、时间段等定义的一致性。4. 精简数据以及数据分块在此要消除不必要的变量，根据需要作变量变换（例如，把一个数值变量“现金支出”变换成取值“支出 $100”和“支出 $100”的类型变量）以及创建新变量。要保证理解每一个变量的含义，以及把它包括在模型里是否敏感。当算法涉及到有约束学习时，我们要把总的数据集合分成训练、验证和测试数据三个子集合。,4.数据挖掘步骤,5.决定数据挖掘任务（分类、预测、聚类，等等）这涉及到把第一步的总疑问或者问题转变成一个更为专门的统计问题。6. 选择要使用的数据挖掘技术（回归、神经网略、Ward的分级聚类等等）。7.

10、使用算法解决问题这是一个典型的重复过程尝试多个变量，经常是同一个算法的多个变量（在这个算法里选择不同的变量或者参数）。如果对尝试的结果满意的话，就把模型用在验证数据上，由此得到的对这个模型的反馈可用于优化模型的参数。8. 解释算法的结果当我们选择一个最好的算法进行实际应用前，如果可能的话，要用测试数据测试这个最后选定的算法以观察其工作效果如何。这一过程是有必要的。因为每一个算法都可以用验证数据进行验证以便加以改进，这样的话验证数据就是拟合过程的一部分，所以从验证数据上得到的误差有可能低估最终模型实际应用中的误差。9. 模型投入使用这就是把模型装到工作系统上并用于真实数据以产生决策或者行动

11、。例如，把模型用于购买的潜在顾客名单，行动可能是“如果预计的购买额大于 $10就给某顾客送广告邮件。”,4.数据挖掘步骤,5.数据准备,5.1 从数据库采样在记录数量和变量数量对数据挖掘算法有许多限制，另外计算机计算能力、容量以及软件也会对算法带来一些限制。即使这些限制条件都能满足，许多算法也是数据集合越小运行越快。从统计观点看，使用几百条记录即可建立精确模型。如果我们感兴趣的事件是稀有事件（例如: 接收邮寄广告后购买产品）, 对这样的数据集合抽样可能得到太少的稀有事件记录以至于我们得不出有用信息。,5.2 预处理数据和清理数据5.2.1 变量类型数值或文本（字符）变量连续、整型、或类别变量类

12、别变量可以是数值(1, 2, 3)或文本（按期付款、按期未付、破产）；还可以是无序（北美、欧洲、亚洲）或者有序（高、中、低）。,5.数据准备,5.2 预处理数据和清理数据5.2.2 变量选择a. 对于一个模型来说变量越多并不一定就越好。在其它特征一样的情况下，简明或精炼的模型的好特征。b. 变量越多，过分拟和数据的风险就越大。,5.数据准备,什么是过分拟和?,5.2预处理数据和清理数据,5.数据准备,广告支出|收入,什么是过分拟和?,5.2预处理数据和清理数据,5.数据准备,广告支出|收入,什么是过分拟和?,5.2预处理数据和清理数据,5.数据准备,广告支出|收入,这个的曲线不可能精确描述广告

13、支出和收入之间的关系，用它来根据广告支出预测收入甚至会没有用。一条简单的直线在根据广告支出预测收入方面可能会比这个复杂曲线要好。,5.数据准备,5.2预处理数据和清理数据,5.2.3 变量需多少个？记录需多少?经验法则一：每一个预测变量要有10条记录经验法则二：记录数量6*M*N, 其中M = 结果变量类别数, N = 变量数在此应咨询下专业人士，关于变量具体含义的知识经常有助于建立好模型并可避免失误。,5.数据准备,5.2预处理数据和清理数据,5.2.4 奇异值粗略地讲，大块数据之外的数值被称为奇异值。从统计意义上讲，奇异值并不一定是非法的数据点，它只是远处的点。常用的一个经验法则是：距离均

14、值个标准差以外的点被认为是奇异值。,5.数据准备,5.2预处理数据和清理数据,5.2.5 缺失值通常，一些记录里会包括缺失值。如果含缺失值的记录不多，这些记录可以删除掉。缺失值还可以使用插值替换。这些插值是通过该变量的其它值计算出来的。,5.数据准备,5.2预处理数据和清理数据,5.2.6 标准化数据一些算法要求在实施算法之前把数据进行标准化。标准化的方法是减去均值再除以标准差。,5.数据准备,5.2预处理数据和清理数据,5.3 划分数据在有约束学习算法里，预测或分类模型在用于新数据时效果如何评价? 我们对比较各种模型的性能特别感兴趣，因为这样我们就可以选择一个最佳的模型装配到实际系统中。选择

15、在现有数据上对结果变量进行分类或预测表现最好的模型，这个策略是最好的吗？,5.数据准备,5.3.1 训练数据通常是划分出的最大数据集合，这部分数据用于建立我们要考察的各种模型。这些模型通常是建立在同一个训练数据集合上。5.3.2 验证数据这部分数据用于评价每一个模型的性能，你可以比较这些模型并选择一个最佳模型。,5.3 划分数据,5.数据准备,5.3.3 测试数据这一部分数据是用于评价被选择的最佳模型在新数据上的性能。为什么既有验证数据还要有测试数据呢？当我们使用验证数据比较多个模型并挑选出在验证数据上表现最好的模型时，我们有遇到了过分拟和问题有可能被选择模型刚好对验证数据匹配最好。,5.数据

16、准备,5.3 划分数据,6.建立模型线性回归的一个例子,目的预测波士顿居民区域的房屋中间值。2. 获取数据我们将使用波士顿房屋统计数据。因为给出的数据集合很小，所以我们不需要从中采样我们可以把数据全都用上。 3. 探索、清理、和预处理数据首先我们要注意变量（犯罪率、每套房子的房间数、等等）的描述以确保我们完全理解它们。,表2.2：波士顿房屋统计数据变量解释,4. 精简数据和把它划分成训练、验证以及测试数据块我们的数据只有13个变量，因此不需要数据精简。如果我们有更多的变量，在这个阶段我们可能会使用如主成分分析的数据精简技术把多个简单变量压缩为较少数量的变量。我们将把在总的数据里按照随机方式选择了2块数据：训练数据和验证数据。训练数据设为80条，验证数据设为40条（读者可以随意地设置数据分块方式以及各数据块的大小）,

展开阅读全文