数据挖掘导论中文答案1.2.3.4.6.8.10章--

上传人:左****笑 文档编号:145354908 上传时间:2020-09-20 格式:PDF 页数:49 大小:3.70MB
返回 下载 相关 举报
数据挖掘导论中文答案1.2.3.4.6.8.10章--_第1页
第1页 / 共49页
数据挖掘导论中文答案1.2.3.4.6.8.10章--_第2页
第2页 / 共49页
数据挖掘导论中文答案1.2.3.4.6.8.10章--_第3页
第3页 / 共49页
数据挖掘导论中文答案1.2.3.4.6.8.10章--_第4页
第4页 / 共49页
数据挖掘导论中文答案1.2.3.4.6.8.10章--_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《数据挖掘导论中文答案1.2.3.4.6.8.10章--》由会员分享,可在线阅读,更多相关《数据挖掘导论中文答案1.2.3.4.6.8.10章--(49页珍藏版)》请在金锄头文库上搜索。

1、习题一:习题一: 1。讨论是否每个以下活动是一个数据挖掘的任务。讨论是否每个以下活动是一个数据挖掘的任务。 (a)将公司的客户根据他们的性别。不。这是一个简单的数据库查询。 (b)将公司的客户根据他们的盈利能力。 不。这是一个会计计算,紧随其后的是应用程序一个阈值。然而,预测的盈利能力客户将数据 挖掘。 (c)计算一个公司的总销售额。不。再次,这是简单的会计。 (d)排序一个学生数据库基于学生身份证号码。 不。再一次,这是一个简单的数据库查询。 (e)预测结果掷双骰子(公平)。 不。因为模具是公平的,这是一个概率计算。如果死是不公平的,我们需要估计的概率每个结 果的数据,那么这是更像的问题认为

2、数据挖掘。然而,在这种特定的情况下,解决方案这个问题 是由数学家很长时间前,因此,我们不会认为它是数据挖掘。 (f)预测未来股价的公司使用历史记录。 是的。我们将尝试创建一个模型,该模型可以预测连续价值的股票价格。这是一个的例子数 据挖掘领域称为预测模型。我们可以使用回归建模,尽管在许多领域的研究者开发了各种各 样的技术来预测时间吗系列。 (g)监测病人的心率异常。 是的。我们可以建立一个模型,心脏的正常行为率和不同寻常的心行为发生时发出警报。这 将涉及到数据挖掘的区域称为异常检测。 这也可以被认为是一个分类问题如果我们有正常和 异常的心行为的例子。 (h)监测地震活动的地震波。是的。在本例中

3、,我们将构建一个不同类型的模型地震波与地震 相关的活动和行为提高警报当其中一个不同类型的地震活动被观察到。 这是数据挖掘领域的 一个例子被称为分类。 (i)提取声波的频率。 不。这是信号处理。 2.假设你被录用假设你被录用,作为一个互联网数据挖掘咨询顾问搜索引擎公司。描述数据挖作为一个互联网数据挖掘咨询顾问搜索引擎公司。描述数据挖 掘可以帮助公司通过给具体的例子如何技术掘可以帮助公司通过给具体的例子如何技术,如聚类如聚类,分类分类、关联规则挖掘和异常关联规则挖掘和异常 检测可以应用。检测可以应用。 答:以下是可能的答案的例子。聚类可以把结果与类似的主题用户在一个更简洁的形式, 例如通过报告集群

4、中的十大最频繁的词语。 分类可以将结果分配给预定义的类别等 “体育” 、 “政治”,等等。顺序关联分析可以发现,某些查询遵循一定的概率高的其他查询,允许更高 效的缓存。异常检测技术可以发现不寻常的模式用户流量。,这一个话题突然变得太多更受 欢迎。可以调整广告策略这种发展的优势。 3.为每个数据集后为每个数据集后,解释是否数据隐私是一个重要的问题。解释是否数据隐私是一个重要的问题。 (a)调查 1900 年至 1950 年收集的数据。 没有( b)的 IP 地址和访问时间的网络用户访问你的网站。 是的 (c)从地球轨道卫星图像。 没有 (d)的人的姓名和住址,电话本。没有 (e)的姓名和电子邮件

5、地址从网上收集。没有 习题二习题二 1。在最初的第二章的例子在最初的第二章的例子,统计学家说统计学家说,“ “是的是的,2 和字段和字段 3 基本上是相同的基本上是相同的。 “你你 能告诉三行示例数据这是为什么她说吗能告诉三行示例数据这是为什么她说吗? 字段 2 场 37 显示的值。虽然它可能是危险的得出结论从这样一个小样本,似乎两个字段包 含本质上相同的信息。 2。 分类下面的属性作为二进制分类下面的属性作为二进制、 离散或连续的离散或连续的。 。 也把它们归入定性也把它们归入定性(名义或序数名义或序数) 或定量或定量(间隔或率间隔或率)。某些情况下可能有多个解释。某些情况下可能有多个解释,

6、简要说明你的推理简要说明你的推理,如果你觉得如果你觉得 可能会有一些歧义。例如可能会有一些歧义。例如:年龄。年龄。答:离散、定量比率 (a)时间点或点。二进制、定性顺序 (b)亮度测光表来衡量。连续、定量、比 (c)亮度以人们的判断。离散的、定性的、序数 (d)的角度来衡量在 0 度和 360。连续、定量、比 (e)铜、银和在奥运会上获得金牌。离散,定性,顺序 (f)海拔高度。连续、定量、间隔/比率(视情况而定海平面是否被认为是一个任意的起源) (g)在医院的患者数量。离散、量化、比例 (h)ISBN 编号为书。(在网上查找格式。)离散,定性,名义(ISBN 编号有订单信息,虽然) (i)的能

7、力,通过光的以下值:不透明,半透明的,透明的。离散的、定性的,顺序 (j)军衔。离散的、定性的,顺序 (k)距离校园的中心。连续、定量、间隔/比(取决于) (i)用每立方厘米表示物质的密度。离散量化,比 (m)外套核对数目。(当你参加一个活动,你可以经常给反过来,你的外套的人给你一个号码,你 可以使用你的外套当你离开)。离散的、定性的,名义上的 3。你是接洽当地一家公司的营销总监。你是接洽当地一家公司的营销总监,他相信他设计了一个简单的方法来衡量客户的满意他相信他设计了一个简单的方法来衡量客户的满意 度度。他解释说他的计划如下他解释说他的计划如下:“这太简单了这太简单了,我不能相信之前没有人想

8、到它我不能相信之前没有人想到它。我刚跟踪客户的我刚跟踪客户的 数量每个产品的投诉数量每个产品的投诉。在数据挖掘的书我读才是最重要的比属性在数据挖掘的书我读才是最重要的比属性,因此因此,我必须比衡量产品的我必须比衡量产品的 满意度属性满意度属性。但当我认为基于我的新产品客户满意度测量和显示给我的老板但当我认为基于我的新产品客户满意度测量和显示给我的老板,他告诉我他告诉我,我忽我忽 略了显而易见的略了显而易见的,我的措施是一文不值。我认为他只是疯了因为我们的畅销产品以来最严重我的措施是一文不值。我认为他只是疯了因为我们的畅销产品以来最严重 的满意度最抱怨。你能帮我让他认识到错误的满意度最抱怨。你能

9、帮我让他认识到错误?” (a)是正确的,营销总监还是老板?如果你回答说,他的老板,你会怎么做来修复满意度的测量? 答:老板是对的。给出一个更好的衡量满意度(产品)=投诉的产品数量/销售产品的总数。 (b)你会说些什么关于原始属性类型的产品满意度属性? 答:没有什么是原始测量的属性类型。例如,两个产品相同的客户满意度水平可能有不同数 量的投诉,反之亦然。 4。(一一)营销总监的麻烦营销总监的麻烦?将他的方法生成工作吗产品的排名顺序变化的客户偏好将他的方法生成工作吗产品的排名顺序变化的客户偏好?解释。解释。 是的,营销总监是遇到了麻烦。客户可能不一致排名。例如,客户可能更喜欢 1 - 2、2 -

10、3,但 3 比 1。 (b)营销总监是否有办法解决的方法吗?更为普遍的是,你会说些什么试图创建一个顺序测量 尺度呢基于两两比较? 答:一个解决办法:三个项目,只做前两个比较。一个更一般的解决方案:把选择客户的订购产 品,但仍只允许两两比较。一般来说,创建一个基于两两比较的顺序测量尺度困难,因为可能不 一致。 (c)的原始产品评估方案,整体排名产品差异是发现通过计算其平均超过所有测试对象。评论 你是否认为这是一种合理的方法。其他方法可能你吃什么? 答:首先,问题的规模可能不是一个区间或比例规模。尽管如此,出于实用目的,平均可能是好 的足够了。更重要的问题是,一些极端的评级可能导致一个误导性的总评

11、。因此,或中位数修 剪指(见第三章)可能是一个更好的选择。 5。你能想到的情况识别号码是有用的预测吗。你能想到的情况识别号码是有用的预测吗? 答:例如:学生 id 是一个很好的预测毕业日期。 6.(a)你将如何把这些数据转换成一种适合协会分析你将如何把这些数据转换成一种适合协会分析? 答:关联规则分析与二进制属性,所以你必须把原始数据转换成二进制形式如下: (b),你会什么类型的属性,有多少人? 400 年不对称二进制属性。 7.下列哪个数量可能会显示更多的时间自相关下列哪个数量可能会显示更多的时间自相关:每日降雨量或日常温度每日降雨量或日常温度?为什么为什么? 空间自相关特性显示如果位置更接

12、近彼此更相似的对该特性的值比远的位置。 更常见的身体 亲密的位置也有类似的温度比类似的大量降雨因为降雨非常本地化;,即突然,降雨的数量可 以改变从一个位置到另一个地方。因此,每日温度显示更多的空间自相关然后每天的降雨量。 8.讨论为什么讨论为什么 document-term 矩阵是一个数据集的一个例子非对称离散或不对称连续特性矩阵是一个数据集的一个例子非对称离散或不对称连续特性。 document-term ijth 条目的矩阵的次数 j 发生在我文档。大多数文档包含只有一小部分所有可 能的条件,因此,零条目并不是很有意义的在描述或比较文档。因此,document-term 矩阵非对 称离散特

13、性。 如果我们应用 TFIDF 正常化的条件和规范化的文档有一个 L2 范数为 1,然后这 将创建一个文档矩阵的连续特性。然而,特性仍然不对称,因为这些转换不创建非零项以前的 任何条目 0,因此,仍不是很零条目有意义的。 9.许多科学依靠观察代替许多科学依靠观察代替(或补充或补充)设计实验设计实验。比较科学观测的数据质量问题与实验科学和数比较科学观测的数据质量问题与实验科学和数 据挖掘。据挖掘。 观察科学无法完全控制的问题他们获得的数据的质量。例如,直到地球轨道卫星成为可用的, 测量海洋表面温度依赖测量船舶。同样,通常天气测量从站位于城镇或城市。因此,它是必要 的工作与数据的可用性,而不是来自

14、一个精心设计的实验的数据。在这个意义上,观测科学数 据分析与数据挖掘。 10.讨论了测量的精度和术语之间的区别单引号和双精度讨论了测量的精度和术语之间的区别单引号和双精度,因为它们被用于计算机科学因为它们被用于计算机科学,一般一般 代表需要代表需要 32 和和 64 位的浮点数位的浮点数, 浮点数的精度是最高的精度。更多的贵族统治,精度通常是表示有效数字的数量用于表示一 个值。 因此,单精度数只能代表值高达 32 位,9 精度的小数位数。 然而,通常精度值代表使用 32 位(64 位)是远低于 32 位(64 位)。 11。提供至少两个优点使用文本文件中存储的数据在一个二进制格式。提供至少两个

15、优点使用文本文件中存储的数据在一个二进制格式。 (1)文本文件可以很容易地检查输入文件或查看它文本编辑器。 (2)文本文件比二进制文件更便携,跨系统和项目。 (3)文本文件可以更容易地修改,例如,使用一个文本编辑器或 perl。 12。区分噪声和离群值。一定要考虑以下的问题。区分噪声和离群值。一定要考虑以下的问题。 (a)噪声曾经有趣的或可取的吗?离群值吗?不,根据定义。是的。(参见第十章)。 (b)噪声对象可以例外吗?是的。随机数据的失真通常负责离群值。 (c)是噪声对象总是异常值吗?不。随机变形会导致一个对象或值一样正常的一个。 (d)异常值总是噪声对象?不。通常离群值仅仅代表一个类的对象

16、是不同的从正常的对象。 (e)噪音可以典型值为一个不寻常的人,反之亦然?是的。 13.考虑的问题找到一个数据对象的考虑的问题找到一个数据对象的 K 最近的邻居。一个程序员设计算法最近的邻居。一个程序员设计算法 2.2 这一任务这一任务。 (a)描述该算法如果有重复的潜在问题数据集对象。只会假设的距离函数返回的距离为 0 的 对象都是相同的。 有几个问题。首先,复制对象的顺序最近的邻居列表将取决于算法和细节顺序数据集对象。 第二,如果有足够的副本,最近的邻居列表只可能由重复。第三,一个对象可能不是自己的最近 邻。 (b)你将如何解决这个问题? 有各种各样的方法根据情况。 一种方法是继续为每组重复的对象只有一个对象。 在这种情况 下,每个邻居都可以代表一个对象或一组重复的对象。 14。以下属性的测量一群亚洲的大象以下属性的测量一群亚洲的大象:体重体重、身高身高、象牙长度象牙长度、躯干长度躯干长度,和耳朵区域和耳朵区域。根据根据 这些测量这些测量,什么样的相似性度量什么样的相似性度量从从 2.4 节你会使用比较这些大象或一组节你会使用比较这

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号