试谈数据挖掘总结－金锄头文库

资源描述

《试谈数据挖掘总结》由会员分享，可在线阅读，更多相关《试谈数据挖掘总结（9页珍藏版）》请在金锄头文库上搜索。

1、1.【p26 1.3】假设你是BigUniversity的软件工程师，任务是设计一个数据挖掘系统，分析学校课程数据库。该数据库包括如下信息：每个学生的姓名、地址和状态例如本科生或研究生所修课程以及他们的GPA平均积分点。描述你要选取的结构。该结构的每个成分的作用是什么。答：该数据挖掘结构应该包括以下几个主要成分：1一个数据库、数据仓库或其它信息库，它由一系列包含学生和课程信息的数据库、数据仓库、电子表格、或其它信息库组成。2一个数据库或数据仓库效劳器，它根据用户的数据挖掘请求获取相关的数据。3一个知识库，它包含领域知识，用于指导搜索或评估结果模式的兴趣度。例如，知识库可能包含概念层次结构和元数

2、据例如，描述来自多个异构数据源的数据。4一个数据挖掘引擎，它由一系列负责分类、关联、聚类分析、演变和偏差分析的功能模块组成。5一个模式评估模块，它与数据挖掘模块串联工作，采用兴趣度的方法，将搜索重心投注在兴趣模式上。6一个图形用户界面，它为用户提供对数据挖掘系统的交互式途径。2.【p63 2.4】中列数是最大值和最小值的平均数。五数概括就是中位数、四分位数Q1和Q3、最小值和最大值箱线图盒图在p35分位数图是一种观察单变量数据分布的简单有效方法，他显示给定属性的所有数据允许用户评估总的情况和不寻常的出现。其次它绘出了分位数信息3.【p63 2.5】问：以计数、标准差和中位数为例说明分布的或代数

3、的度量有利于有效的增量计算，而整体度量不行。答：计数：当前的计数count可以作为一个值来保存，当有x个新值加进来时，可以很容易地更新count值为count+x。这就是分布式度量，可以很容易地进行增量计算。标准差：如果我们之前存储了已有数据平方的和sum和它们的计数count，就可以很容易地利用公式得到新的标准差，只需要计算新参加数据平方的和并将其参加sum中，同时更新count值，随后将它们插入计算中就可获得新的标准差。这些都不用重新扫描整个数据集而可以轻松得到。这就是代数度量，可以容易进行增量计算。中位数：要准确得到中位数必须扫描整个数据集。当参加了新的数据后必须重新进行排序，然后在新的

4、排序后的数据集中查找中位数。这是比拟困难的，这就是整体度量，没方法对增量进行有效的计算。4.【p63 2.6】数据缺省值处理1忽略元组。当缺少类标号时通常这样做假定挖掘任务涉及分类。除非元组有多个属性缺少值，否那么该方法不是很有效。当每个属性缺少值的百分比变化很大时，它的性能特别差。2人工填写缺失值。一般该方法很费时，并且当数据集很大，缺少很多值时，该方法可能行不通。3使用一个全局常量填充缺失值。将缺失的属性值用同一个常数如“Unknown替换如果缺失值都用“Unknown替换，那么挖掘程序可能误以为它们形成了一个有趣的概念，因为它们都具有相同的值“Unknown。因此，尽管该方法简单，但是它

5、并不是十分可靠。4使用属性的均值填充缺失值。5使用与给定元组属同一类的所有样本的属性均值。6使用最可能的值填充缺失值。可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。5.【p63 2.7】1问：使用分箱均值光滑对数据进行光滑的步骤深度为3答：对数据进行排序；将数据划分到大小为3的等频箱中；计算每个箱的均值；箱中的值都被箱的均值替换。2问：如何确定数据中的离群点答：可以通过聚类来检测离群点，将类似的值组织成群或簇。直观地，落在簇集合之外的值视为离群点。电脑和人的检查可以结合来判断，先由电脑根据已有的数据分布状况得出可能的离散点，然后再由人来对这些可能的离散点进行进一步的分析来确定离

6、散点，这样大大地减少了人单独工作的工作量。3问：对于数据光滑还有哪些方法答：类似的还有分箱中位数光滑，此时箱中的每一个值都被箱中位数替换。分箱边界光滑，箱中的最大和最小值同样被视为箱边界，箱中的每个值都被最近的边界值替换。一般来说，宽度越大光滑效果越大。箱可以是等宽的，每个箱值的区间范围是个常量。此外可以用一个函数如回归函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性的最正确线，使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩展，其中涉及的属性多于两个，并且数据拟合到一个多维曲面。概念分层也可以用于数据光滑。6.【p63 2.8】问：数据集成需要考虑的问题答：实体识别问题。模式集

7、成和对象匹配需要技巧，来自多个信息源的现实世界的等价实体必须能够匹配。数据冗余。一个属性可能是冗余的，如果它能由另一个或另一组属性“导出。属性或命名的不一致也可能导致结果数据集中的冗余。数据值冲突的检测与处理。对于现实世界的同一实体，来自不同数据源的属性值可能不同，这可能是因为表示、比例或编码不同。7.【p63 2.9】1方差公式2=1Nxi2-1N(xi)22散布图：将每个值当做坐标对画点 qq图：将数据都按递增序排序，然后画点3z-score标准化零均值标准化属性数值减去均值除以标准差4答案是0.82，非常相关。卡方检验公式2=i=1cj=1roij-eij2eij其中oij是实际计数，

8、eij是期望频度。eij=countA=ai*count（B=bj）N8.【p63 2.12】1最小最大标准化v=v-minAmaxA-minAnewmaxA-newminA+new_minA2小数定标标准化，移动小数点位置进行标准，移动位数取决于最大绝对值。3更愿用哪种标准方法？。小数定标。保持了数据的结构并且是直观表达并仍然可以在age的组内进行挖掘。最大最小有一个多余的功能就是禁止了任何未来值落在现在的最小最大值之外，没有考虑到“越界错误，而未来的数据里可能出现。Z-score用标准差表示数据到平均值的距离，不像小数定标那样直观。9.【p97 3.2】1雪花型模式、事实星座形、星形网查询

9、模型雪花型模式和事实星座形都是星形模式的变种。雪花型模式的维表可能是标准化形式，以便减少冗余；事实星座形模式允许事实表共享维表。星形网查询模型由中心点发出的射线组成，其中每条射线代表一个维的概念分层，而概念分层的每个抽象级称为一个脚印，代表诸如上卷、下钻等OLAP操作可用的粒度。2数据清理、数据变换、刷新数据清理：检测数据中的错误，可能时订正它们。数据变换：将数据由遗产或宿主格式转换成数据仓库格式。刷新：传播由数据源到数据仓库的更新。3企业数据仓库、数据集市、虚拟仓库企业数据仓库收集了整个组织关于主题的所有信息，它提供企业范围内的数据集成，通常来自一个或多个操作数据库系统或外部信息提供者，并

10、且是跨功能的。通常，它包含细节数据和汇总数据，其大小有数千兆字节到数百千兆字节到更多。它可以在传统的大型机、超级计算机效劳器或并行结构平台上实现。它需要广泛的商务建模，可能需要多年设计和建设。数据集市包含企业范围数据的一个子集，对于特定的用户群是有用的。其范围限于选定的主题。包括在数据集市的数据通常是汇总的。它可以再低价格的部门效劳器上实现，基于UNIX/LINUX或Windows。它的实现周期一般是一周计，而不是以月计或以年计。然而如果它的设计或规划不是企业范围的从长远讲可能涉及很复杂的集成。独立数据集市数据来自一个或多个操作系统或外部信息提供者，或者在特定的部门或地域局部产生的数据；依赖的

11、数据集市的数据直接来自企业数据仓库。虚拟仓库是操作数据库视图的集合。为了有效地处理查询，只有一些可能的汇总视图可以物化。虚拟仓库易于建立，但需要操作数据库效劳器具有剩余能力。10.【p98 3.4】1雪花型模式图2求每个学生CS课程的平均成绩，OLAP操作在course维表中由course_id上卷到department在student维表中由student_id上卷到university按如下选择对中心立方体切块：department=“CS and university = “Big University3如果每维有5层，那么立方体包含54=625个方体11.【p98 3.5】1观看节目的

12、星形模式图2列出2004年学生观众GM-Place的总付费，需要采用哪些OLAP。在date上由date_id上卷到year；在game上由game_id上卷到all；在location上由location_id上卷到location_name；在spectator上由spectator_id上卷到status；按以下选择进行切块：status=“studentandlocation=“GM_Placeandyear=20043位图索引结构的优点和问题。对于基数较小的域，位数索引非常有用，因为比拟、连接和聚集操作都变成了位算术运算，大大减少了处理时间。由于字符串可以用单个二进位表示，位图索引显

13、著降低了空间和I/O开销。对于基数较高的域，需要使用压缩技术才可以使用这个技术，就像例子中的date，这个位向量是非常长的，十年收集的数据就会得到3650条日期记录，也就意味着date位向量有3650个二进位。12.【p98 3.6】简略讨论星形模式和雪花型模式的相似点和不同点，分析相对优缺点。哪种模式更实用，给出观点并陈述理由。答：相似点：他们都有一个事实表和多个维表。主要区别：雪花型模式有些维表是标准的，把数据进一步分解到附加的表中。星形模式的优点是非常简易，使得操作有效率。但它需要更多的空间。雪花型模式易于维护并节省存储空间。但是与巨大的事实表相比，这种空间的节省可以忽略，由于执行查询需

14、要更多的连接操作，它可能降低浏览的性能。因此星形模式更实用，因为只要需占用的空间不是特别大，效率是要比空间优先考虑的。在一些工厂里，有时会将雪花型模式中的数据转换成星形模式来加速处理过程。13.【p97 3.9】1列出度量的三种类型度量可以根据所用的聚集函数类型分成三类，即分布的、代数的和整体的2方差属于哪一类，如果数据分成了块，描述怎么计算答：方差属于代数的。如果立方体被分割成了一些块，方差可以照以下步骤求得：首先挨个读出每个块中的数据，同时累加元组求得xi2的和xi的和。当读完所有块的数据后，计算xi的均值，之后按提示中给出的公式进行求解即可得到方差。3函数是最高的10个销售额，如何有效地

15、计算该度量。对于每个方体，用10个单位来存储目前最高的10个销售额。读取每个方体中的数据，如果某个元组中的销售额比存储的最高的10个销售额中的一个高，就将该销售额参加到最高的10个销售额列表中，同时剔除原列表中最小的那个数据。通过该操作的不断循环执行，最终可以得到最高的10个销售额。14.【p97 3.14】三种主要的数据仓库应用：信息处理、分析处理和数据挖掘的区别是什么。讨论OLAP挖掘OLAM动机答：信息处理支持查询、根本的统计分析，并使用交叉表、表、图表或图进行报告。分析处理支持根本的OLAP操作，包括切片与切块、下钻、上卷和转轴。一般对汇总和详细历史数据操作，支持数据仓库数据的多维数据分析。数据挖掘支持知识发现，包括找出隐藏的模式和关联，构造分析模型，进行分类和预测，并使用可视化工具提供挖掘结果。OLAM的动机有以下几点：数据仓库中数据的高质量。经过预处理而构造的数据仓库不仅用作OLAP，而且也用作数据挖掘的有价值的数据源。环绕数据仓库的信息处理根底设施。全面的数据处理和数据分析根底设施已

展开阅读全文