数据挖掘调研报告

上传人:xg****9 文档编号:149812301 上传时间:2020-10-30 格式:DOC 页数:16 大小:39.50KB
返回 下载 相关 举报
数据挖掘调研报告_第1页
第1页 / 共16页
数据挖掘调研报告_第2页
第2页 / 共16页
数据挖掘调研报告_第3页
第3页 / 共16页
数据挖掘调研报告_第4页
第4页 / 共16页
数据挖掘调研报告_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《数据挖掘调研报告》由会员分享,可在线阅读,更多相关《数据挖掘调研报告(16页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘调研报告第1篇:数据挖掘第4章 无监督学习4.1基本概念图4.1数据点的三个自然4.2k-均值聚类4.2.1k-均值算法图4.2k-均值算法计算机组成原理(第三版)图4.3k-均值算法的运行实例4.2.2k-均值算法的硬盘版本图4.4一个简单的k-均值算法硬盘版本计算机组成原理(第三版)3 4.2.3优势和劣势图4.5存在和不存在异常值情况下的聚类图4.6不理想的初始种子(聚类中心)图4.7理想的初始种子(聚类中心) 4计算机组成原理(第三版)图4.8自然(不规则)聚类和k-均值聚类4.3聚类的表示4.3.1聚类的一般表示方法图4.9聚类的规则描述4.3.2任意形状的聚类图4.10两个

2、自然聚类以及计算机组成原理(第三版)5 4.4层次聚类图4.11层次聚类的一个例子图4.12合并层次聚类算法图4.13合并层次聚类算法的工作4.4.1单链接方法图4.14单链接方法的连锁反应计算机组成原理(第三版) 4.4.2全链接方法图4.15采用全链接方法聚类4.4.3平均链接方法 4.4.4优势和劣势4.5距离函数4.5.1数值的属性(Numeric Attributes) 4.5.2布尔属性和符号属性(Binary and Nominal Attributes)图4.16两个只具有布尔属性数据点的混合矩阵计算机组成原理(第三版)7 4.5.3文本文档4.6数据标准化 4.7混合属性的处

3、理 4.8采用哪种聚类算法 4.9聚类的评估图4.17带有熵和纯度值的混合矩阵计算机组成原理(第三版) 4.10发现数据区域和数据空洞图4.18用决策树来区分数据区域和空洞区域第2篇:数据挖掘实习报告通过半年的实习,我在这里得到了一次较全面的、系统的锻炼,也学到了许多书本上所学不到的知识和技能。以下是我这次的实习鉴定。经历了实习,对社会也有了基本的实践,让我学到了书本以外的知识,实习期间,我努力尽量做到理论与实践相结合,在实习期间能够遵守工作纪律,不迟到、早退,认真完成领导交办的工作。在实习鉴定中,我参与了整个数据分析工作,从数据获取到数据清洗、数据报表的制定到模型的建立以及模型监控等等,让我

4、充分学习了数据分析岗位的实际操作。在实习初期,项目经理安排了我参与数据获取的相关工作,主要是编写SQL代码在linux上用Perl语言调用获取数据。起初觉得自己对SQL语言了解较多,以为这份工作非常简单。但实际操作起来才知道,在数据量达到几百兆甚至上GB级别的时候,所学的SQL根本解决不了问题。经向项目经理学习,这才知道了如何使用分层次操作等速度较快的SQL技巧。通过这两个月的实习充分认识到所学知识远远不够。完成数据获取阶段之后,项目经理开始安排数据清洗以及数据报表制定的相关工作。接到这份工作之初,对数据清洗并没有太多的认识,以为很多都是按照数据挖掘教材中步骤进行就可以的。但经过项目经理指导之

5、后才知道数据清洗之前首先要对项目业务进行一定的了解,只有清晰了业务数据的来源、数据的实际意义才知道哪些数据可以称为极端值,哪些数据又是不正常的,制定报告或者交给模型分析师时需要去除的等等。同时,在制定数据报表的同时学习了很多excel函数的使用,透视表的使用,PPT报告的书写等等。在实习的后三个月,开始接触了模型的分析与监控。在学习机器学习以及数据挖掘书本时,总会想到各种各样的分类模型,也总会认为模型准确率高的模型才会是好模型。在运用统计模型之前,项目经理首先向实习生介绍了目前挖掘部门常用的分类模型以及具体的一些使用方法。其中逻辑回归模型、决策树模型是常用的分类模型,回归分析和时间序列模型是常

6、用的预测模型,这与平日所学基本一致。正当好奇为什么不使用支持向量机以及神经网络模型之时,项目经理说,由于模型结果都是要给市场部门的同事报告的,所以模型结果最好能够简单易懂的。在实际工作才知道,一般除了用模型准确率来衡量模型的效果外,还有例如灵敏度、ROC曲线、RA曲线等等指标值。而模型的操作过程也不是想象的那么简单,并不是用R软件上的几个函数,几行代码就能解决的,选择什么参数、选择什么样的模型,当然最重要的还是选择什么样的基础数据作为模型的训练数据才是最重要的,这才发现项目经理之前提到的业务知识是多么的重要。在模型建立之后就是模型监控了,由于是我负责的项目,所以项目经理也将监控这一任务交给了我

7、。数据挖掘模型通常情况下都是要上线的,但模型的效果会随着数据的变化而变化,当模型的指标达到一定程度时就需要修改模型。在这一阶段,充分锻炼了我的程序编写能力。在整一个实习过程,非常感谢项目经理给予了我数据挖掘整一个流程学习的机会,让我真正对数据挖掘的实际工作有了一定的认识,也让我学习到了很多学校学习中学不到的实际操作能力,在此表示衷心的感谢。第3篇:数据挖掘导论读书报告数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。然而,提取有用的信息已经成为巨大的挑战。通常,由于数据量太大,无法使用传统的数据分析丁具和技术处理它们。有时,即使数据集相对较小,但由于数据本身具有一些非传统特点,也

8、不能使用传统的方法处理。在另外一些情况下,面临的问题不能使用已有的数据分析技术来解决。这样,就需要开发新的方法。数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探査和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会。本章,我们概述数据挖掘,并列举本书所涵盖的关键主题。数据挖掘技术可以用来支持广泛的商务智能应用,如顾客分析、定向营销、工作流管理、商店分布和欺诈检测等。数据挖掘还能帮助零售商回答一些重要的商务问题,如“谁是最有价值的顾客? ”“什么产品可以交叉销售或提升销售? ”“公司明年的收入前景如何? ”这些问题催生了一种新的数据分析技术。医

9、学、科学与工程医学、科学与工程技术界的研究者正在快速积累大量数据,这些数据对获得有价值的新发现至关重要。例如,为了更深入地理解地球的气候系统,NASA己经部署了一系列的地球轨道卫星,不停地收集地表、海洋和大气的全球观测数据。然而,由于这些数据的规模和时空特性,传统的方法常常不适合分析这些数据集。数据挖掘开发的技术可以帮助地球科学家回答如下问题:“千旱和飓风等生态系统扰动的频度和强度与全球变暖之间有何联系?”“海洋表面温度对地表降水量和温度有何影响?”“如何准确地预测一个地区的生长季节的开始和结束?”什么是数据挖掘数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探査大型数

10、据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果,例如,预测一位新的顾客是否会在一家百货公司消费100美元以上。并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎査找特定的Web页面,则是信息检索领域的任务。虽然这些任务非常重要,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,人们也在利用数据挖掘技术增强信息检索系统的能力。数据挖掘与知识发现数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)

11、不可缺少的一部分, 而KDD是将未加工的数据转换为有用信息的整个过程。该过程包括一系列转换步骤,从数据的预处理到数据挖掘结果的后处理。输入数据可以以各种形式存储(平展文件、电子数据表或关系表),并且可以驻留在集中的数据存储库中,或分布在多个站点上。数据预处理(preproceing)的目的是将未加工的输入数据转换成适合分析的形式。数据预处理涉及的步骤包括融合来自多个数据源的数据,清洗数据以消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的 方式多种多样,数据预处理可能是整个知识发现过程中最费力、最耗时的步骤。“结束循环”(dosing the loop)通常指

12、将数据挖掘结果集成到决策支持系统的过程。第4篇:数据挖掘总结数据挖掘总结(职业篇)数据分析微信公众号datadw关注你想了解的,分享你需要的。 前面对数据挖掘相关资源等等进行了总结。但是,很多人不明白学习数据挖掘以后干什么,这个问题也经常被问到。记得刚学数据挖掘的时候,有一个老师说学数据挖掘有什么用,你以后咋找工作。当时听了,觉得很诧异,不知道他为何有此一问。数据挖掘在国外是一份很不错的工作。我喜欢数据挖掘,因为它很有趣。很高兴以后就从事这方面的工作啦。写论文之余,也考虑一下数据挖掘工程师的职业规划。以下是从网上找的一些相关资料介绍,和即将走上数据挖掘岗位或是想想这方面发展的朋友共享: BI职

13、业发展方向:数据分析师-商业分析师-管理者但是在每个公司,可能有不同的发展方向,但是大致上是从数据挖掘工程师起步。 DMFighter:数据挖掘从业人员工作分析 1.数据挖掘从业人员的愿景:数据挖掘就业的途径从我看来有以下几种,(注意:本文所说的数据挖掘不包括数据仓库或数据库管理员的角色)。A:做科研(在高校、科研单位以及大型企业,主要研究算法、应用等) B:做程序开发设计(在企业做数据挖掘及其相关程序算法的实现等) C:数据分析师(在存在海量数据的企事业单位做咨询、分析等) 2.数据挖掘从业人员切入点: 根据上面的从业方向倒序并延伸来说说需要掌握的技能。C,数据分析师:需要有深厚的数理统计基

14、础,可以不知道人工智能和计算机编程等相关技术,但是需要熟练使用主流的数据挖掘(或统计分析)工具。从这个方面切入数据挖掘领域的话你需要学习数理统计、概率论、统计学习基础:数据挖掘、推理与预测、金融数据挖掘,业务建模与数据挖掘、数据挖掘实践 等,当然也少不了你使用的工具的对应说明书了,如SPSS、SAS等厂商的SAS数据挖掘与分析、数据挖掘Clementine应用实务、EXCEL 2007数据挖掘完全手册等,如果多看一些如中文版 数据挖掘原理 等书籍那就更好了。B,程序设计开发:主要是实现数据挖掘现有的算法和研发新的算法以及根据实际需要结合核心算法做一些程序开发实现工作。要想扮演好这个角色,你不但

15、需要熟悉至少一门编程语言如(C,C+,Java,Delphi等)和数据库原理和操作,对数据挖掘基础课程有所了解,读过数据挖掘概念与技术(韩家炜著)、人工智能及其应用。有一点了解以后,如果对程序比较熟悉的话并且时间允许,可以寻找一些开源的数据挖掘软件研究分析,也可以参考如数据挖掘:实用机器学习技术及Java实现等一些教程。A.做科研:这里的科研相对来说比较概括,属于技术型的相对高级级别,也是B,C的归宿,那么相应的也就需要对B、C的必备基础知识了。 - 数据挖掘人员需具备以下基本条件,才可以完成数据挖掘项目中的相关任务。一、专业技能硕士以上学历,数据挖掘、统计学、数据库相关专业,熟练掌握关系数据库技术,具有数据库系统开发经验熟练掌握常用的数据挖掘算法具备数理统计理论基础,并熟悉常用的统计工具软件二、行业知识具有相关的行业知识,或者能够很快熟悉相关的行业知识三、合作精神具有良好的团队合作精神,能够主动和项目中其他成员紧密合作四、客户关系能力具有良好的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号