数据挖掘方向

上传人:hs****ma 文档编号:500370622 上传时间:2023-06-09 格式:DOCX 页数:5 大小:154.37KB
返回 下载 相关 举报
数据挖掘方向_第1页
第1页 / 共5页
数据挖掘方向_第2页
第2页 / 共5页
数据挖掘方向_第3页
第3页 / 共5页
数据挖掘方向_第4页
第4页 / 共5页
数据挖掘方向_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《数据挖掘方向》由会员分享,可在线阅读,更多相关《数据挖掘方向(5页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘需要具备基础知识1. 数据挖掘从业人员的愿景: 数据挖掘就业的途径从我看来有以下几种,(注意:本文所说的数据挖掘不包括 数据仓库或数据库管理员的角色)。A:做科研(在高校、科研单位以及大型企业,主要研究算法、应用等) B:做程序开发设计(在企业做数据挖掘及其相关程序算法的实现等) C:数据分析师(在存在海量数据的企事业单位做咨询、分析等)2. 数据挖掘从业人员切入点: 根据上面的从业方向倒序并延伸来说说需要掌握的技能。C,数据分析师 需要有深厚的数理统计基础,可以不知道人工智能和计算机编 程等相关技术,但是需要熟练使用主流的数据挖掘(或统计分析)工具 。从这 个方面切入数据挖掘领域的话

2、你需要学习数理统计、概率论、统计学 习基础:数据挖掘、推理与预测 、金融数据挖掘, 业务建模与数据挖掘、 数据挖掘实践 等,当然也少不了你使用的工具的对应说明书了,如 SPSS、 SAS等厂商的SAS数据挖掘与分析、数据挖掘Clementine应用实务、 EXCEL 2007数据挖掘完全手册等,如果多看一些如中文版 数据挖掘原 理 等书籍那就更好了。B,程序设计开发主要是实现数据挖掘现有的算法和研发新的算法以及根据实 际需要结合核心算法做一些程序开发实现工作。要想扮演好这个角色,你不但需 要熟悉至少一门编程语言如(C,C+,Java,Delphi等)和数据库原理和操作,对数 据挖掘基础课程有所

3、了解,读过数据挖掘概念与技术(韩家炜著)、人工 智能及其应用。有一点了解以后,如果对程序比较熟悉的话并且时间允许,可 以寻找一些开源的数据挖掘软件研究分析,也可以参考如数据挖掘:实用机器 学习技术及 Java 实现等一些教程。4做科研:这里的科研相对来说比较概括,属于技术型的相对高级级别,也是B,C的归宿,那么相应的也就需要对B、C的必备基础知识了。可能之后不会续写一篇数据挖掘进阶了,这边大概说一下B和C的进一步 要求:B 当前主要包括如下方向:企业数据挖掘、 Web 数据挖掘、空间数据挖掘、多媒 体数据挖掘等等;C当前主要应用于:电信CRM、金融、咨询业等等;最后说一下大家有必要熟悉数据挖掘

4、工具:Google,或许你也可以搜索到这篇 文章,当然也可以搜索到人才招聘的相关职位需求以及其他资料,一如你当初搜 索到 DMResearch 一样。磨刀不误砍柴工。在学习数据挖掘之前应该明白几点:数据挖掘目前在中国的尚未流行开,犹如屠龙之技。数据初期的准备通常占整个数据挖掘项目工作量的70%左右。 数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术。 数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)数据挖掘适用于传统的BI (报表、OLAP等)无法支持的领域。 数据挖掘项目通常需要重复一些毫无技术含量的工作。如果你阅读了以上内容觉得可以接受,那么继续往下看。学习

5、一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。 技术尤其是计 算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司), 一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之 后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累 计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要 面面俱到,这样会失去你的核心竞争力。一、目前国内的数据挖掘人员工作领域大致可分为三类。 1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业 务咨询,商务智能,出分析报告。 2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相

6、关行业里做 机器学习算法实现和分析。 3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究 新算法效率改进及未来应用。二、说说各工作领域需要掌握的技能。(1).数据分析师 需要有深厚的数理统计基础,但是对程序开发能力不做要求。需要熟练使用主流的数据挖掘(或统计分析)工具如Business Analytics and Business Intelligence Software (SAS)、SPSS、EXCEL 等。需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感 性培养。 经典图书推荐:概率论与数理统计、统计学推荐 David Freedman 版、业务建模与数

7、据挖掘、数据挖掘导论SAS编程与数据挖掘商业案例 Clementine数据挖掘方法及应用、Excel 2007 VBA参考大全、IBM SPSS Statistics 19 Statistical Procedures Companion、等。(2).数据挖掘工程师 需要理解主流机器学习算法的原理和应用。需要熟悉至少一门编程语言如(Python、C、C+、Java、Delphi等)。 需要理解数据库原理,能够熟练操作至少一种数据库( Mysql、 SQL、 DB2、 Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工 具更好。 经典图书推荐:数据挖掘概念与技术

8、、机器学习实战、人工智能及其 应用数据库系统概论算法导论Web数据挖掘、Python标准 库、thinking in Java、Thinking in C+数据结构等。(3).科学研究方向需要深入学习数据挖掘的理论基础,包括关联规则挖掘(Apriori和FPTree) 分类算法(C4.5、KNN、Logistic Regression SVM 等)、聚类算法(Kmeans、 Spectral Clustering)。目标可以先吃透数据挖掘10大算法各自的使用情况和 优缺点。 相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computin

9、g,因为R软件是完全免费的,而且开放的社区环境提供多种附加 工具包支持,更适合进行统计计算分析研究。虽然目前在国内流行度不高, 但是强烈推荐。可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的 SVM 云算法调用平台-web 工程调用 hadoop 集群。需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD ICML IJCAI Association for the Advancement of Artificial Intelligence, ICDM 等等; 还有 数据挖掘相关领域期干刊: ACM Transactions on Knowledge Discover

10、y from Data, IEEE Transactions on Knowledge and Data Engineering, Journal of Machine Learning Research Homepage, IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on 等。可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD Kaggle: Go from Big Data to Big Analytics 等。可以尝试为一些开源项目贡献自己的代码,比如Apache

11、Mahout: Scalable machine learning and data mining ,myrrix 等(具体可以在 SourceForge 或 GitHub上发现更多好玩的项目)。经典图书推荐:机器学习模式分类统计学习理论的本质统计学 习方法数据挖掘实用机器学习技术R语言实践,英文素质是科研人 才必备的Machine Learning: A Probabilistic PerspectiveScaling up Machine Learning : Parallel and Distributed ApproachesData Mining Using SAS Enterpri

12、se Miner : A Case Study ApproachPython for Data Analysis等。三、以下是通信行业数据挖掘工程师的工作感受。真正从数据挖掘项目实践的角度讲,沟通能力对挖掘的兴趣爱好是最重要的,有 了爱好才可以愿意钻研,有了不错的沟通能力,才可以正确理解业务问题,才能 正确把业务问题转化成挖掘问题,才可以在相关不同专业人才之间清楚表达你的 意图和想法,取得他们的理解和支持。所以我认为沟通能力和兴趣爱好是个人的 数据挖掘的核心竞争力,是很难学到的;而其他的相关专业知识谁都可以学,算 不上个人发展的核心竞争力。说到这里可能很多数据仓库专家、程序员、统计师等等都要扔

13、砖头了,对不起, 我没有别的意思,你们的专业对于数据挖掘都很重要,大家本来就是一个整体的, 但是作为单独一个个体的人来说,精力有限,时间有限,不可能这些领域都能掌 握,在这种情况下,选择最重要的核心,我想应该是数据挖掘技能和相关业务能 力吧(从另外的一个极端的例子,我们可以看, 比如一个迷你型的挖掘项目, 一个懂得市场营销和数据挖掘技能的人应该可以胜任。这其中他虽然不懂数据仓 库,但是简单的Excel就足以胜任高打6万个样本的数据处理;他虽然不懂专业 的展示展现技能,但是只要他自己看的懂就行了,这就无需什么展示展现;前面 说过,统计技能是应该掌握的,这对一个人的迷你项目很重要;他虽然不懂编程,

14、 但是专业挖掘工具和挖掘技能足够让他操练的;这样在迷你项目中,一个懂得挖 掘技能和市场营销业务能力的人就可以圆满完成了,甚至在一个数据源中根据业 务需求可以无穷无尽的挖掘不同的项目思路,试问就是这个迷你项目,单纯的一 个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技师、甚至单纯的一 个挖掘技术专家,都是无法胜任的)。这从另一个方面也说明了为什么沟通能力 的重要,这些个完全不同的专业领域,想要有效有机地整合在一起进行数据挖掘 项目实践,你说没有好的沟通能力行吗?数据挖掘能力只能在项目实践的熔炉中提升、升华,所以跟着项目学挖掘是最有 效的捷径。国外学习挖掘的人都是一开始跟着老板做项目,刚开始

15、不懂不要紧, 越不懂越知道应该学什么,才能学得越快越有效果。我不知道国内的数据挖掘学 生是怎样学的,但是从网上的一些论坛看,很多都是纸上谈兵,这样很浪费时间, 很没有效率。另外现在国内关于数据挖掘的概念都很混乱,很多BI只是局限在报表的展示和 简单的统计分析,却也号称是数据挖掘;另一方面,国内真正规模化实施数据挖 掘的行业是屈指可数(银行、保险公司、移动通讯),其他行业的应用就只能算 是小规模的,比如很多大学都有些相关的挖掘课题、挖掘项目,但都比较分散, 而且都是处于摸索阶段,但是我相信数据挖掘在中国一定是好的前景,因为这是 历史发展的必然。讲到移动方面的实践案例,如果你是来自移动的话,你一定知道国内有家叫华院 分析的公司(申明,我跟这家公司没有任何关系,我只是站在数据挖掘者的角度 分析过中国大多数的号称数据挖掘服务公司,觉得华院还不错,比很多徒有虚名 的大公司来得更实际),他们的业务现在已经覆盖了绝大多数中国省级移动公司 的分析挖掘项目,你上网搜索一下应该可以找到一些详细的资料吧。我对华院分 析印象最深的一点就是2002年这个公司白手起家,自己不懂不要紧,一边自学 一边开始拓展客户,到现在在中国的移动通讯市场全面开花,的确佩服佩服呀。 他们最开始都是用EXCEL处理数据,用肉眼比较选择比较不同的模型,你可以 想象这其中的艰难吧。至于移动通讯的具

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号