大数据路线及学习资料

上传人:豆浆 文档编号:31806684 上传时间:2018-02-09 格式:DOC 页数:7 大小:84.52KB
返回 下载 相关 举报
大数据路线及学习资料_第1页
第1页 / 共7页
大数据路线及学习资料_第2页
第2页 / 共7页
大数据路线及学习资料_第3页
第3页 / 共7页
大数据路线及学习资料_第4页
第4页 / 共7页
大数据路线及学习资料_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《大数据路线及学习资料》由会员分享,可在线阅读,更多相关《大数据路线及学习资料(7页珍藏版)》请在金锄头文库上搜索。

1、 学大数据路线及学习资料 互联网 5 大抢手职业定义一个职业的抢手程度=平均月薪*发布职位数/已招到职位数,根据这个公式统计出排名前五的互联网抢手职业,可以看到,技术岗位职业占据了四席,架构师由于对于其高要求的技术能力需求成为了非常抢手的职业,产品经理也属于 5 大抢手职业之一,这对于那些不需要特别精通技术,又想在互联网行业发展的朋友无疑是一个很好的消息。互联网 5 大过剩职业与抢手职业计算公式相同,我统计出得分低的 5 个职业,可以看到,这些职业均属于职能类别,由于很多互联网公司属于初创期,对于财务这块的业务往往不重视,要么外包给财务公司,要么某个人员兼任,所以出纳这个职业成为了互联网行业过

2、剩的职业。四川是旅游的天堂,无法拒绝她火辣辣的美食,无法拒绝她惊艳的自然风光,更无法拒绝她的古蜀文化。中国作为全球首屈一指的大国,it 培训缺口日益增大。从国家到地方,政府纷纷鼓励年轻人学习一技之长改变命运,成为很多人的首选。那么,2017it 培训前景如何?是不是真如传言中所说的高薪职业永不失业呢?大家对于 it 培训一定有所了解吧,今天,小编就为大家收集和整理了有关的信息,希望能让大家有更深一步的了解!接下来小编为你整理了超实用的干货想了解 it 培训的,快来看,绝对超实用哦! 数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法

3、来对付数据,科多大数据和你一起来看看数据大咖的分享。但从狭义上来看,我认为数据科学就是解决三个问题:1. data pre-processing;(数据预处理)2. data interpretation;(数据解读)3.data modeling and analysis.(数据建模与分析)这也就是我们做数据工作的三个大步骤:1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;2、我们想看看数据“长什么样”,有什么特点和规律;3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到ou

4、tput。这三个步骤未必严谨,每个大步骤下面可能依问题的不同也会有不同的小步骤,但按我这几年的经验来看,按照这个大思路走,数据一般不会做跑偏。这样看来,数据科学其实就是门复合型的技术,既然是技术就从编程语言谈起吧,为了简练,只说说 R 和 Python。但既然是荐数据科学方面的书,我这里就不提 R/Python 编程基础之类的书了,直接上跟数据科学相关的。R programming如果只是想初步了解一下 R 语言已经 R 在数据分析方面的应用,那不妨就看看这两本:R in action:我的 R 语言大数据 101。其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭

5、。但如果配合上一些辅助材料,如官方发布的 R basics( http:/ cran.r-project.org/doc/ contrib/usingR.pdf ),stackoverflow 上有 tag-R 的问题集(Newest r Questions ),遇到复杂的问题可在上面搜索,总会找到解决方案的。这样一来,用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松,紧贴实战。 Data analysis and graphics using R:使用 R 语言做数据分析的入门书。这本书的特点也是紧贴实战,没有过多地讲解统计学理论,所以喜欢通过情境应用来学习的人应该会喜欢这本入门

6、书。而且这本书可读性比较强,也就是说哪怕你手头没电脑写不了代码,有事没事拿出这本书翻一翻,也能读得进去。但如果你先用 R 来从事实实在在的数据工作,那么上面两本恐怕不够,还需要这些:Modern applied statistics with S:这本书里统计学的理论就讲得比较多了,好处就是你可以用一本书既复习了统计学,又学了 R 语言。(S/Splus 和R 的关系就类似于 Unix 和 Linux,所以用 S 教程学习 R,一点问题都没有)Data manipulation with R:这本书实务性很强,它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任

7、何一本注重实战的书一样,本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说,这本书的内容非常重要,因为对于任何研究,一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则,你的研究总是要等待你的数据。R Graphics Cookbook:想用 R 做可视化,就用这本书吧。150 多个recipes,足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看,R 是最容易做出最漂亮的图表的工具了。An introduction to statistical learning with application in R:这本书算是著名的 the element

8、 of statistical learning 的姊妹篇,后者更注重统计(机器)学习的模型和算法,而前者所涉及的模型和算法原没有后者全面或深入,但却是用 R 来学习和应用机器学习的很好的入口。A handbook of statistical analysis using R:这本书内容同样非常扎实,很多统计学的学生就是用这本书来学习用 R 来进行统计建模的。PythonThink Python,Think Stats,Think Bayes:这是 Allen B. Downey 写的著名的 Think X series 三大卷。其实是三本精致的小册子,如果想快速地掌握Python 在统计方

9、面的操作,好好阅读这三本书,认真做习题,答案链接在书里有。这三本书学通了,就可以上手用 Python 进行基本的统计建模了。Python For Data Analysis:作者是 pandas 的主要开发者,也正是Pandas 使 Python 能够像 R 一样拥有 dataframe 的功能,能够处理结构比较复杂的数据。这本书其实 analysis 讲得不多,说成数据处理应该更合适。掌握了这本书,处理各种糟心的数据就问题不大了。 Introduction to Python for Econometrics, Statistics and Data Analysis:这本书第一章就告诉你要

10、安装 Numpy, Scipy, Matplotlib, Pandas, IPython 等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面,但读起来比较枯燥,可以用来当工具书。Practical Data Analysis:这本书挺奇葩,貌似很畅销,但作者把内容安排得东一榔头西一棒子,什么都讲一点,但一个都没讲透。这本书可以作为我们学习数据分析的一个索引,看到哪块内容有意思,就顺着它这个藤去摸更多的瓜。Python Data Visualization Cookbook:用 Python 做可视化的教材肯定不少,我看过的也就这一本,觉得还不错。其实这类书差别都不会很大,咬住一本啃

11、下来就是王道。Exploratory Data Analysis 和 Data VisualizationExploratory Data Analysis:John Tukey 写于 1977 年的经典老教材,是这一领域的开山之作。如今 EDA 已经是统计学里的重要一支,但当时还是有很多人对他的工作不屑一顾。可他爱数据,坚信数据可以以一种出人意料的方式呈现出来。正是他的努力,让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了,内容略过时。要想完整地了解 EDA,推荐下一本:Exploratory Data Analysis with MATLAB:这本书虽然标题带了个MATLAB,但实

12、际上内容几乎没怎么讲 MATLAB,只是每讲一个方法的时候就列出对应的 MATALB 函数。这本书的重要之处在于,这是我读过的讲 EDA 最系统的一本书,除了对 visualization 有不输于 John Tucky 的讲解外,对于高维的数据集,通过怎样的方法才能让我们从中找到潜在的 pattern,这本书也做了详尽的讲解。全书所以案例都有对应的 MATALB 代码,而且还提供了 GUI(图形用户界面)。所以这本书学起来还是相当轻松愉悦的。Visualize This:中译本叫“鲜活的数据”,作者是个“超级数据迷”,建立了一个叫 http:/ 的网页展示他的数据可视化作品,这本书告诉你该

13、选择什么样的可视化工具,然后告诉你怎样 visualize 关系型数据、时间序列、空间数据等,最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么,可以直接点开下面这个链接感受下吧!A tour through the visualization zoo(A Tour Through the Visualization Zoo )Machine Learning & Data Mining这一块就不多说了,不是因为它不重要,而是因为它太太太重要。所以这一部分就推两本书,都是”世界名著“,都比较难读,需要一点点地啃。这两本书拿下,基本就算是登堂入室了。其实作为机器学习的延伸和深化,概

14、率图模型(PGM)和深度学习(deep learning)同样值得研究,特别是后者现在简直火 得不得了。但 PGM 偏难,啃 K.Daphne 那本大作实在太烧脑,也没必要,而且在数据领域的应用也不算很广。deep learning 目前工业界的步子迈得比学术界的大,各个 domain 的应用如火如荼,但要有公认的好教材问世则还需时日,所以 PGM 和 deep learning 这两块就不荐书了。The Element of Statistical Learning:要学机器学习,如果让我只推荐一本书,我就推荐这本巨著。Hastie、Tibshirani、Friedman 这三位大牛写书写得

15、太用心了,大厦建得够高够大,结构也非常严谨,而且很有前瞻性,纳入了很多前沿的内容,而不仅仅是一部综述性的教材。(图表也做得非常漂亮,应该是用 R 语言的 ggplot2 做的。)这本书注重讲解模型和算法本身,所以需要具备比较扎实的数理基础,啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习(统计学习)的库现在已经非常丰富,即使你没有完全搞懂某个模型或算法的原理和过程,只要会用那几个库,机器学习也能做得下去。但你会发现你把数据代进去,效果永远都不好。但是,当你透彻地理解了模型和算法本身,你再调用那几个库的时候,心情是完全不一样的,效果也不一样。Data Mining: Con

16、cepts and Techniques, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋,之所以推荐这本韩家炜爷爷的,是因为虽然他这本书的出发点是应用,但原理上的内容也一点没有落下,内容非常完整。而且紧跟时代,更新的很快,我看过的是第二版,就已经加进去了 social network analysis 这种当时的前沿内容。现在已经有第三版了,我还没看过,但应该也加入了不少新内容。其实这本书并不难读,只是篇幅较长,啃起来比较耗时。其实这两本书里单拎出来一块内容可能又是几本书的节奏,比如 bayesian方法,再拿出两三本书来讲也不为过,我个人用到的比较多,而且也确实有不少好书。但并非是所有 data scientist 都要用

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号