java 如何转行大数据_光环大数据培训

上传人:gua****an 文档编号:49707218 上传时间:2018-08-01 格式:DOCX 页数:3 大小:39.32KB
返回 下载 相关 举报
java 如何转行大数据_光环大数据培训_第1页
第1页 / 共3页
java 如何转行大数据_光环大数据培训_第2页
第2页 / 共3页
java 如何转行大数据_光环大数据培训_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《java 如何转行大数据_光环大数据培训》由会员分享,可在线阅读,更多相关《java 如何转行大数据_光环大数据培训(3页珍藏版)》请在金锄头文库上搜索。

1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌光环大数据光环大数据 http:/java 如何转行大数据如何转行大数据_光环大数据培训光环大数据培训java 如何转行大数据?可以很肯定的告诉你,如果有 java 基础想转行大数据那是非常容易的,java 基础越好大数据学习起来就越容易。本来就学习 Java, 有一定编程基础, 学 hadoop, spark 这些应该更加容易。数学的话需要点基础:线性代数,概率。可以从数据库开始,JavaEE,linux+搜索+hadoop 体系,storm 流式计算,spark 内存计算,这些里面内容都很多,就不一一列举。数据有两个方向,一个是偏

2、计算机的,另一个是偏经济的。你学过 Java,所以你可以偏将计算机基础1. 读书Introduction to Data Mining ,这本书很浅显易懂,没有复杂高深的公式,很合适入门的人。另外可以用这本书做参考Data Mining : Concepts and Techniques 。第二本比较厚,也多了一些数据仓库方面的知识。如果对算法比较喜欢,可以再阅读Introduction to Machine Learning 。当然,还有机器学习:实用案例解析2. 实现经典算法。有几个部分:a. 关联规则挖掘 (Apriori, FPTree, etc.)b. 分类 (C4.5, KNN,

3、Logistic Regression, SVM, etc.)c. 聚类 (Kmeans, DBScan, Spectral Clustering, etc.)d. 降维 (PCA, LDA, etc.)e. 推荐系统 (基于内容的推荐,协同过滤,如矩阵分解等)然后在公开数据集上测试,看实现的效果。可以在下面的网站找到大量的公开数据集:UCI Machine Learning Repository/光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌光环大数据光环大数据 http:/3. 熟悉几个开源的工具: Weka (用于上手); LibSVM, scikit-learn, Shog

4、un4. 到 Kaggle: Go from Big Data to Big Analytics/ 上参加几个 101 的比赛,学会如何将一个问题抽象成模型,并从原始数据中构建有效的特征 (Feature Engineering). 众所周知,java 在处理数据量比较大的时候,加载到内存必然会导致内存溢出,而在一些数据处理中我们不得不去处理海量数据,在做数据处理中,我们常见的手段是分解,压缩,并行,临时文件等方法。例如,我们要将数据库(不论是什么数据库)的数据导出到一个文件,一般是Excel 或文本格式的 CSV;对于 Excel 来讲,对于 POI 和 JXL 的接口,你很多时候没有办法去

5、控制内存什么时候向磁盘写入,很恶心,而且这些 API 在内存构造的对象大小将比数据原有的大小要大很多倍数,所以你不得不去拆分 Excel,还好,POI 开始意识到这个问题,在3.8.4 的版本后,开始提供 cache 的行数,提供了 SXSSFWorkbook 的接口,可以设置在内存中的行数,不过可惜的是,他当你超过这个行数,每添加一行,它就将相对行数前面的一行写入磁盘(如你设置 2000 行的话,当你写第 20001 行的时候,他会将第一行写入磁盘) ,其实这个时候他些的临时文件,以至于不消耗内存,不过这样你会发现,刷磁盘的频率会非常高,我们的确不想这样,因为我们想让他达到一个范围一次性将数

6、据刷如磁盘,比如一次刷 1M 之类的做法,可惜现在还没有这种 API,很痛苦,我自己做过测试,通过写小的Excel 比使用目前提供刷磁盘的 API 来写大文件,效率要高一些,而且这样如果访问的人稍微多一些磁盘 IO 可能会扛不住,因为 IO 资源是非常有限的,所以还是拆文件才是上策;而当我们写 CSV,也就是文本类型的文件,我们很多时候是可以自己控制的,不过你不要用 CSV 自己提供的 API,也是不太可控的,CSV 本身就是文本文件,你按照文本格式写入即可被 CSV 识别出来到这一步的话基本几个国内的大公司都会给你面试的机会。有一定的自学能力和自控能力,有一套完整的教程资料,熟练使用stac

7、koverflower,segmentfault 等站点解决技术性的问题,自学起来难度不会太大。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌光环大数据光环大数据 http:/反之,自学能力和自控能力弱一些,容易受环境影响,还是报个培训班学习吧,身边的同学都在努力学习,也可以带动自己的学习热情。光环大数据通过多年来观察学员的学习状态得出结论:有一定的 Java 基础,在进行大数据专业技术会轻松一些。为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询】光环大数据官方网站报名:http:/ /mobile/

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 数据挖掘与识别

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号