(大数据)三七大数据平台技术解决方案_V10(DOC258页)

上传人:管****问 文档编号:118871372 上传时间:2019-12-27 格式:DOC 页数:257 大小:2.95MB
返回 下载 相关 举报
(大数据)三七大数据平台技术解决方案_V10(DOC258页)_第1页
第1页 / 共257页
(大数据)三七大数据平台技术解决方案_V10(DOC258页)_第2页
第2页 / 共257页
(大数据)三七大数据平台技术解决方案_V10(DOC258页)_第3页
第3页 / 共257页
(大数据)三七大数据平台技术解决方案_V10(DOC258页)_第4页
第4页 / 共257页
(大数据)三七大数据平台技术解决方案_V10(DOC258页)_第5页
第5页 / 共257页
点击查看更多>>
资源描述

《(大数据)三七大数据平台技术解决方案_V10(DOC258页)》由会员分享,可在线阅读,更多相关《(大数据)三七大数据平台技术解决方案_V10(DOC258页)(257页珍藏版)》请在金锄头文库上搜索。

1、三七数据 大数据技术解决方案 北京三七数据技术有限公司 2017 年 7 月 31 日 目目 录录 1概述.6 2面临的挑战 .6 2.1数据采集 .10 2.2数据清洗 .10 2.3数据存储 .12 2.4数据并行处理 .12 2.5数据分析 .12 2.6可视化 .12 2.7传统解决方案的分析.12 3相关技术的研究.12 3.1参考模型框架 .12 3.2数据采集 .12 3.2.1结构化数据的采集.12 3.2.2半结构化数据的采集.12 3.2.3非结构化文本数据中信息的抽取.15 3.3数据清洗和数据质量的保证.15 3.3.1数据质量的概念及分类.15 3.3.2数据清洗的原

2、理.18 3.3.3单数据源中的数据清洗.20 3.4数据的集成和融合 .37 3.4.1多数据源集成问题的分类.38 3.4.2数据标准化的研究.40 3.4.3数据集成的流程.41 3.4.4多数据源中重复实体的清理.41 3.4.5数据不一致性问题的研究.43 3.5数据的存储和处理 .43 3.5.1并行和分布式处理理论.43 3.5.2并行 RDBMS.47 3.5.3Hadoop.49 3.5.4Hadoop 扩展和优化.53 3.5.5NoSQL.58 3.5.6查询优化.110 3.6大数据中的数据挖掘.112 3.6.1传统数据挖掘概述.112 3.6.2大数据时代数据挖掘发展新趋势.120 3.6.3WEB 数据挖掘.124 3.6.4超数据集成挖掘方法与技术研究.153 3.6.5数据挖掘网格技术.186 3.7大规模机器学习 .208 3.7.1机器学习概述.209 3.7.2扩展机器学习的必要

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 经营企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号