三七大数据平台技术项目解决方案_V1.0

资源描述

《三七大数据平台技术项目解决方案_V1.0》由会员分享，可在线阅读，更多相关《三七大数据平台技术项目解决方案_V1.0（143页珍藏版）》请在金锄头文库上搜索。

1、. . 学习参考三七数据三七数据大数据技术解决方案大数据技术解决方案北京三七数据技术有限公司北京三七数据技术有限公司 20172017 年年 7 7 月月 3131 日日 . . 学习参考目目录录 1 1概述概述 6 6 2 2面临的挑战面临的挑战 6 6 2.12.1数据采集数据采集 10 2.22.2数据清洗数据清洗 10 2.32.3数据存储数据存储 12 2.42.4数据并行处理数据并行处理 12 2.52.5数据分析数据分析 12 2.62.6可视化可视化 12 2.72.7传统解决方案的分析传统解决方案的分析 12 3 3相关技术的研究相关技术的研究 1212 3.13.

2、1参考模型框架参考模型框架 12 3.23.2数据采集数据采集 12 3.2.13.2.1结构化数据的采集结构化数据的采集12 3.2.23.2.2半结构化数据的采集半结构化数据的采集12 3.2.33.2.3非结构化文本数据中信息的抽取非结构化文本数据中信息的抽取15 3.33.3数据清洗和数据质量的保证数据清洗和数据质量的保证 15 3.3.13.3.1数据质量的概念及分类数据质量的概念及分类15 3.3.23.3.2数据清洗的原理数据清洗的原理18 3.3.33.3.3单数据源中的数据清洗单数据源中的数据清洗20 3.43.4数据的集成和融合数据的集成和融合 37 3.4.13.4.1多

3、数据源集成问题的分类多数据源集成问题的分类38 3.4.23.4.2数据标准化的研究数据标准化的研究40 3.4.33.4.3数据集成的流程数据集成的流程41 3.4.43.4.4多数据源中重复实体的清理多数据源中重复实体的清理41 3.4.53.4.5数据不一致性问题的研究数据不一致性问题的研究43 3.53.5数据的存储和处理数据的存储和处理 43 3.5.13.5.1并行和分布式处理理论并行和分布式处理理论43 3.5.23.5.2并行并行 RDBMSRDBMS 47 3.5.33.5.3HadoopHadoop49 3.5.43.5.4HadoopHadoop 扩展和优化扩展和优化 .

4、53 3.5.53.5.5NoSQLNoSQL.58 3.5.63.5.6查询优化查询优化.110 3.63.6大数据中的数据挖掘大数据中的数据挖掘 .112 3.6.13.6.1传统数据挖掘概述传统数据挖掘概述.112 3.6.23.6.2大数据时代数据挖掘发展新趋势大数据时代数据挖掘发展新趋势.120 3.6.33.6.3WEBWEB 数据挖掘数据挖掘 .124 3.6.43.6.4超数据集成挖掘方法与技术研究超数据集成挖掘方法与技术研究.153 3.6.53.6.5数据挖掘网格技术数据挖掘网格技术.186 3.73.7大规模机器学习大规模机器学习 .208 3.7.13.7.1机器学习概

5、述机器学习概述.209 3.7.23.7.2扩展机器学习的必要性扩展机器学习的必要性.211 3.7.33.7.3面临的挑战面临的挑战.213 . . 学习参考 3.7.43.7.4概率图模型概率图模型.214 3.7.53.7.5集成学习集成学习.215 3.83.8可视化和可视化分析可视化和可视化分析 .225 3.8.13.8.1概述概述.225 3.8.23.8.2可视化技术可视化技术.225 3.8.33.8.3可视化分析可视化分析.227 3.8.43.8.4文本的可视化分析文本的可视化分析.228 3.8.53.8.5网络可视化分析网络可视化分析.230 3.8.63.8.6移动

6、轨迹数据的可视化分析移动轨迹数据的可视化分析.230 3.8.73.8.7交互式可视化分析交互式可视化分析.230 3.93.9数据溯源技术的研究数据溯源技术的研究 .230 3.9.13.9.1概述概述.231 3.9.23.9.2模式级数据的溯源模式级数据的溯源.232 3.9.33.9.3实例级数据的溯源实例级数据的溯源.232 3.9.43.9.4数据溯源应用的分类数据溯源应用的分类.233 3.9.53.9.5未来研究方向未来研究方向.234 3.103.10同步技术的研究同步技术的研究 .235 3.10.13.10.1概述概述.235 3.10.23.10.2通信程序通信程序.2

7、35 3.10.33.10.3数据库复制技术数据库复制技术.239 3.10.43.10.4ETLETL 技术技术 .242 3.10.53.10.5事务处理事务处理.244 3.10.63.10.6XMLXML 技术技术 .246 3.113.11数据共享技术数据共享技术 .248 3.123.12安全技术的研究安全技术的研究 .249 3.12.13.12.1安全风险分析安全风险分析.249 3.12.23.12.2安全技术需求安全技术需求.250 3.12.33.12.3身份认证与密匙协商身份认证与密匙协商.251 3.12.43.12.4访问控制技术访问控制技术.251 3.12.53

8、.12.5入侵检测技术入侵检测技术.252 3.133.13隐私保护技术的研究隐私保护技术的研究 .253 3.13.13.13.1概述概述.253 3.13.23.13.2隐私保护的技术手段隐私保护的技术手段.254 3.13.33.13.3匿名技术研究匿名技术研究.256 4 4总体技术解决方案总体技术解决方案 258258 4.14.1总体描述总体描述 .258 4.24.2功能框架功能框架 .258 4.34.3技术架构技术架构 .258 4.3.14.3.1数据采集层数据采集层.258 4.3.24.3.2数据管理层数据管理层.258 4.3.34.3.3数据分析层数据分析层.258

9、 4.3.44.3.4数据展示层数据展示层.258 4.3.54.3.5数据应用层数据应用层.258 4.44.4与传统数据解决方案对比与传统数据解决方案对比 .258 . . 学习参考 5 5实施方案设计和建议实施方案设计和建议 258258 1 1概述概述（主要是描述大数据的定义，大数据的特点，大数据的来源，大数据的行业趋势，大数据的应用。可以把行业研究报告的总结放在这里） 2 2面临的挑战面临的挑战大数据分析面临巨大的挑战，以下我们从 5 方面来讨论：异构性和非完整性当用户使用信息时，可以容忍大量的异构性。实际上，自然语言的丰富性和微妙可以提供有价值的深度。然而，机器分析通常

10、希望是同构的数据，无法理解自然语言的微妙之处。所以，通过机器进行数据分析的第一步就是必须仔细地定义数据结构。很多的数据分析系统都要求好的数据结构。少一些的结构化设计对于一些目的可能更加有效，但是计算机系统的有效性则有赖于多个数据的大小和结构的一致性。半结构化数据的有效表示，访问和分析需要更加进一步的工作。即便是在数据清洗和错误纠正之后，数据还可能是不完整的和错误的。在数据分析得过程中应该有效地管理这种不完整性以及这些错误。这是一个非常大的挑战。近期关于概率数据或者不确定数据的管理也许可以在这方面取得一些进展。数据的大小任何人对大数据的第一个想法就是它的大小。多年来，对大数据并

11、且快速增长的数据的管理一直是很具有挑战的问题。在过去，这些挑战都是通过更快的处理器来应对的。但是现在我们面临的一个基本的事实是，数据量的增长速度超过了 CPU 速率的增长速度。首先，在过去 5 年，处理器技术已经有了巨大的转变，根据摩尔定理处理器的主频每 18 个月就会翻倍，现在因为功率和散热的限制，单个处理器的主频基本上停滞不前了，业界都在通过多核技术来生产处理器。在过去，大型的数据处理系统需要避免在计算机群中跨节点的并行机制；现在，则需要处理在一个节点内的并行机制。不幸的是，过去应用于跨节点数据处理的并行数据处理技术并不能直接用于节点内的并行处理，因为架构看上去非常不同。比

12、如，在单个节点中多核之间通常会共享 Caches 和内存通道。另外，在将来出于规律的考虑，我们可能不会持续使用系统中的硬件，数据处理系统可能需要主动第管理处理器的功耗。这些变化要求我们重新思考如何设计，搭建以及运行数据处理组件。第二个巨大的转变是向云计算的迁移，云计算将多个分离的计算任务汇聚到非常大的计算机群中，每个计算任务具有不同的性能目标。在大的计算机群中的资源共享要求新的方法来决定如何运行和执行数据处理工作，以便我们可以经济有效地满足每个计算任务的目标；还要求我们能够应对系统失效，这在越来越的计算机群中发生得更加频繁。在这种情况下，说明式编程方案更加有效，甚至是那些在做复杂

13、的机器学习任务的程序，因为为了获得好的整体性能，跨多个用户程序的全局优化是是十分必要的。依靠用户驱动的程序优化有可能导致较差的群的整体性能。系统驱动的整体优化要求程序是足够透明的，比如在关系型数据库中，说明式的查询语言就是这样设计的。第三个转变是传统的 I/O 子系统发生了巨大的变化。多年来，永久性数据主要是存在硬盘上。硬盘的随机访问 I/O 性能比顺序 I/O 性能要慢很多，通常数据处理引擎通过格式化数据，以及查询处理方法的设计来克服这些限制。如今，硬盘正在逐步被固态驱动器取 . . 学习参考代，其他的技术如相变内存正在出现。这些新型的存储技术在随机访问 I/O 性能比顺序 I

14、/O 性能之间不存在那么大的差异，这就要求我们重新思考数据处理系统中存储子系统的设计。存储子系统这种变化的影响基本上触及数据处理的每个方面，包括查询处理算法，查询排队算法，数据库设计，并发性控制方法以及恢复方法。及时性数据大小的另一面是速度。需要处理的数据集越大，分析所需要的时间就越长。设计的系统如果可以有效地处理大数据，那么这样的系统就能够快速地处理一个给定大小的数据集。但是，这里的处理速度不完全是谈到大数据时通常所谈到的速度，在大数据中还需要应对数据获取的速度的挑战。现实中有很多情况需要立刻得到分析得结果。比如，如果怀疑一个欺诈性信用卡交易，在交易完成之前我们就应该标识出这

15、样的交易，这样可以从根本上防止欺诈性交易的发生。很显然，对一个用户的消费历史进行全面实时的分析是不太可行的。我们需要预先获得部分的结果，以便我们可以通过在新数据上少量的渐进式计算就可以快速地做决定。给定一个大的数据集，通常需要找到满足一个特定准则那些数据。在数据分析得过程中，这种类型的搜索有可能重复地发生。为了找到适合的数据，每次对整个数据集进行搜索显然是不现实的。我们需要实现建立索引结构来快速找到符合要求的数据。这里的问题是，因为每个索引结构是按照一些类型的准则来设计的。当需要使用大数据时，有可能定义新型的准则，这时就需要设计新的索引结构来支持新的准则。例如，考虑一个流量管理

16、系统，数据的隐私性数据的隐私性是另外一个重要的问题，特别是在大数据中显得更加重要。对于电子医疗记录，有严格的法律规定可以做什么，不可以做什么。对于其他的数据，就没有那么硬性的规定，特别是在美国。然而，公众还是很担心个人数据的不正当使用，特别是通过链接多个数据源的数据。对隐私性的管理既是技术上的问题，也是社会学的问题，需要从这两个领域去寻找解决方案。例如，我们考虑从基于位置的服务中收集到的数据。这些新的架构要求用户把他们的位置信息共享给业务提供商，这是一个很明显的隐私性问题。如果只是隐藏用户的身份信息，而没有隐藏他的位置信息，这并不是一个好的解决方案。因为可以从位置信息推理出被查询者的身份信息。

展开阅读全文