大数据技术解决方案基础版(1016)教学材料

资源描述

《大数据技术解决方案基础版(1016)教学材料》由会员分享，可在线阅读，更多相关《大数据技术解决方案基础版(1016)教学材料（257页珍藏版）》请在金锄头文库上搜索。

1、1 中国电信大数据技术解决方案广州优亿信息科技有限公司 2012 年 7 月 19 日 1 目目录录 1概述 6 2面临的挑战 6 2 1数据采集 10 2 2数据清洗 10 2 3数据存储 12 2 4数据并行处理 12 2 5数据分析 12 2 6可视化 12 2 7传统解决方案的分析 12 3相关技术的研究 12 3 1参考模型框架 12 3 2数据采集 12 3 2 1结构化数据的采集 12 3 2 2半结构化数据的采集 12 3 2 3非结构化文本数据中信息的抽取 15 3 3数据清洗和数据质量的保证 15 3 3 1数据质量的概念及分类 15 3 3 2数据清洗的原理 18

2、3 3 3单数据源中的数据清洗 20 3 4数据的集成和融合 37 3 4 1多数据源集成问题的分类 38 1 3 4 2数据标准化的研究 40 3 4 3数据集成的流程 41 3 4 4多数据源中重复实体的清理 41 3 4 5数据不一致性问题的研究 43 3 5数据的存储和处理 43 3 5 1并行和分布式处理理论 43 3 5 2并行 RDBMS 47 3 5 3Hadoop 49 3 5 4Hadoop 扩展和优化 53 3 5 5NoSQL 58 3 5 6查询优化 110 3 6大数据中的数据挖掘 112 3 6 1传统数据挖掘概述 112 3 6 2大数据时代数据挖掘发展新趋势

3、120 3 6 3WEB 数据挖掘 124 3 6 4超数据集成挖掘方法与技术研究 153 3 6 5数据挖掘网格技术 186 3 7大规模机器学习 208 3 7 1机器学习概述 209 3 7 2扩展机器学习的必要性 211 3 7 3面临的挑战 213 3 7 4概率图模型 214 1 3 7 5集成学习 215 3 8可视化和可视化分析 225 3 8 1概述 225 3 8 2可视化技术 225 3 8 3可视化分析 227 3 8 4文本的可视化分析 228 3 8 5网络可视化分析 230 3 8 6移动轨迹数据的可视化分析 230 3 8 7交互式可视化分析 230 3 9数据

4、溯源技术的研究 230 3 9 1概述 231 3 9 2模式级数据的溯源 232 3 9 3实例级数据的溯源 232 3 9 4数据溯源应用的分类 233 3 9 5未来研究方向 234 3 10同步技术的研究 235 3 10 1概述 235 3 10 2通信程序 235 3 10 3数据库复制技术 239 3 10 4ETL 技术 242 3 10 5事务处理 244 3 10 6XML 技术 246 1 3 11数据共享技术 248 3 12安全技术的研究 249 3 12 1安全风险分析 249 3 12 2安全技术需求 250 3 12 3身份认证与密匙协商 251 3 12 4访

5、问控制技术 251 3 12 5入侵检测技术 252 3 13隐私保护技术的研究 253 3 13 1概述 253 3 13 2隐私保护的技术手段 254 3 13 3匿名技术研究 256 4总体技术解决方案 258 4 1总体描述 258 4 2功能框架 258 4 3技术架构 258 4 3 1数据采集层 258 4 3 2数据管理层 258 4 3 3数据分析层 258 4 3 4数据展示层 258 4 3 5数据应用层 258 4 4与传统数据解决方案对比 258 5实施方案设计和建议 258 1 1 概述主要是描述大数据的定义大数据的特点大数据的来源大数据的行业趋势大数据

6、的应用可以把行业研究报告的总结放在这里 2 面临的挑战大数据分析面临巨大的挑战以下我们从 5 方面来讨论异构性和非完整性当用户使用信息时可以容忍大量的异构性实际上自然语言的丰富性和微妙可以提供有价值的深度然而机器分析通常希望是同构的数据无法理解自然语言的微妙之处所以通过机器进行数据分析的第一步就是必须仔细地定义数据结构很多的数据分析系统都要求好的数据结构少一些的结构化设计对于一些目的可能更加有效但是计算机系统的有效性则有赖于多个数据的大小和结构的一致性半结构化数据的有效表示访问和分析需要更加进一步的工作即便是在数据清洗和错误纠正之后数据还可能是

7、不完整的和错误的在数据分析得过程中应该有效地管理这种不完整性以及这些错误这是一个非常大的挑战近期关于概率数据或者不确定数据的管理也许可以在这方面取得一些进展数据的大小任何人对大数据的第一个想法就是它的大小多年来对大数据并且快速增长的数据的管理一直是很具有挑战的问题在过去这些挑战都是通过更快的处理器来应对的但是现在我们面临的一个基本的事实是数据量的增长速度超过了 CPU 速率的增长速度首先在过去 5 年处理器技术已经有了巨大的转变根据摩尔定理处理器的主频每 18 个月就会翻倍现在因为功率和散热的限制单个处理器的主频基本上停滞不前了业界都在通过多

8、核技术来生产处理器在过去大型的数据处理系统需要避免在计算机群中跨节 1 点的并行机制现在则需要处理在一个节点内的并行机制不幸的是过去应用于跨节点数据处理的并行数据处理技术并不能直接用于节点内的并行处理因为架构看上去非常不同比如在单个节点中多核之间通常会共享 Caches 和内存通道另外在将来出于规律的考虑我们可能不会持续使用系统中的硬件数据处理系统可能需要主动第管理处理器的功耗这些变化要求我们重新思考如何设计搭建以及运行数据处理组件第二个巨大的转变是向云计算的迁移云计算将多个分离的计算任务汇聚到非常大的计算机群中每个计算任务具有不同的性能目标在大

9、的计算机群中的资源共享要求新的方法来决定如何运行和执行数据处理工作以便我们可以经济有效地满足每个计算任务的目标还要求我们能够应对系统失效这在越来越的计算机群中发生得更加频繁在这种情况下说明式编程方案更加有效甚至是那些在做复杂的机器学习任务的程序因为为了获得好的整体性能跨多个用户程序的全局优化是是十分必要的依靠用户驱动的程序优化有可能导致较差的群的整体性能系统驱动的整体优化要求程序是足够透明的比如在关系型数据库中说明式的查询语言就是这样设计的第三个转变是传统的 I O 子系统发生了巨大的变化多年来永久性数据主要是存在硬盘上硬盘的随机访问 I O 性能

10、比顺序 I O 性能要慢很多通常数据处理引擎通过格式化数据以及查询处理方法的设计来克服这些限制如今硬盘正在逐步被固态驱动器取代其他的技术如相变内存正在出现这些新型的存储技术在随机访问 I O 性能比顺序 I O 性能之间不存在那么大的差异这就要求我们重新思考数据处理系统中存储子系统的设计存储子系统这种变化的影响基本上触及数据处理的每个方面包括查询处理算法查询排队算法数据库设计并发性控制方法以及恢复方法及时性 1 数据大小的另一面是速度需要处理的数据集越大分析所需要的时间就越长设计的系统如果可以有效地处理大数据那么这样的系统就能够快速地处理一个给定大小的

11、数据集但是这里的处理速度不完全是谈到大数据时通常所谈到的速度在大数据中还需要应对数据获取的速度的挑战现实中有很多情况需要立刻得到分析得结果比如如果怀疑一个欺诈性信用卡交易在交易完成之前我们就应该标识出这样的交易这样可以从根本上防止欺诈性交易的发生很显然对一个用户的消费历史进行全面实时的分析是不太可行的我们需要预先获得部分的结果以便我们可以通过在新数据上少量的渐进式计算就可以快速地做决定给定一个大的数据集通常需要找到满足一个特定准则那些数据在数据分析得过程中这种类型的搜索有可能重复地发生为了找到适合的数据每次对整个数据集进行搜索显然是不现实的

12、我们需要实现建立索引结构来快速找到符合要求的数据这里的问题是因为每个索引结构是按照一些类型的准则来设计的当需要使用大数据时有可能定义新型的准则这时就需要设计新的索引结构来支持新的准则例如考虑一个流量管理系统数据的隐私性数据的隐私性是另外一个重要的问题特别是在大数据中显得更加重要对于电子医疗记录有严格的法律规定可以做什么不可以做什么对于其他的数据就没有那么硬性的规定特别是在美国然而公众还是很担心个人数据的不正当使用特别是通过链接多个数据源的数据对隐私性的管理既是技术上的问题也是社会学的问题需要从这两个领域去寻找解决方案例如我们考虑从基

13、于位置的服务中收集到的数据这些新的架构要求用户把他们的位置信息共享给业务提供商这是一个很明显的隐私性问题如果只是隐藏用户的身份信息而没有隐藏他的位置信息这并不是一个好的解决方案因为 1 可以从位置信息推理出被查询者的身份信息比如我们可以通过几个静态的连接点如基站跟踪用户的位置信息一段时间后用户就会留下一些踪迹这些踪迹可以和特定的住所以及办公地点相关联从而可以确定用户的身份其他几种个人信息如关于个人健康比如在癌症治疗中心去过或者宗教偏好比如去过教堂等也可以通过观察匿名用户的移动和使用模式推理获得一般来说研究结果表明在用户的身份和他们的移动模式

14、之间存在很强的相关性将用户的位置信息隐藏起来远比隐藏用户的身份信息要困难得多这是因为在基于位置的服务中为了成功的数据访问和数据收集就需要用到用户的位置信息而用户的身份信息就可以不需要还有很多其他的具有挑战性的研究课题比如我们没有找到好的数据共享方法如何在限制个人信息披露的前提下还保证在共享数据中有足够有用的信息目前关于差异化隐私的研究是解决这个问题的重要一步但是这个研究删除掉的信息太多了在很多实际的情况中无法用另外实际中的数据不是静态的而是会随着时间的推移发生变化并且变得更大还有一个重要方向是重新思考在大数据中信息共享的安全性研究今天很多的在线

15、业务都要求我们共享个人信息但是除了访问控制之外对于其他的方面如共享数据意味着什么共享数据是如何链接的以及如何让用户对数据的共享能够进行更细颗粒的控制等则一无所知人力的介入与协作尽管机器分析取得了很大的进展但还是存在人可以轻易检测出的很多模式计算机算法却很难做到理想的方案是大数据分析并不完全是计算机算法而是设计成明确地把人放到分析的环路中新的可视化分析尝试按照这种原理去做至少是在整个管道中建模和分析得环节实际上在整个管道的所有环节人力的介入都有类似的价值在今天复杂的世界中通常需要来自各个不同的领域的多个专家去真正理解到底在发生什么一个大 1 数据分析

16、系统应该支持来自多个专家的输入并共享分析的结果这些专家有可能在空间和时间上是分离的数据系统应该接受这种分布式的专家输入并支持多个专家之间的协作一个现在比较流行的利用人的聪明才智来解决问题的新方法众包的方式 Wikipedia 在线百科全书就是众包数据的最著名的例子信息时由未经审查的陌生人提供的通常他们提供的信息时正确的但是还是存在一些个人有其他的动机和角色有些人出于某种原因故意提供错误的信息以误导别人虽然大部分这种错误会被其他的人发现并且纠正我们需要技术来支撑我们也需要一个框架来分析这些带有矛盾陈述的众包数据作为人我们可以查看关于饭店的评价有些是正面的有些是负面的然后我们形成一个总结性评估基于此评估我们可以决定是否去这个饭店试试我们希望计算机能够做类似的事情在一种特定类型的众包即参与感测中不确定性和错误的问题更加显著在这种情况下每个持有手机的人可以作为一个多模的传感器收集各种类型的数据比如图片图像声音时间速度方向加速度等数据这里比较大的挑战是数据搜集设备内在的不确定性收集到的数据在时间和空间上的相关性可

展开阅读全文