Google云计算应用场景分析ppt课件.ppt

上传人:资****亨 文档编号:125312971 上传时间:2020-03-17 格式:PPT 页数:38 大小:2.46MB
返回 下载 相关 举报
Google云计算应用场景分析ppt课件.ppt_第1页
第1页 / 共38页
Google云计算应用场景分析ppt课件.ppt_第2页
第2页 / 共38页
Google云计算应用场景分析ppt课件.ppt_第3页
第3页 / 共38页
Google云计算应用场景分析ppt课件.ppt_第4页
第4页 / 共38页
Google云计算应用场景分析ppt课件.ppt_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《Google云计算应用场景分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《Google云计算应用场景分析ppt课件.ppt(38页珍藏版)》请在金锄头文库上搜索。

1、Google云计算应用场景分析 1 主要内容 Google云计算技术框架 应用场景分析1 Google网站流量分析 应用场景分析2 Google搜索 2 Google云计算的技术架构 Google的云计算应用均依赖于四个基础组件 分布式文件存储 GFS 并行数据处理模型MapReduce 分布式锁Chubby 结构化数据表BigTable GoogleGoogle云计算应用云计算应用 MapReduceMapReduceBigTableBigTable GFSGFS ChubbyChubby 3 Google云计算的技术架构 组件调用关系分析 GoogleGoogle云计算应用云计算应用 Bi

2、gTableBigTable GFSGFS MapReduceMapReduce ChubbyChubby 4 Google云计算的技术架构 Chubby的作用 为GFS提供锁服务 选择Master节点 记录 Master的相关描述信息 通过独占锁记录Chunk Server的活跃情况 为BigTable提供锁服务 记录子表元信息 如子 表文件信息 子表分配信息 子表服务器信息 记录MapReduce的任务信息 为第三方提供锁服务与文件存储 GoogleGoogle云计算应用云计算应用 BigTableBigTable GFSGFS MapReduceMapReduce ChubbyChubb

3、y 5 Google云计算的技术架构 GFS的作用 存储BigTable的子表文件 为第三方应用提供大尺寸文件存储功能 文件读操作流程 API与Master通信 获取文件元信息 根据指定的读取位置和读取长度 API发起并发操作 分别从若干ChunkServer上读取数据 API组装所得数据 返回结果 GoogleGoogle云计算应用云计算应用 BigTableBigTable GFSGFS MapReduceMapReduce ChubbyChubby 6 Google云计算的技术架构 BigTable的作用 为Google云计算应用 或第三方应用 提供数 据结构化存储功能 类似于数据库 为

4、应用提供简单数据查询功能 不支持联合查 询 为MapReduce提供数据源或数据结果存储 GoogleGoogle云计算应用云计算应用 BigTableBigTable GFSGFS MapReduceMapReduce ChubbyChubby 7 Google云计算的技术架构 BigTable的存储与服务请求的响应 划分为子表存储 每个子表对应一个子表文件 子表文件存储于GFS之上 BigTable通过元数据组织子表 每个子表都被分配给一个子表服务器 一个子表服务器可同时分配多个子表 子表服务器负责对外提供服务 响应查询请求 Tablet 1 root bigtable tablet1 T

5、ablet 2 root bigtable tablet2 Tablet 3 root bigtable tablet3 Tablet 4 root bigtable tablet4 8 Google云计算的技术架构 MapReduce的作用 对BigTable中的数据进行并行计算处理 如统计 归类等 使用BigTable或GFS存储计算结果 GoogleGoogle云计算应用云计算应用 BigTableBigTable GFSGFS MapReduceMapReduce ChubbyChubby 9 应用场景分析1 Google网站流量分析 Google Analytics 免费的企业级网络

6、分析解决方案 帮助企业了解网站流量和营销效果 能以灵活的方式 各类报表 查看并分析流量 数据 10 应用场景分析1 Google网站流量分析 11 应用场景分析1 Google网站流量分析 基本功能 统计网站的基本数据 包括会话 综合浏览量 点击量和字节流量等等 分析网站页面关注度 帮助企业调整或增删页 面 分析用户浏览路径 优化页面布局 分析用户访问来源链接 提高广告投资回报 分析用户访问环境 如OS和Explorer 帮助 美化页面 12 应用场景分析1 Google网站流量分析 应用的特征 海量数据 需要存储海量的用户行为数据 如点击时间 位置 等 海量用户 需要为任意多的网站提供流量分

7、析 技术路线 使用BigTable存储和检索数据 使用MapReduce 统计数据 13 应用场景分析1 Google网站流量分析 BigTable中的表设计 原始点击数据表 行键 点击时间 列键 网站URL 网站名称 用户IP地址 来源 URL 目标URL 目前尺寸约200TB 20091010121011 20091010121012 20091010121013 URL标题IP地址来源URL目标URL 14 应用场景分析1 Google网站流量分析 BigTable中的表设计 统计数据表 行键 网站URL 倒排 列键 点击次数 如记录最近一个月每日的访问次 数等 页面关注度 如记录网站页

8、面的访问比率 来源网站 如记录TOP10 目标网站 如记 录TOP10 每个列中记录的内容是字符串 Analytics在查询后需 要解析字符串获得统计结果 可根据统计内容的增多增加新的列 目前尺寸约20TB 15 应用场景分析1 Google网站流量分析 业务流程分析 数据采集数据采集 原始点击数 据表 数据处理数据处理 统计数据表 数据查询数据查询 MapReduceMapReduce 16 应用场景分析1 Google网站流量分析 基础设施 应用服务器集群 BigTable集群1BigTable集群2 GFS集群 Chubby集 群 MapReduce集群 17 应用场景分析1 Googl

9、e网站流量分析 数据采集 数据来源 页面内嵌脚本 点击行为脚本 应用服务器获取到数据后 存入BigTable 18 应用场景分析1 Google网站流量分析 数据采集 数据存储流程 向BigTable中写 入点击信息 寻找子表服务器 向内存临时子表写 入信息 含排序 如超过阈值则存储 为子表文件 GFS 存储子表文 件 子表合并 压缩 19 应用场景分析1 Google网站流量分析 数据处理 例如 统计网站 如 过去一周网页访问 比例 数据处理流程 数据查询MapReduce操作数据存储 点击数据表统计数据表 GFS 20 应用场景分析1 Google网站流量分析 数据处理 MapReduce

10、 Map操作 假设过去一周查询结果文件在GFS中包含M个Chunk 那么Master寻找M个空闲的Worker 分别处理这M 个Chunk 得到每个网站中页面的访问次数 com xxx com yyy com zzz 21 应用场景分析1 Google网站流量分析 数据处理 MapReduce 自动排序 对M个中间结果进行排序 com xxx com yyy com zzz com yyy com xxx com zzz com xxx com xxx com yyy com yyy com zzz com zzz 22 应用场景分析1 Google网站流量分析 数据处理 MapReduce

11、Reduce操作 假设得到该网站含N个网站 那么可以分配N台 Worker分别处理单个网站的数据 com xxx com xxx com yyy com yyy com zzz com zzz com xxx com yyy com zzz 23 应用场景分析1 Google网站流量分析 数据处理 写入数据 应用程序将分析结果写入统计数据表 com xxx com yyy com zzz 24 应用场景分析1 Google网站流量分析 数据查询 从数据统计表中查询行 获取对应列的数据 解析 得到并展示最终结 果 数据处理是定期的 非实时响应查询 25 应用场景分析2 Google搜索 Goog

12、le搜索的总体业务流程 数据采集 Spider 数据整理 生成各类子表 如音乐表 生活搜索表 学术搜索 表等 压缩数据表 清洗失效数据 数据检索 26 应用场景分析2 Google搜索 数据采集 通过若干Spider在网络上搜集数据 使用BigTable存储数据 行键 倒排的URL 列键 网站名称 语言 HTML描述 图片 链接 时间戳 记录不同时刻的网页快照 27 应用场景分析2 Google搜索 数据采集 Spider可能的数据处理流程 Spider获取到网页 数据 从Chubby的元数据中 找到该URL所处的子 表 从子表服务器中寻找 对应的行 如果该行不存在 则 插入新的行 读取网页内

13、容列 比 较新旧数据 增加时间戳 标识新 数据 若当前时间戳超过指定数 目 删除最旧内容 处理完毕 存在对应行 对应行键不存在 数据未变化 数据发生变化 28 应用场景分析2 Google搜索 数据整理 Google搜索包括多个子类 生活搜索 租房 车票 酒店等 资讯搜索 热门新闻 分类新闻等 学术搜索 学术论文 定期计算网站评价数据 例如PageRank的计算 具有统一的数据来源使用不同的表存储数据 可能使用MapReduce定期刷新数据 29 应用场景分析2 Google搜索 数据整理 Google学术搜索 30 应用场景分析2 Google搜索 数据整理 Google学术搜索 数据抽取

14、寻找包含学术 论文 信息的网页数据 并结构化 存储 学术 论文 信息抽取 分析参考文献 摘要等 可能的技术方案 MapReduce BigTable 数据统计 基于抽取的数据进行统计分析 如分析被引用次数 等 可能的技术方案MapReduce BigTable 学术信息BigTable 行键 论文标题 列键 作者 主题词 摘要 参考文献 期刊信息 被引用次数 下载链接 31 应用场景分析2 Google搜索 数据整理 Google学术搜索 如何使用MapReduce抽取数据 生成抽取目标 URL 文件 将目标文件分 割为M块 寻找M个Worker分别 做Map处理 查询网站的网 页数据 是否包

15、含论文 描述信息 抽取论文描述信息 输出 按论文标题将 输出排序 将论文描述信 息存入BigTable 寻找若干Worker做 Reduce处理 MapMap ReduceReduce 自动处理自动处理 自动处理自动处理 32 应用场景分析2 Google搜索 数据整理 Google学术搜索 如何获取论文统计数据 如论文引用次数 分析论文信息表 二次MapReduce 论文A 参考文献 论文B 论文C 论文D 论文B 参考文献 论文Q 论文C 论文A 论文C 参考文献 论文D 论文H 论文A 论文F 参考文献 论文A 论文C 论文E 参考文献 论文S 论文A 论文D 论文S 参考文献 论文E

16、论文F 33 应用场景分析2 Google搜索 数据整理 Google学术搜索 如何获取论文统计数据 如论文引用次数 归纳排序 34 应用场景分析2 Google搜索 数据整理 Google学术搜索 如何获取论文统计数据 如论文引用次数 Reduce操作 35 应用场景分析2 Google搜索 数据检索 有可能采用MapReduce实现 关键词搜索可能的处理流程 子表是否有 Content列 是否包含关键 词 关键词语义分 析 任务划分 子表 新 关键词 输出到临时结 果表 获取行数据中 Content项 处理完成 分配Worker 结果输出 Map Reduce 36 应用场景分析2 Google搜索 数据检索 搜索结果可能通过临时表存储 每个关键词对应一个临时子表 检索系统根据输入枚举现存检索结果的相似关键词 如果临时子表中存在检索结果 直接输出 应该存在机制刷新临时子表 37 Thank you 38

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号