基于Hadoop_HBase的一淘搜索离线系统

上传人:飞*** 文档编号:48664779 上传时间:2018-07-19 格式:PPTX 页数:30 大小:1.05MB
返回 下载 相关 举报
基于Hadoop_HBase的一淘搜索离线系统_第1页
第1页 / 共30页
基于Hadoop_HBase的一淘搜索离线系统_第2页
第2页 / 共30页
基于Hadoop_HBase的一淘搜索离线系统_第3页
第3页 / 共30页
基于Hadoop_HBase的一淘搜索离线系统_第4页
第4页 / 共30页
基于Hadoop_HBase的一淘搜索离线系统_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《基于Hadoop_HBase的一淘搜索离线系统》由会员分享,可在线阅读,更多相关《基于Hadoop_HBase的一淘搜索离线系统(30页珍藏版)》请在金锄头文库上搜索。

1、基于Hadoop/HBase的一淘搜索离线系统莫 问个人简介花名:莫问 真名:王峰 2006年硕士毕业于北航计算机系毕业后加入阿里巴巴集团雅虎中国 - 垂直搜索团队阿里云 - 计算服务团队淘宝/一淘 - 网页抓取团队 技术方向:分布式系统和大数据处理提 纲 一淘搜索系统架构 基于HBase的分布式存储系统 基于Hadoop的分布式计算平台 一淘全网商品离线处理系统抓取系统存储系统业务处 理流程索引构建搜索引擎Web搜索前端淘宝商品一淘搜索系统架构淘宝商品导入基于HBase的分布式存储系统 HBase集群概述 HBase主要数据 HBase扩展开发 基于HBase的分布式消息队列HBase集群概

2、述集群版本:0.94.x+扩展优化集群规模:300台+存储量:300TB+每日更新量:10%监控:Ganglia + JMXHBase主要数据电子商务网页库(几十亿)全网B2C商品全网导购信息(资讯、问答、论坛、点评等)淘宝+天猫商品(40%)精选优质商品淘客返利商品HBase扩展开发定制Load Balance插件定制Region Split/Merge插件和工具扩展ThriftServer API增强的MapReduce Lib支持丰富更多的Metrics指标多种Coprocessor插件RegionServerRegionServerRegionServerRegionServerreg

3、ionregionregionregionregionregionregionregionregionregionregionregionregionregionRS-Level BalanceRegionServerRegionServerRegionServerRegionServerregionregionregionregionregionregionregionregionregionregionregionregionregionregionregionTable-Level BalanceRegionServerRegionServerRegionServerRegionServ

4、erregionregionregionregionregionregionregionregionregionregionregionregionregionregionregionBoth RS & Table Level BalanceQueuePartition 1Message 1Message 2Message 3Partition 2Message 1Message 2Message3.ColumnTimesatampRowkey基于HBase的分布式消息队列(HQueue)ValuePartition ID + Message IDTopicTimestampValue1.Qu

5、eue is a HBase Table2.Partition is a HBase Region3.Message is a HBase KeyValueRegionServerTimestampSequence IDTopicValuePartition IDRowKeyHQueue WriterHTable Put API WrapperC O P R O C E S S O r2. Locate By Partition IDSort By TSP A R T I T I O nMessageMessageMessageMessage1. Create Message KV3. Set

6、 MessageID By TS and SeqID4. Append To PartitionRegionServerC O P R O C E S S O rP A R T I T I O nMessageMessageMessageMessage MessageIDMessage写入流程 RegionServerHQueue ReaderHTable Scan API Wrapper2. Locate By Partition ID1. Create Message Scan1.Partition ID 2.MessageID(TS) Range 3.Message TopicMessa

7、ge读取流程 RegionServerP A R T I T I O nMessageMessageMessageMessage3. Scan Sequencially Sort By TS4. Return By OrderP A R T I T I O nMessageMessageMessageMessageSort By TSHQueue特性支持持久化压缩存储(继承HBase)支持自动Failover(继承HBase)支持动态负载均衡(继承HBase)支持TTL设定,自动清理过期消息(继承HBase)支持多语言客户端(扩展HBase ThriftServer)可与HBase统一运维(本

8、质都是HBase)可与Hadoop MR无缝对接(开发HQueue MR Lib)电商网页库URL选取URL队列抓取系统Page队列抽取系统提链事件队列Dump事件队列图片、JS事件队列提链系统Dump系统图片、JS处理系统HQueue应用场景基于Hadoop的分布式计算平台Hadoop集群介绍Hadoop集群业务流程Hadoop-2.0基于Hadoop YARN的定制计算服务集群版本:2.0.X 集群规模:300台+存储量:1PB+每日运行Job数:2万+监控:Ganglia + JMXHadoop集群介绍 网页调度与选取 网页链接提取 网页内容抽取 全网商品各维度数据挖掘 一淘全网商品搜索

9、数据Dump 一淘全网商品搜索Index BuildHadoop集群业务流程 NameNode HAHDFS所有环节无单点支持HDFS在线升级 YARN引入二级调度,Not Only MR,可定制计算模型Cgroups资源隔离方案更彻底,让系统更稳定Hadoop-2.0MapReduce-1.0MapReduce-2.0(YARN)Resource ManagerNode Manager App WorkerApp MasterNode Manager App WorkerNode Manager App WorkerApp WorkerApp MasterClientNode Status

10、Resource RequestApp StatusClientService SubmissionFork / MonitorLanch Service Worker流式数据源(HQueue, MySQL DRC, TimeTunel)中转队列Service WorkersInputFormatInputFormatOutputFormatService MasterMetricsService WorkerService WorkerService WorkerService WorkersService WorkerService Workerzookeeperregister基于YAR

11、N的流式计算服务Progress CheckpointMetricsInputSplitInputSplitService WorkerServiceMaster1. Metrics(包括进度)InputSplitInputSplitService WorkerService Worker2. 发现Worker处理进度太慢3.分裂Worker动态分裂计算WorkerServiceMasterInputSplitInputSplitService WorkerService WorkerService WorkerInputSplitInputSplit1. Metrics(包括进度)2. 发现

12、两个Worker比较空闲3. 合并Worker动态合并计算Worker一淘全网商品离线处理系统 全网商品接入(淘宝+外网) 全网商品存储(HBase) 全网商品Dump(业务逻辑计算) 全网商品Index BuildHBase(全网商品库)一淘 抓取系统Import Job淘宝搜索 Hadoop/HBase集群淘宝商品外网商品eHarmony API Service前端运营工具人工修正修正商品 状态属性Import Service全量增量一淘全网商品接入HBase(全网商品库)Dump ServiceDump JobIndex Build JobHQueueXML文件问天搜索引擎索引文件实时消息定期增量XML文件全量XML文件文件索引HQueue增量更新事件商品入库/更新一淘全网商品Dump + Index BuildCoprocessorCoprocessor一淘全网商品业务处理Pipeline商家业务处 理运费业务处 理类目业务处 理促销业务处 理返利业务处 理排序业务处 理Dump JobDump Service可插件化全量流程实时增量流程业务处 理 Pipeline新浪微博:淘莫问Q &A

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号