腾讯广点通的数据挖掘

上传人:宝路 文档编号:47565189 上传时间:2018-07-03 格式:PPTX 页数:37 大小:2.08MB
返回 下载 相关 举报
腾讯广点通的数据挖掘_第1页
第1页 / 共37页
腾讯广点通的数据挖掘_第2页
第2页 / 共37页
腾讯广点通的数据挖掘_第3页
第3页 / 共37页
腾讯广点通的数据挖掘_第4页
第4页 / 共37页
腾讯广点通的数据挖掘_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《腾讯广点通的数据挖掘》由会员分享,可在线阅读,更多相关《腾讯广点通的数据挖掘(37页珍藏版)》请在金锄头文库上搜索。

1、广点通的数据挖掘2013-07ADC 目录21 产品 简介2 问题 分析3 解决 之道1. 系统演进2. 在线模型3. 特征设计4 两大 平台产品简介3官网 http:/ Qzone空间n 朋友网n QQ PC端n QQ音乐n 手机Qzonen CPCn CPMn 图片n 文字n GSP广告位展现形式投放策略计费方式4目录51 产品 简介2 问题 分析3 解决 之道1. 系统演进2. 在线模型3. 特征设计4 两大 平台挑战 广告位 上下文较少 没有明显的意图带入 没有固定的页面内容 广告位众多 网页 客户端 手机 等6挑战 用户 点击数据非常稀疏 大部分用户,一个月内都没有点击 平均1000

2、次曝光,点击 18 曝光数据偏态(以某个广告位为例) 40%的用户,一天内,曝光 = 1 80%的用户,一天内,曝光 N*N*AD排序全量预测快速聚类M*AD实时查询 注:MM*N*ADpCTR 排序Scoring 过滤reRanking 策略M*AD实时计算注:M img_group_id 好处 快不需要指定聚类中心个数SimHash值越接近的图片越相似31图像相似度-example32聚类id: 1711127890547892055包含3106 个这样的类似广告素材广告IDclickimpressionCTR 85099898855,5600.16% 850998011662,0910.

3、19% 850991216693,0990.18%对于同一人群,相似图片CTR接近目录331 产品 简介2 问题 分析3 解决 之道1. 系统演进2. 在线模型3. 特征设计4 两大 平台查询引擎Lhotse任务统一调度IDE 集成开发计算引擎MapReduce存储引擎HDFSHADOOPTDBANK 数据采集Hive核心平台之一:腾讯分布式数据仓库(TDW) 基于开源hadoop和hive进行大量优化和改造 单集群4400台(业界顶级规模),存储容量100PB 月活跃用户(数据提取分析)2800人,覆盖7大BG88个部门关键技术 Hadoop Master(NN/JT)节点实现 并行扩展,支

4、持灾难时自动热切 Hive&Pig功能丰富,支持传统数据库 的标准语法,提供可视化集成开发环境 TDBank准实时数据采集,支持5分钟 及时数据分析 Lhotse一站式任务管理,每天支撑10 万级任务调度,可平行扩展核心平台之二:实时推荐平台(APOLLO) 泛平台支撑,满足腾讯各类个性化推荐需求 海量数据在线处理,日推荐请求300亿,流式计算30000亿 算法精准,平台高效,毫秒级响应关键技术 多种算法模型灵活适配,LR、RDT、 SVD等 简单高效的扩展能力,数据动态伸缩 ,上层无感知 多副本数据容灾,服务可用度 99.995%以上 多级缓存技术,有效解决分布式计算 的数据CoLocation问题个人感悟1、数据为王,垃圾进垃圾出2、用户行为最有效3、简单实时方法好过复杂离线4、线下的模型指标只是参考,一定要做在线的AB TEST5、AB TEST前先做AA TEST6、在BADCASE中不断提升 36THANKS37

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号