阿里技术-九年双11互联网技术超级工程

上传人:jiben****gshi 文档编号:60914034 上传时间:2018-11-20 格式:PDF 页数:296 大小:29.95MB
返回 下载 相关 举报
阿里技术-九年双11互联网技术超级工程_第1页
第1页 / 共296页
阿里技术-九年双11互联网技术超级工程_第2页
第2页 / 共296页
阿里技术-九年双11互联网技术超级工程_第3页
第3页 / 共296页
阿里技术-九年双11互联网技术超级工程_第4页
第4页 / 共296页
阿里技术-九年双11互联网技术超级工程_第5页
第5页 / 共296页
点击查看更多>>
资源描述

《阿里技术-九年双11互联网技术超级工程》由会员分享,可在线阅读,更多相关《阿里技术-九年双11互联网技术超级工程(296页珍藏版)》请在金锄头文库上搜索。

1、 阿里技术微信公众号阿里技术官方微博 扫一扫二维码图案,关注我吧 阿里巴巴 CTO 行癫: 阿里双 11 是世界互联网技术的超级工程 2017 年 11 月 11 日晚上 10 点,阿里巴巴集团 CTO 张建锋(花名: 行癫)连线上海双 11 媒体中心,为 700 多位中外媒体记者介绍了阿里技 术在双 11 中取得的突破与成绩,表示“阿里双 11 是名副其实的世界互联 网技术超级工程。 ” 以下为演讲全文: 阿里的双 11 是一次全球商业、科技、数据、智能的大协同,是一个 商业社会的大协同,更是一个技术的大协同,是名副其实的世界互联网技 术的超级工程。 今年的双 11,阿里技术能力再创新记录,

2、达到了每秒 32.5 万笔的交 序 序 9 年双 11:互联网技术超级工程 新体验 221 一天造出 10 亿个淘宝首页,阿里工程师如何实现? 221 双十一安全技术:目标检测在淘宝直播中的应用 238 持续迭代下的双 11 供应链体系最新架构及功能解读 244 七层流量清洗提供安全防护新方案 252 2017 双 11:区块链在天猫国际商品溯源中的应用 260 直击 Weex 在优酷双 11 猫晚直播的应用 270 如何把范冰冰“送”到你家?双 11 晚会“逆天”技术首次公开 281 阿里搜索技术,在 AI 路上走了多远? 三桐 阿里妹导读:以深度学习为代表的人工智能在图像、语音和 NLP

3、领域带来了突 破性的进展,在信息检索和个性化领域近几年也有不少公开文献,比如 wide b. 离线机器学习平台 PAI,底层是主流的 parameter server 和 TF 深度学习框 架,平台实现了大部分机器学习算法模型的并行训练和预测,在搜索应用中 主要作用是离线模型训练产出离线排序特征模型; c. 流式计算和在线学习平台 Porsche,流式计算是基于 blink 负责实时日志解析 和特征 join 生成实时排序特征,在线学习和离线学习底层框架可以相同,差 别主要是依赖数据源和部分优化方法不同,由于用户行为和市场环境变化快, 新智能 9 年双 11:互联网技术超级工程 计算算子化和模

4、型分片等方式解决了深度模型 inference 计算和存储问题,深度模型 用 GPU,浅层模型用 CPU,今年双 11 期间搜索 RTP 服务用到了 550 张 GPU 卡。 另外,RTP 还实现了离线 / 在线训练模型 / 数据和在线预测服务部署的无缝衔接,算 法训练好的模型或数据可以很轻松的部署都在线服务,提升了算法迭代效率。 算法:智能交互、语义搜索、智能匹配和搜索策略四个方向 智能交互。商品搜索就是带交互的商品推荐,用户通过关键字输入搜索意图,引 擎返回和搜索意图匹配的个性化推荐结果,好的交互技术能够帮助到用户更好的使用 搜索引擎,目前搜索的交互主要是主动关键字输入和关键字推荐,比如搜

5、索框中的默 认查询词和搜索结果中的文字链等,推荐引擎根据用户搜索历史、上下文、行为和状 态推荐关键字。 和商品推荐的区别是,关键字推荐是搜索链路的中间环节,关键字推荐的收益除 了关键字的点击行为外,还需要考虑对整个购物链路的影响,包括在推荐关键字的后 续行为中是否有商品点击、加购和成交或跳转到另外一个关键字的后继行为,这是一 个典型的强化学习问题,action 是推荐的关键字候选集合,状态是用户当前搜索关键 词、上下文等,收益是搜索引导的成交。 除了被动的关键字推荐,我们也在思考搜索中更加主动的交互方式,能够做到像 导购员一样的双向互动,主动询问用户需求,挑选个性化的商品和给出个性化的推荐 理

6、由,目前阿里搜索团队已经在做智能导购和智能内容方向的技术原型及论证,智能 导购在技术上主要是借鉴对话系统,通过引导用户和引擎对话与关键字推荐方式互为 补充,包括自然语言理解,对话策略,对话生成,知识推理、知识问答和商品搜索等 模块,功能主要包括: a. 根据用户搜索上下文生成引导用户主动交互的文本,比如搜索“奶粉”时,会 生成“您宝宝多大? 06 个月,6 个月到 1 岁.”引导文案,提示用户细化 搜索意图,如果用户输入“3 个月”后,会召回相应段位的奶粉,并在后续 的搜索中会记住对话状态“3 个月”宝宝和提示用户“以下是适合 3 个月宝 宝的奶粉” 。 新智能 9 年双 11:互联网技术超级

7、工程 匹配,同样高质量样本,特别是高质量负样本很大程度上决定了模型的质量, 我们没有采样效率很低的随机负采样,而是基于电商知识图谱,通过生成字 面相似但不相关的 query 及相关文档的方法生成负样本。 从上面可以看到 querytagging、query 相似度、语义匹配和语义相关性是多个 目标不同但关联程度非常高的任务。下一步计划用统一的语义计算框架支持不同的语 义计算任务,具体包括: 1. 开发基于商品内容的商品表征学习框架,为商品内容理解,内容生成,商品召 回和相关性提供统一的商品表征学习框架,重点包括商品标题,属性,详情 页和评价等文本信息抽取,图像特征抽取和多模信号融合。 2. q

8、uery 表征学习框架,为 query 类目预测,query 改写,query 推荐等提供 统一的表征学习框架,重点通过多个 query 相似任务训练统一的 query 表征 学习模型。 3. 语义召回,语义相关性等业务应用模型框架。语义搜索除了增加搜索结果相关 性,提升用户体验外,也可以一定程度上遏制淘宝商品标题堆砌热门关键词 的问题。 智能匹配。这里主要是指个性化和排序。内容包括: a. ibrain( 深度用户感知网络 ),搜索或推荐中个性化的重点是用户的理解与表 达,基于淘宝的用户画像静态特征和用户行为动态特征,我们基于 multi- modalslearning、multi-task

9、representation learning 以及 LSTM 的相关技 术,从海量用户行为日志中直接学习用户的通用表达,该学习方法善于“总 结经验” 、 “触类旁通” ,使得到的用户表达更基础且更全面,能够直接用于用 户行为识别、偏好预估、个性化召回、个性化排序等任务,在搜索、推荐和 广告等个性化业务中有广泛的应用场景,感知网络超过 10B 个参数,已经学 习了几千亿次的用户行为,并且会保持不间断的增量学习越来越聪明。 b. 多模学习,淘宝商品有文本、图像、标签、id 、品牌、类目、店铺及统计特 新智能 9 年双 11:互联网技术超级工程 得了 10% (AB-Test) 以上的搜索指标提升

10、。 阿里巴巴人工智能搜索应用的未来计划 通用用户表征学习 前面介绍的 DUPN 是一个非常不错的用户表征学习模型,但基于 query 的 attention 只适合搜索,同时缺少基于日志来源的 attention,难以推广到其他业 务,在思考做一个能够适合多个业务场景的用户表征模型,非搜索业务做些简单 fine tuning 就能取得比较好的效果;同时用户购物偏好受季节和周期等影响,时间跨度 非常大,最近 K 个行为序列假设太简单,我们在思考能够做 life-long learning 的模 型,能够学习用户过去几年的行为序列; 搜索链路联合优化 从用户进入搜索到离开搜索链路中的整体优化,比如

11、搜索前的 query 引导(底 纹) ,搜索中的商品和内容排序,搜索后的 query 推荐(锦囊)等场景; 跨场景联合优化 今年搜索内部主搜索和店铺内搜索联合优化取得了很好的结果,未来希望能够拓 展在更多大流量场景,提高手淘的整体购物体验; 多目标联合优化 搜索除了成交外,还需要承担卖家多样性,流量公平性,流量商业化等居多平台 和卖家的诉求,搜索产品中除了商品搜索外还有“穹顶” , “主题搜索” , “锦囊” , “内 容搜索”等非商品搜索内容,不同搜索目标和不同内容(物种)之间的联合优化未来 很值得深挖。 智能交互 “搜索排序做的再好,搜索也只是一个工具” ,如何把搜索从工具做成私人导购助

12、手,能够听懂你的语言,了解你的情绪,能够对话和多轮交互,解决售前售后困惑, 推荐更加个性化的商品应该是搜索未来的另外一个主要发展方向。 新智能 9 年双 11:互联网技术超级工程 数据库如何实现极致弹性能力? 数据库上云 大家都知道,数据库实现弹性能力是比较困难的,一方面是因为数据库对性能要 求非常高,另一方面是需要进行大量数据的搬迁,成本很高。数据库弹性的第一个方 向是数据库上云,通过云的弹性能力来解决数据库的资源问题。 数据库上云面临以下几个难点: 1. 数据库如何快速上云,构建混合云? 2. 如何降低虚拟化带来的性能损耗? 3. 公有云环境和内部网络的互通问题。 经过几年的探索,这些难点

13、都已得到解决。第一,数据库使用了高性能 ECS, 通过使用 SPDK、DPDK 技术和 NVMe 存储,可以让虚拟化损耗非常小,接近物理 机;第二,我们建设了一套数据库混合云管理系统,可以同时管理云上和云下环境, 在双 11 前快速把混合云构建起来,支撑双十一。第三,我们通过 VPC 网络连接阿 里内部和公有云的网络,解决了混合云场景下的网络互联问题。 新智能 9 年双 11:互联网技术超级工程 优化,将数据库吞吐提升了 100%。第二是由于盘古支持原子写功能,所以我们关闭 了数据库的 Double Write Buffer,高压力下数据库吞吐提升 20%,网络带宽节省了 100%。 双 11

14、 数据库混部技术 容器化和存储计算分离,使得数据库无状态化,具备调度能力。在双 11 高峰, 通过将共享存储挂载到不同的计算集群(离线集群) ,实现数据库的快速弹性。 阿里新一代数据库技术 阿里最早是商业数据库,然后我们做去 IOE,研发出阿里 MySQL 分支 AliSQL 和分布式中间件 TDDL。2016 年,我们开始研发阿里新一代数据库技术,我们把它 命名为 X-DB,X 代表追求极限性能,挑战无限可能的含义。 阿里的业务场景对于数据库有很高的要求: 数据要可扩展; 持续可用、数据要强一致; 数据量大、重要程度高; 数据有明显的生命周期特性,冷热数据特点鲜明; 交易、库存,支付等业务,

15、操作逻辑简单,要求高性能。 因此,定义新一代数据库就要包含几个重要特点:具备数据强一致、全球部署能 力;内置分布式、高性能、高可用能力;具备自动数据生命周期管理能力。 新智能 9 年双 11:互联网技术超级工程 X-DB 核心技术之二: Batching int sizeOfBufferedBytes = _length - _offset; int toRead = sizeOfBufferedBytes 3; for (int i = 0; i 9 年双 11:互联网技术超级工程 for (int i = 0; i (Throwable.java:264) java.lang.Except

16、ion.(Exception.java:66) 新基础 (ReflectiveOperationException. java:56) java.lang.InstantiationException.(InstantiationException.java:63) java.lang.Class.newInstance(Class.java:427) .caucho.hessian.io.CollectionDeserializer. createList(CollectionDeserializer.java:107) .caucho.hessian.io.CollectionDeserializer. readLengthList(CollectionDeserializer.java:88) .caucho.hessian.io.Hessian2Input.readObject(Hessian2Input. jav

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号