Netflix企业调研报告

上传人:ji****72 文档编号:46520228 上传时间:2018-06-27 格式:PDF 页数:13 大小:1.14MB
返回 下载 相关 举报
Netflix企业调研报告_第1页
第1页 / 共13页
Netflix企业调研报告_第2页
第2页 / 共13页
Netflix企业调研报告_第3页
第3页 / 共13页
Netflix企业调研报告_第4页
第4页 / 共13页
Netflix企业调研报告_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《Netflix企业调研报告》由会员分享,可在线阅读,更多相关《Netflix企业调研报告(13页珍藏版)》请在金锄头文库上搜索。

1、1 1 引言 一部纸牌屋剧目,使得 Netflix 公司在中国名声鹊起。在进入大数据硕士项目之前,笔者就已听闻 Netflix 公司与大数据有着不解之源。此次企业调研作业,为我们深入挖掘大数据在互联网企业的实际应用提供了良好机会。 图1 Netflix公司 大数据是一项新生事物, 但Netflix不算一家 “新” 公司, 它于1997年成立,1999年开始提供视频订阅服务。它以不断创新的发展模式,创造了一个个商业领域的奇迹。 早期为用户提供DVD租赁服务; 后来发展到提供来自其他媒体公司的流媒体视频内容;2013年,它更是推陈出新,以高档自制内容为代表的收费版服务吸引了更多新用户。进入2015

2、年, Netflix愈加发力, 今年2月放送的纸牌屋第三季, 同样是应用大数据打造出的“神剧”。本文从第二章开始,将从定位目标、数据采集与更新、数据存储、数据开放,以及如何利用大数据开展精准营销等方面对Netflix公司的大数据策略进行详细分析。 2 2 Netflix 的大数据策略、定位和目标 Netflix是一家传奇的视频公司。 在本学期的 “大数据管理与创新”课程中,经管学院的陈煜波教授就引述了哈佛商业评论中关于Netflix的创业故事。 很多媒体在评论Netflix公司的成功时都会提到大数据,认为它的成功就是大数据的胜利。事实确实如此,从最初DVD租赁起,Netflix就开始关注用户和

3、用户行为。用户的浏览、下单、评价等信息都被记录下来,透过这一系列信息的分析与计算,用户的喜好、收看习惯等被详细掌握,为Netflix的服务、决策、预测提供了强大的支撑,为更好地对用户提供一站式的精准服务提供了可能。近年来,大数据受到广泛关注,奥巴马竞选团队利用数据分析筹款,美国更将大数据提升到国家战略的位置, 互联网企业开始开发大数据产品同时, IPTV、OTT TV、视频网站企业希望能通过数据技术改变传统的“电视”格局1。所以,Net flix 赶上了二十一世纪初的互联网兴起,通过管理创新 的实践,逐步摸索出一条以“数据驱动价值”的道路,在大数据热潮 即将涌起之时便果断加入了这股潮流,并最终

4、通过挖掘大数据商业价 值将为自己带来了强大的竞争力。图2 Netflix与大数据热潮 1 高山冰. 大数据背景下 Netflix 的创新与发展研究J. 新闻界,2014,08:66-69+80. 3 3 Netflix 的数据采集与更新 Netflix 是一家以线上视频业务为生的公司,早年 Netflix 正是依靠强大的数据驱动,才得以击垮传统线下视频租赁巨头百事达的。在大数据时代悄悄到来后, 大多数组织都有存储在不同地点的孤立数据,其实根本不曾使用。 而从这些囤积的数据中获得任何价值的最好办法就是辨别哪些是可以用来描述理想客户的数据, 以及客户最想要的是什么。例如,Netflix 公司发现,

5、75的用户都会从公司推荐的清单中选择电影节目。因此,该公司的成功很大程度上取决于其能否推荐给观众恰如其分的建议。 通过公开资料23可以得到以下清单, 它向我们展示了 Netflix 公司采集数据的种类和规模: 图3 Netflix都采集哪些数据? 2 秦建秀. Netflix 利用大数据的三步法J. 软件和信息服务,2013,11:41. 3 GIGAOM:https:/ 【用户行为】 每天约3000万次视频播 放,而且跟踪电影播放过程 中的每次快退、快进、暂停。 每天400万次的评价。 每天300万次搜索。【视频数据】 总计超过20亿小时的视 频流。 视频设备信息。 地理信息数据。【第三方数

6、据】 来自第三方的源数据。 来自Facebook和Twitter 的社交媒体数据。 每周、每天时段的有线 电视信息。超过来自超过来自2500 万用户的数据万用户的数据4 从图 3 可知,Netflix 每天都在采集、更新着海量数据,并以此作为视频推荐系统的依据。 Netflix 采集的这些数据可以被称作 “真正的大数据”,因为其很好地满足了大数据的“5V”特征。 图4 Netflix所占北美地区网络流量4 首先是规模 (Volume) 层面, Netflix 公司采集的数据堪称海量:从图4中可以看出, Netflix的数据占到了北美地区互联网流量的30%,数据量不可谓不“大”。而且,这些数据是

7、多源异构(Variety)的,不仅有视频文件、还有图片、声音、文本甚至数字,共同构成了一个庞大繁杂的数据集, 正如 Netflix 首席数据官所说, “通过捕捉视频的JPEG 截图和时间信息, 仔细斟酌多种因素, 如声音、 色调及场景等,对于了解观众的喜好是非常有意义的”。 4 华尔街日报:http:/ 5 4 Netflix 的数据存储策略和方法 前三章介绍了Netflix公司的大数据战略和数据来源问题。 那么,Netflix 到底应用了哪种策略, 才能有效地存储如此大规模的数据呢?作为工科课程的调研报告,本章将以技术为主线,针对 Netflix 的数据存储系统问题给出解答。 Netflix

8、 使用的是 Hadoop 平台架构,而且运行 Hadoop 工作负载的架构还是属于“独家制造”。最近,来自 Netflix 的数据科学家在官方博客上介绍了该平台在运行、管理以及访问多集群时的灵活性,还包括基于 AWS 的 Hadoop 架构以及 Hadoop 平台即服务(PaaS),该服务被称之为“Genie”,它的系统架构如图 5 所示。 图 5 Netflix 的 Hadoop 架构图5 5 CSDN:http:/ 6 图 5 是一个典型的 Hadoop 系统架构。 Hadoop 在管理和处理数百TB 到 PB 级数据上的能力,已经成为事实上的标准。在 Netflix 中,基于 Hadoo

9、p 的数据仓库已经是 PB 级的规模,而且增长迅速。不过随着大数据时代的爆发,这也不是什么新鲜事。然而该架构是独一无二的,它可以帮助 Netflix 在云端构建一个几乎是无限规模的数据仓库,无论是数据的处理还是计算能力都很强大。 在图 5 的最低端,是 Netflix 的数据仓库S3。S3 是 Netflix 基于云的数据仓库服务真正的“源”,将所有值得保留的数据集都存储在 S3 之中。之所以使用 S3 而非传统的 HDFS,是因为 S3 提供了一个高达 99.999999999%的高持久性和 99.99%的高可用性,能够承担两个设施中并发的数据丢失现象; 其次, S3 提供了版本信息存储块,

10、可以用它来防止意外的数据丢失,例如,一个开发人员错误地删除了一些数据,可以很容易的进行恢复;第三,S3 具有弹性,提供了几乎“无限”的规模扩展,这样数据仓库就实现了从几百 TB 到 PB 级的有序增长,而无需提前准备存储资源。最后一点,使用 S3 作为数据仓库可以帮助 Netflix 运行多个高动态的集群。 在数据仓库之上的模块便是 Elastic MapReduce, 它可以针对不同的工作负载,把 S3 弹性配置多个 Hadoop 集群,所有的集群都连接相同的数据。Netflix 每天都会动态地调整查询和产品集群,比如,查询集群在夜间便很小,因为那时很少有开发者进行登录;与此相反,产品集群在

11、夜间就必须很大,因为此时大多数的 ETL 都在运行。 再往上便是开发者常用的工具,如 Java、python 等,这个层面是提供给开发者访问 Hadoop 集群的接口, 是为最顶层应用服务的部分。 以上是 Netflix 的数据存储策略。 7 5 Netflix 的数据管理与开放 经调研, 我们发现 Netflix 在经营出色的同时, 也颇具开放意识,包括很早之间开放的整个平台, 使游戏机上也可以用它的平台看电影。同时, Netflix 开源了一大批优秀的算法, 这些都可以在其开源软件中心上免费下载,这使得很多研究人员和企业都能从中受益,所以不得不说 Netflix 也是一家相当开放的企业。

12、图 6 Netflix 的开源中心6 谈起 Netflix 的数据开放问题,清华大数据硕士班的同学们一定不陌生。在上学期朱文武老师开设的大数据分析课程上,我们就曾以Netflix 公开的数据集做过推荐算法作业。其实,早在 2006 年大数据还未兴起之时, Netflix 就早早地嗅到了风头它公开了大约 1 亿个匿名影片评级数据,包含了影片名称、评价星级和评级日期,但不包含任何文本评价的内容。虽然Netflix 公开的数据可能连冰山一角都 不到,只是整个公司庞大数据中较为不敏感的一部分,但正是其敢于 率先打破常规,其开放姿态也便早早地深入人心了。6 Netflix 开源中心网站:http:/ne

13、tflix.github.io/#repo 8 6 Netflix 大数据推荐竞赛 成功驾驭与精准营销 2006 年,Netflix 举办了首次“大数据”推荐算法竞赛,彼时虽然还没有引号中的这个词汇, 但实际上这是一场货真价实利用大数据思维创造商业价值的优秀案例。 无独有偶,2014 年 3 月, 阿里巴巴集团以其大数据科研平台“天池”为基础,同样发起了一场基于“天猫”海量真实用户访问数据的推荐算法大赛, “旨在让广大高校同学在大数据时代的背景下, 有机会学习和利用阿里巴巴的大数据和云计算平台,尝试解决真实的业务与社会问题”7。 看来,Netflix 真的很厉害,连马云如此成功的企业家,都要紧

14、随其后,在中国办一场性质类似的大赛。而早在 2006 年,Netflix 的管理层就已经认定,“众包模式”可以为企业带来收益。本章将从以下两个问题出发,分析 Netflix 举办推荐竞赛的意义和价值。 图 7 Netflix 推荐竞赛胜者赢取 100 万美元大奖8 7 阿里巴巴天池大数据竞赛官方网站:http:/ 8 网易新闻:http:/ 9 一、从技术应用层面来看,Netflix 为什么要做推荐竞赛? Netflix 在很早之前就开始琢磨怎样调动观众的积极性, 对看过的电影进行网上在线评分,根据用户的个人偏好,再为他们及时推荐新推出的电影。为此,Netflix 设计开发了一个电影推荐系统叫 Cinematch, 这是一个智能预测系统, 它能够根据用户以前的评分数据预测到这位顾客可能喜欢什么样的主题和风格, 等新电影发行后马上为相应的用户群 体进行推荐。可是这个推荐系统的智能水平有限,准确度不高,不能令人满意。直到 2006 年,Netflix 通过推荐竞赛公开征集电影推荐系统的最佳算法, 第一个能把现有推荐系统的准确率提高 10%的参赛者将获得一百万美元的奖金9。 2009 年 9 月 21 日, 来自全世界 186 个国家的四万多个参赛团队经过近三年的较量, 终于有

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号