互联网大数据案例分享

上传人:枫** 文档编号:486850582 上传时间:2023-11-21 格式:DOCX 页数:2 大小:87.69KB
返回 下载 相关 举报
互联网大数据案例分享_第1页
第1页 / 共2页
互联网大数据案例分享_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《互联网大数据案例分享》由会员分享,可在线阅读,更多相关《互联网大数据案例分享(2页珍藏版)》请在金锄头文库上搜索。

1、互联网大数据案例手中握有数据的公司站在金矿上,挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找 到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是 大数据的价值。有某互联网咨询公司,其手中有大量用户行为数据,希望建立用户行为分析系统,但面 临数据量大,无法做到分析的实时性。也曾组建过 Hadoop 团队,但基于 Hive 的分析系统 不够实时,且项目预算有限。这家咨询公司后来通过 Yonghong Z-Suite 搭建大数据分析平台,完成了大数据量下的用 户行为实时分析,那么下面就介绍下这个互联网大数据案例:首先需要分析的数据量是90天细节数据约50亿条数据,硬盘存

2、储空间10TB左右。 这些数据已经存储在Hadoop 上,只是Hadoop无法做到实时分析,需要将其导入到Data Mart 中。考虑到数据压缩到Data Mart中后所需存储空间会变小,10TB的数据导入到Data Mart 中会经过压缩后大致需要900G的存储空间。假设900G的数据中有1/3是热数据需要分析 的,则认为系统内存量需要300G,假设每台机器有64G内存,则大致需要5台机器。于是90天的50亿详细数据已经导入到Data Mart中,经过系统调优,基于这些数据做的电商用户行为分析,互联网视频分析,互联网金融网站访问分析等等都可以在秒级响应。之后进行每日数据增量更新,并删除超过90天的数据,保存用于分析的数据为90天。如何达到高性能计算呢? 目前很多产品都是通过分布式并行计算来处理大数据计算,需要的技术有分布式文件系 统,分布式通讯,计算任务拆解为可分布执行的分布式任务,需要库内计算等技术;另外列 存储也是大数据高性能计算所需要的技术。上述互联网大数据案例的大数据分析平台的架构有了大数据,还要从大数据中提取价值,离不开分析工具,通过丰富的分析功能,在繁 杂的数据中找到其中的价值。而大数据给分析提供了一定的挑战,需要高性能计算做支撑 才能在大数据的金矿中挖到金子。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号