基于分布式集群的互联网音乐信息采集系统

上传人:飞*** 文档编号:57310552 上传时间:2018-10-20 格式:PPT 页数:12 大小:1.11MB
返回 下载 相关 举报
基于分布式集群的互联网音乐信息采集系统_第1页
第1页 / 共12页
基于分布式集群的互联网音乐信息采集系统_第2页
第2页 / 共12页
基于分布式集群的互联网音乐信息采集系统_第3页
第3页 / 共12页
基于分布式集群的互联网音乐信息采集系统_第4页
第4页 / 共12页
基于分布式集群的互联网音乐信息采集系统_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《基于分布式集群的互联网音乐信息采集系统》由会员分享,可在线阅读,更多相关《基于分布式集群的互联网音乐信息采集系统(12页珍藏版)》请在金锄头文库上搜索。

1、产品开发中心,基于分布式集群的互联网音乐信息采集系统,现有的产品资料信息不能满足内容发布的需要 互联网音乐信息急速膨胀,单机爬虫性能上不能满足项目需要,咪咕播放器后台主要数据流程结构图,系统主体架构介绍,相关研究介绍Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。 主要应用企业:IBM/YAHOO/GOOGLE,系统模块设计,信息整理模块主要解决方案,系统音乐信息数据表结构,分布式并行计算(Map/Reduce)在系统中的应用,系统测试,项目所取得的技术

2、成果,完善无线音乐基地互联网音乐资料库,有效解决门户、音乐随身听等渠道使用音乐信息困难的局面。 分布式集群系统,能够有效降低项目硬件成本,只需要添加便宜的pc机作为集群的扩充,同时也解决了系统冗余备份的问题,保证了系统的稳定运行。 单机的爬取速度有限,分布式集群系统能够为每个子节点生产若干任务,独立的进行信息抽取,提高网络带宽使用率、节约抓取时间。 可扩展,基于Hadoop的设计思路,让系统不论是存储能力还是计算能力上都是可扩展的。 可靠,分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性,该解决方案未来可广泛应用于中国移动无线音乐基地其它项目中。 高效,分布

3、式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。,项目下一步的工作,进一步演进和扩展系统的功能,满足业务部门需求,技术上,持续创新,更加准确的进行音乐信息抽取 由于音乐的信息量很大,且具有很强的地域性和个性化语言,应此在这方面歌曲的整理融合上,更多要加入特征化的音乐知识库,使来自各个信息源的歌曲融合更加准确。 扩展和定制分布式集群系统,使其能够提供更为强大的计算能力,为无线音乐基地的其它产品应用提供系统支撑。 加强Web和Console Administrator的可操作性,尽量让系统的绝大多数技术操作在上面解决,比如可以在线配置正则模板、在线定义抓取规则。 由于互联网抓取的个别信息,本身是杂乱无章、个性化地域性也特别严重,从技术上规整所有的信息肯定是不可能的,因此在第二期,将提供在线编辑平台,提供给编辑等内容整理人员进行信息修正。,谢谢!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号