文档详情

Hadoop 技术在电信运营商上网日志处理中的应用架构 2

公****
实名认证
店铺
DOCX
13.01KB
约3页
文档ID:428204492
Hadoop 技术在电信运营商上网日志处理中的应用架构 2_第1页
1/3

Hadoop技术在电信运营商上网日志处理中的应用架构《大数据时代的IT架构设计》本书以大数据时代为背景,邀请著名企业中的一线架构师,结合 工作中的实际案例展开与架构相关的讨论《大数据时代的IT架构设计》作者来自互联网、教 育、传统行业等领域,分享的案例极其实用,代表了该领域较先进的架构本节为大家介绍 Hadoop技术在电信运营商上网日志处理中的应用架构AD:一、 电信运营商上网日志处理的现状在移动互联网如此普及的今天,每天会产生大量的上网日志,这些上网日志由于数据量巨大, 产生后只能被保留3天,就因为存储空间等原因被丢弃目前,电信运营商只能基于CDR(详 细通话记录)为主的客户行为分析可能缺失了大量的客户行为有效信息例如,两个通话行为 相似的人可能是完全不同类型的客户,如果将之同等对待,客户的接受度必然很差,浪费大量 资源,并且无法取得良好的效果这种分析,由于无法知晓通话内容,两个通话行为模式类似 (例如夜间长时间的长途水草玛瑙),实际通话目的及生活方式(其中一个是晚 上与朋友聊天,另一个是加班需要的工作)完全不同的两个人往往在分析中被误归为一类, 从而导致对客户的理解有较大偏差,营销效果不佳。

用户的上网行为中蕴含着大量的客户特征和客户需求信息,这些信息至关重要,而又是传统的 CDR话单分析所不能提供的因此,这就要求用户的上网日志记录必须被保存,而且还需要进 行数据分析挖掘处理,然后根据处理结果定义用户的行为习惯,为电信运营商实现精细化运营 提供重要的营销依据随着Hadoop技术平台系统的出现,可以实现上网日志的存储,同时提供数据挖掘处理功能二、 上网日志数据处理方法的流程 上网日志数据处理方法的流程如下:1. 对上网日志数据的URL地址进行提取2. 对已知的URL数据,按照基准URL分类准则进行分类3. 对未知的URL地址,首先爬取网页数据,然后对爬取的网页数据按照网页分类模型,进行 网页分类,不断优化模型,提高网页分类的准确性4. 根据每个人访问网址和对应网址的网页分类,利用模型统计出每个号码的个人喜好,为 精准营销提供依据具体流程如下图所示三、上网日志系统的技术架构方案基于上述处理流程,上网日志处理系统的逻辑架构方案如下图所示针对每一部分的具体功能介绍如下数据源从电信运营商系统服务器定时获取用户基本信息和上网日志信息,输入到集群HDFS文件系统 和HBase数据库中接口层接口层负责与外部系统的数据进行交换,包括用户数据、上网日志数据的采集,互联网网页内 容的爬取和对外围系统提供高山茶访问接口。

数据接口可实现对关系型数据库,如Oracle、DB2等的数据交换,包括采集和加载过程,同时 也支持文件类型的数据,可以通过FTP等方式进行采集系统对外提供统一访问接口,具有开 放性、高性能、可监控管理和安全性等特征数据层数据层是分布式大数据处理平台,从数据源抽取出所需的数据,经过数据清洗,最终按照预先 定义好的数据模型,将数据加载到分布式存储中去通过分布式计算框架可以实现数据的清洗、 转换、校验和装载等过程资源层由于分布式架构带来的硬件部署的复杂度,需要对物理资源层和系统平台层提供进一步的抽象, 以提供自动化部署和弹性的运维能力,因此资源层实现了对物理资源的自动部署和动态扩展, 对分布式集群中不同角色进行灵活部署功能层功能层实现了数据处理流程模块的模块化处理,提供集群的访问控制,并负责Hadoop集群的 运行管理和系统报警日志管理数据处理能够进行任意串并联的流程调度,并且能够控制节点 的优先级、超时时间、重试次数,同时具备路由判断能力,能够在多分支的情况下通过条件进 行不同的流程流转采用异步调度策略,能够支持大并发量的调度应用层负责应用功能的具体算法实现实现了网页分类索引,通过互联网注册URL及其类别的爬取, 对数据进行统一管理,并置于持久化存储中。

将其中的类别进行模块化重组,划分至对应的层 次结构,如(社交-社区)或(社交-微博),对类别进行索引实现了词库分类管理,通过对网 络热门词汇及常用词汇的爬取,根据所属类别构建分词词库词库定期更新,不断完善实现 了用户行为统一分析,基于客户的访问行为,识别其偏好特征,根据内容偏好特征进行客户细 分,并支持目标客户群提取,以便支撑营销活动,实现了URL地址统一管理展示层负责将应用功能处理结果通过Web页面展示,并且提供交互页面,熟练使用各种应用处理功能, 并对处理结果进行动态展示网络爬虫负责从互联网系统中爬取网页的具体内容信息具体处理流程是一种按照一定的规则,自动抓 取万维网信息的程序或者脚本程序从日志文件中提取URL地址,并进行过滤、去重操作 其中过滤操作去除图片、视频、软件等内容的URL地址;去重会把重复的URL、已经抓取的 URL、已经分类的URL地址去掉剩下的URL地址送入爬虫的地址库中,爬虫会根据一定的 规则产生要抓取的URL地址,然后通过MapReduce的方式并发抓取产生的URL地址,最终 把抓取到的URL地址的内容存储到HDFS文件系统中由于网络爬取流程需要互联网资源支持,数据处理Hadoop集群是和电信运营商内部网络互联, 而且Hadoop集群的安全处理措施不够完善,因此,它们之间的访问需要严格控制,以保证网 络部署安全。

在物理架构设计上,需要设计两个完整的内部集群网络,集群网络之间需要用防火墙进行访问 控制上网日志处理系统的物理网络部署拓扑如下图所示四、上网日志系统方案的优势上网日志系统采用Hadoop技术解决方案的优势有如下几点1. Hadoop技术方案是基于分布式基础架构,充分利用分布式两大核心技术分布式文件系统 与分布式计算框架,构建了一整套完整的分布式存储和分布式计算系统分布式系统有着高容错性的特点,并且设计用来运行在采用X86架构的普通PC服务器上,大 大降低了服务器和存储的成本,以及数据库License的成本,有效缓解了系统扩容带来的高成 本压力2. Hadoop技术方案采用并行处理大数据集的软件框架在处理大数据的时候,通过分布式计 算将其任务分解并在运行的多个节点中处理当集群中的服务器出现错误时,整个计算过程并 不会终止,同时分布式系统可保障在整个集群中发生故障错误时的数据冗余这种设计方案可 以使网络爬虫、网页分类和上网行为等模型快速、高效运行目前在国内,像天云大数据、华为、亚信等多家知名的大企业都针对上网日志处理系统按照上 述架构,提出了完整的解决方案尤其是天云大数据公司,他们依托自主研发的BDP平台软 件(包含Hadoop平台的完整解决方案)和公司强大的算法支持团队,已经成功地在某省级运 营商运行平台上部署了上网日志处理系统,为该公司的用户精准营销提供了强有力的支撑。

作者介绍:方建国,微软三届MVP,某知名房地产公司资讯科技高级主任多次参与大型实际 生产环境的部署及维护,对服务器存储以及虚拟化架构、解决方案(服务器整合、虚拟桌面架 构)有深入的研究,尤其是基于Windows虚拟化解决方案责任编辑:book TEL:(010) 68476606】回书目上一节下一节Absolute C++中文版(原书第2版)本书是讲解C++语言程序设计的优秀教程全书围绕C++语言来组织,开始章节介绍编程的普 通感念,接下来详细介绍C++中的继承、多态。

下载提示
相似文档
正为您匹配相似的精品文档