手机上网用户行为分析系统题汇报

上传人:鲁** 文档编号:591644294 上传时间:2024-09-18 格式:PPT 页数:29 大小:3.27MB
返回 下载 相关 举报
手机上网用户行为分析系统题汇报_第1页
第1页 / 共29页
手机上网用户行为分析系统题汇报_第2页
第2页 / 共29页
手机上网用户行为分析系统题汇报_第3页
第3页 / 共29页
手机上网用户行为分析系统题汇报_第4页
第4页 / 共29页
手机上网用户行为分析系统题汇报_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《手机上网用户行为分析系统题汇报》由会员分享,可在线阅读,更多相关《手机上网用户行为分析系统题汇报(29页珍藏版)》请在金锄头文库上搜索。

1、中国移动集团级重点研发项目中国移动集团级重点研发项目结题汇报报告结题汇报报告9/18/20249/18/2024项目名称:手机上网用户行为分析系统羌拜逮堑滦鹊刹蘑义务乔鬃饮贯镭斧东芍鸥哮扣釉羔否匿斯怜喊慌檄析萧手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报一一一一. . . . 课题目标实现情况课题目标实现情况目目 录录二、主要研究成果(整合后)二、主要研究成果(整合后)幌毖砒泌震蔓潘堪吓封愈盛淹划螺锻玄轰舌甲龚钾司绅棕久桐拙肖甩煽都手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报研究背景研究背景“十一五”期间,我国网民规模跃居全球第一,宽带普及率接近100%,手机网

2、民规模迅速发展,互联网应用更加深入,推动着社会进步和人们生活方式的变革。随着移动互联网近几年快速的发展,作为移动互联网关键环节的中国移动正在感受这个浪潮带来的冲击。上网流量上网流量同比上升112.3%流量收入流量收入同比上升49.4%高速发展的流量并没有带来相关收入的同步增长省狄粪弄迟马扫揭焉讹混湾傍淤追睁闸脏丢士彻画杀随睡傅肪膀呵母西搭手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报研究背景研究背景在以用户为中心的发展时代下,了解用户需求成为我们面对课题的第一步工作,这就需要我们对我们网络中的流量有深入的了解,掌握我们用户的行为情况,便于我们针对性的调整运营战略,在正在到来的移动

3、互联网大潮中未雨绸缪,迎接即将到来的挑战。针对用户的需求分析作为中国移动具有先天的优势,海量的CMWAP、CMNET的日志信息蕴含着巨大的财富,通过用户移动互联网行为分析,一方面让我们更了解我们的用户,实现个性化需求的识别。同时在有限的资源情况下及时的为用户提供个性化的产品生产、个性化的匹配/分发。通过针对用户上网行为的分析实现个性化需求的识别,成为数据部迫不及待需要解决的问题;同时在流量经营和精细化的营销方面具有非常重要的战略意义。试盂哆炬晤停馁筹汞燥变挖哎黎侨瓢短漏户扦形谅讫巨尖佰昂销泻全关堵手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报研究目标研究目标建立一套完善的手机上网

4、用户行为分析系统, 通过对用户手机上网访问行为进行分析,获取用户的访问轨迹、浏览页面内容、网站信息、浏览客户端信息、移动终端信息等,进行各类分析,形成各类用户模型。网络爬虫GPRS网站内容分析用户行为分析数据分析爬虫数据网站树内容树数据清洗WAP黄页库数据分析网关数据数据清洗用户行为模型数据索引用户属性内容属性结果呈现5个应用细分营销活动精确发展用户引导自有业务分析竞争业务个性化内容日志采集鹤窑叠疟乞痹耗保绥卖励扼恃虎峦系吉除纯木讹碑垢松关料岛绽窿聚桃酞手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报研究目标研究目标研究一种适应分类体系变化的海量网页快速分类系统适应分类体系变化的海

5、量网页快速分类系统,要求如下:实现一个快速爬取手机用户访问日志的方法,需要深入到用户访问页面的标题、正文信息以及相关网页链接。针对手机互联网,提出一种正文提取的方法。基于分块的基础上,提取每个信息块的信息量,并计算各个分块和网页title的相似度,最终确定正文块。基于主题的多分类方法。文本不被看作仅仅是由一些特征词所组成的,而是被看作是由一些主题构成的,主题是由一些特征词构成的。通过样本中不同类别的主题分布,实现预测出一个新的文本到底属于什么类别。踌拱沪月弓妥印扇旭象奔偿剁片瞩溶代采耙当帅骸怕氯均叙宛搽滩霸藐览手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报研究总体框架研究总体框架

6、手机上网用户行为分析项目研手机上网用户行为分析项目研究的总体架构如下:究的总体架构如下:多数据海量数据预处理海量数据存储和计算“客户-内容”特征类标签分层可扩充体系“客户-内容-业务”三维匹配矩阵前台应用管理模块弄馒粘澜挖符皑撵划巍宠雍雍填呢唆束律友茂判喘瑟屋舜郝捌归覆策秘袭手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报研究总体框架研究总体框架系统海量数据存储和计算功能是整个系统的核心功能实现模块,根据系统海量数据存储和计算功能是整个系统的核心功能实现模块,根据功能的层次结构可以进一步细分为以下层次:功能的层次结构可以进一步细分为以下层次:数据采集和接口层:它负责从不同类型的网络

7、中的接入和采集数据。针对网络自身的特性以及系统建设的实际情况,数据的采集可以是从硬件设备(如网关、Gn口、分光设备)直接获取并解析,也可以是从其它系统(如BOSS和VGOP)导入。数据清理和融合层:它负责对采集的数据进行清洗,归一化后存入海量数据存储设备。为了更深层次分析用户行为,它还负责网页收集和爬取、网页分类、应用协议分析,以及用户属性的获取等功能。网络统计和用户行为分析层:它负责系统的核心应用功能实现,分为手机和有线网络流量统计分析、用户个体和群体行为分析、以及游戏、音乐等应用业务专题分析等。分析结果展示层:它负责向读取网络统计和用户行为分析层产生的结果,并向用户展示在浏览其中。战哗颧躁

8、售秘设申魔到娇液算糕马戍厅防朽壁纪似赞堤坪度廖匈立况掖拣手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报难点及解决方案难点及解决方案项目的难点:项目的难点:本课题首先是获取不同类型网页的正文内容,然后利用数据挖掘来分析用户的喜好,其主要的困难如下:数据大规模性网页类型多样性分类要求的高效性多分类性分类体系的变化性“客户-内容-业务”三维矩阵模型的构建用户数据的零散性垃圾数据的清理用户数据业务偏好的识别忠肄萍诛币醉赏兢畦党矢梅敦噪滑为娥僚贤雍豢诀铭蛀事僵铂枫避名坎坯手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报项目的难点及解决方案项目的难点及解决方案相关解决方案:相关解

9、决方案:系统架构采用云存储云存储和云计算云计算的方式,有良好的扩展性;建立适应性分类体系变化的海量网页快速分类体系和系统建立适应性分类体系变化的海量网页快速分类体系和系统基于主题的分类方法正是为解决这些问题应运而生。它基于PLSA模型,计算出文本的主题分布,再根据贝叶斯分类来预测文本所属的类别。由于PLSA模型在训练的时候比较耗时,但在训练过之后,计算文本的主题分布的时间是线性的,所以在实际应用中,计算文本的主题分布并不是很耗时。另外,基于主题贝叶斯分类消耗的时间也是有限的,因为主题数通常都在1000以下,相比于特征词来说,维度已经降低了很多,所以时间花费也比较少。基于主题的分类方法以PLSA

10、的模型的理论基础,通过抽象出一个虚拟的主题层,通过文档和关键词之间的共生关系,来求解主题和各文档的关系及主题和关键词的分布情况。以及在求解过程中所采用的EM迭代算法。熙穗秉憨殷涌抑偷声跌相堡慑警佐椰纤敦罕蔗撤钩跪烟踊剿臂旦肄导泉带手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报主要技术方案和关键技术主要技术方案和关键技术hadoop-hadoop-分布式存储系统分布式存储系统hdfshdfs高效性:任务分配,数据分发,本地计算,高吞吐量等异构软硬件平台的可移植性可靠性:容错,复本大数据集数据一致性伴湃腊炙笆言溜虚郁恒侨舶绩腾败猖到匪角插襟临县嗓衙厘亚阶棠纯亮撩手机上网用户行为分析系

11、统题汇报手机上网用户行为分析系统题汇报主要技术方案和关键技术主要技术方案和关键技术hadoop-hadoop-并行计算框架并行计算框架MapReduceMapReduceMapReduce是一种编程模型,用于大规模数据集的并行运算,所有操作被抽象为两类:Map(映射)和Reduce(规约)包括:分布grep,分布排序,WAP连接图反转,WAP访问日志分析,反向索引构建,文档聚类,机器学习,基于统计的机器翻译等筐拉擅廖言裤痔垮玲无估跺众旺煎积篓郭费客憎约佰确茁予顷丹酸钉认藩手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报主要技术方案和关键技术主要技术方案和关键技术主题分类体系的建设主

12、题分类体系的建设是基于主题的分类方法,而不是文本的关键词属性。而主题是隐含在某些文章里面的,它是抽象出来的一个概念,必须通过一个计算阶段把它用实际的向量表示出来,先找到本文分类体系中所有分类的样本,再从这些样本中去寻找隐含的主题。计算与存储平台爬取正文提取PLSA模型训练降维分类训练分类不同的分类体系收集用户上网的URL集合浩乎故砌唤途榴搪靶主岩类詹何韭焉挽臂俱罢妖潞鳖阮阻爆鸥烘渍芝乏迄手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报访问内容层面的分析访问内容层面的分析p网页分类分析:加了一个语义层,建立文档、语义、关键词之间的概率关系解决传统VSM(向量空间模型)的问题-同义词,

13、多义词等,超越词汇层面,更加深刻地把握文本的主旨语义层面的理解具有概率理论作为理论依据,相比于LSA新颖性,此技术先前主要应用寻找一些相关词,在这里,成功应用于主题分类。陆欺穴缀闷仇箔色侨恼煎游偶乳嘻鹃烈墟糊遵墟僧度蓑竹麻啤蠕括秤露乓手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报访问内容层面的分析访问内容层面的分析p网页爬取/正文提取的流程。爬取流程正文提取流程通过优化日志数据(如去重、爬取频率优化),可避免重复爬取,及爬虫对网站造成巨大访问压力。提取网页内容,利用网页分块技术、块和标题之间的语义分析,准确的获取网页正文内容。笨烙俭屹蕾妥存浆如絮呢干元急蕴磷釜达爱屁榜晋氦揉嘻遭垒

14、笆待沙凄塌手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报访问内容层面的分析访问内容层面的分析p关键词分析根据用户访问的信息(词向量),求得这些词向量所属的主题及其概率p1,并根据词表找到该主题下所有的词及其概率分布p2,再参考这些词向量本身的tf*idf,最终求得p1*p2*tf*idf,取前N个得分最高的词,即作为用户最为喜好的关键词。栋峻尚赐峰虞构夫棉砾奇吨侈蹋拿目杜烯售备咽尼兔格虚迢虹狼组札烯诸手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报文本有勒布朗在场上,对手就不得不在防守上小心谨慎,因为在他的促进下,没有人不可以成为得分的威胁。不仅如此,勒布朗也能在进攻

15、端统治比赛,此外他在防守端也能做到如此。这些让他成为一个全能战将。分词结果比赛1不得1不仅如此1不可以1不在1成为2促进1得分1对手1防守2进攻1勒布朗2没有人1能做到1全能战将1统治1威胁1小心谨慎1在场1主题分布4140.262594860.09203212030.0645951110.05920557590.05253510280.04856394850.04678834020.0454654260.04474052710.04351445950.04144963970.03945433010.036662690.03558558090.03222775590.0312869090.01

16、748385080.0042007511490.001602998111.57853e-053461.27575e-06分类结果体育0.328462旅游0.0637043游戏0.0617362(体育的概率是游戏的五倍,因此该正文归为体育标签)访问内容层面的分析访问内容层面的分析p网页分类分析举例说明钢民篓格缺传刮袖埋告哨睬茁绸胎络箩掳恿夸岂花始费撞砒臃焚抹舀卓抵手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报网页网页1网页2网页3网页4网页5用户类别标签网页6浏览浏览汽车网页分类网页分类音乐游戏访问内容层面的分析访问内容层面的分析p通过用户访问网页概率分布获得用户标签和相关权重通过

17、网页分类(PLSA分类或者SVM分类)得到每个网页在类别上的概率分布累加用户访问过的网页的类别概率分布并归一化,得到用户在类别上的概率分布取概率最大的几个分类作为用户内容标签搪试稗勋孪峨箭吴纷乙挠叶尿熟镁偷体窘奢睦救履才谎及忧蜜脖萌碑祝僧手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报项目研究建设情况项目研究建设情况目前完成系统平台建设,正在进一步优化标签体系;l目前一级标签25类,包括新闻、阅读、娱乐、健康、财经、游戏、体育、科技等,基本覆盖移动互联网的内容体系;l目前二级分类标签约238类,针对一级标签进行了详细的内容分析,目前重点完成的分类包括阅读、新闻、娱乐等,其他一级分类

18、对应的二级分类还在进一步完善中;系统每天分析的话单量约9-10亿条,涉及用户600-1000余万;l目前每天成功分析并标注内容标签的用户约500-800万间,标签标注成功率在75%;l目前用户的偏好主要分布在新闻、社区、博客、游戏、阅读等一级内容标签下;l分析共捕捉了15万多个网站(包括二级域名),其中成功根据用户点击进行内容标注的网站约2万网站,覆盖用户100%,覆盖点击量99.9%;其中前281个网站占总访问量的80%晰池人舱骋订参董钱媒量酮什写嚷纠峡痊坚域纯晋蔓逮乎棚趴淌更陨绅珍手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报偏好分析主菜单全景分析对访问内容偏好情况的总体分析

19、综合分析对内容进行的35个类别的统计阅读、新闻、游戏、音乐、视频对五种内容的类型的进一步分析;目前音乐和视频无法分析。个性化分析针对某个用户号码的个性化偏好,以及适合推荐的业务。根据用户数、用户点击次数的饼图显示“其他|其他”是访问内容无法归类的内容“|”为标签的分级分隔符一级标签、二级标签目前的分类体系方法,仍在优化过程中。按日查询按地区查询见下页见下页系统功能界面:全景分析系统功能界面:全景分析- -用户用户凤绘窑婿观藩诅摄差浙醒贤遣钥瓮腹口污誓刀齿趋篡燎酱绢苑赃鳖滇聪店手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报系统功能界面:综合分析系统功能界面:综合分析内容的一级分类,

20、目前有35个一级分类;根据目前互联网的内容分类方式。偏好某个分类下的用户号码列表,目前隐藏了中间四位。该内容标签的点击次数占该用户总点击次数的比重“新闻”类的域名的根据点击量进行排行岿膛埃扁虽杀泽近托滓雌井太秋故簇捻牟豫拷掇当孺童冒折米漱侵缩链赂手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报系统功能界面:阅读系统功能界面:阅读阅读类内容的进一步分类;目前共45个阅读二级分类;可对用户偏好的程度进行选择性筛选该阅读偏好的用户在哪些网站访问内容趣诗景测瘁克罕披旧晶耐橱狄壤鞠寅敷浦槽暇捶撵返唐卞拧移彤甄钻棋节手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报研究成功在营销工作

21、上的应用研究成功在营销工作上的应用p对客户移动互联网行为进行采集,分析,发现用户关注相关内容,为开展营销提供号码支持。人不分高低贵贱,只是环境使然,让一个总统之才出生在“狼窝”,他的内心也会滋生出拔不断根的淫脏瘾窥癖虐的龌龊来。他们一旦被主流文化、主流环境所边缘,就会用户行为爬虫采集页面分析偏好:阅读,励志等行为阅读类励志关键词用户视图按偏好、关注点、业务群用户群实时用户群规模分析;励志内容关注群分析;阅读频道行为群分析;用户群提取开展营销营销方案营销支撑咽浩塞隅丧止旨枉写价竹畴登瓤甥文遇足挚惜殃眷廖忿哎奥冷牲酵捍街脆手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报用户响应率有三倍

22、提升用户响应率有三倍提升本次营销相关激励措施和前期开展的WAP PUSH营销相同;对比以往的群发响应率1%-3%,本次群发响应率效果明显,达到5.80%-10.21%,有近乎3倍的提升效果。访问用户活跃度高访问用户活跃度高用户后有继续点击其他内容的行为,最高占比达到91.4%;产生二次点击行为的用户数的占比高,反映贴合用户需求的内容对用户的吸引力,用户粘性越高。项目取得的研究应用成果项目取得的研究应用成果回茎件治婪媳眉捷果假掌直骸客沧坦蒜酿串剑秤詹蕴忙帝茁盒汪刹辖窍琉手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报研究成果应用:开展内容个性化推送研究成果应用:开展内容个性化推送根据

23、用户上网行为分析,挖掘冲浪助手用户访问的内容偏好根据内容偏好组织不同内容的热推,与对照组比较效果显著运营群体:杭州冲浪助手在订用户选取规则:选取wap偏好标签为“财经”、“娱乐”用户为测试组,随机抽取2000用户为对照组。内容标签:财经、娱乐群发时间:每日上午10点左右群发效果:财经偏好用户财经偏好用户 内容:温州眼镜巨头信泰集团老板失踪 传欠款20多亿偏好用户响应率:12.38%对照组用户响应率:1.86%娱乐偏好用户娱乐偏好用户 内容:疑王力宏同性激情照疯传 回应否认偏好用户响应率:5.23%对照组用户响应率:1.39%挠藐舷抹燃那麻红牧臼抢装棕给兢磷穿逝帚慧初吸准硫拯细谍贡趴携回套手机上

24、网用户行为分析系统题汇报手机上网用户行为分析系统题汇报1.3 1.3 目标完成情况总结目标完成情况总结项目进度执行情况表可作为附件项目进度执行情况表可作为附件项目研究产出项目研究产出产出成果产出成果承担单位承担单位研究成果:包括研究报告、形成的软硬件平台用户上网行为分析系统标准成果:形成的企业标准及标准化组织成果专利成果:专利情况无试验成果:开展的相关试验室及外场测试工作中形成的试验报告(模板见(模板见xxxx)银济打鸯插解疲愤妨芭贡莲椅逸袁窖凡触哀围谍啡稍刃诞柱蔷结贸嫩俺御手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报项目对企业绩效贡献的量化路径图项目对企业绩效贡献的量化路径图

25、1.4 1.4 项目企业绩效贡献和特征指标项目企业绩效贡献和特征指标项目特征指标(项目特征指标(PAV)指标名称项目应用前指标现状值:PAVc项目应用1年后指标预期值:PAVe1此项目带来的指标变动量:PAV分析客户数600万2000万1400万企业特征指标企业特征指标网络及生产类(网络及生产类(EAV-PSEAV-PS)指标名称项目应用前指标现状值(EAVc)项目应用1年后指标预期值(EAVe)此项目应用带来的指标变动量(EAV)处理话单量9亿条企业特征指标企业特征指标市场及财务类(市场及财务类(EAV-MF)指标名称项目应用前指标现状值(EAVc)项目应用1年后指标预期值(EAVe)此项目

26、应用带来的指标变动量(EAV)企业绩效指标(企业绩效指标(EPV)指标名称项目应用前指标现状值:EAVc项目应用1年后指标预期值:EAVe此项目应用带来的指标变动量:EAV营运收入营运支出资本开支款呐原尸区汗注陆恿蔫镀镇胰祈飘产掣表钡恰蔑巨拨宋痛瓦谁锡攒南丘粕手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报1.4 1.4 项目企业绩效贡献和特征指标项目企业绩效贡献和特征指标项目特征指标的年度预期数值表项目特征指标的年度预期数值表项目特征指标(项目特征指标(PAV)的名称:)的名称:项目应用前指标现状值:PAVc项目应用1年后指标预期值:PAVe1项目应用2年后指标预期值:PAVe2项目应用3年后指标预期值:PAVe3项目应用4年后指标预期值:PAVe4项目应用5年后指标预期值:PAVe5项目应用6年后指标预期值:PAVe6项目应用7年后指标预期值:PAVe7项目应用8年后指标预期值:PAVe8项目应用9年后指标预期值:PAVe9项目应用10年后指标预期值:PAVe10医锋宗哼涡豪焙徐通沉榔胡氓云霜垒葫翔愈猫炸圆沂舟唁涡味巴倍壶万洲手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报29结束结束谢谢大家!耻博氓躁洽览猫长臣泣谨婴跃剔酥涧锤炊掘店旋早嗅作刀咽箕集停繁焦场手机上网用户行为分析系统题汇报手机上网用户行为分析系统题汇报

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号