基于网络日志互联网用户行为的分析

上传人:小** 文档编号:47017831 上传时间:2018-06-29 格式:DOCX 页数:55 大小:395.54KB
返回 下载 相关 举报
基于网络日志互联网用户行为的分析_第1页
第1页 / 共55页
基于网络日志互联网用户行为的分析_第2页
第2页 / 共55页
基于网络日志互联网用户行为的分析_第3页
第3页 / 共55页
基于网络日志互联网用户行为的分析_第4页
第4页 / 共55页
基于网络日志互联网用户行为的分析_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《基于网络日志互联网用户行为的分析》由会员分享,可在线阅读,更多相关《基于网络日志互联网用户行为的分析(55页珍藏版)》请在金锄头文库上搜索。

1、类号学号M201170005学校代码10487密级硕士学位论文基于网络日志的互联网用户行为分析学 位 申 请 人 : 杨清龙学 科 专 业 : 应用统计指 导 教 师 : 胡晓山 副教授答 辩 日 期 : 2013 年 5 月 21 日A Thesis Submitted in Partial Fulfillment of the Requirementsfor the Degree for the Master of EngineeringInternet User Behavior Analysis Based on WebLogCandidateMajorSupervisor: Yang

2、 Qinglong: Applied Statistics: Assoc. Prof. Hu XiaoshanHuazhong University of Science j 1, 2,., p 是由 P 个属性特征组成的 N 个独立样本。 dii 表示样本 i 与 i 之间的距离,通常用欧式距离 j ( x ij xi j )2 度量。假设我们将数据聚成 K 个簇,如,我们可能采用基于欧式距离的 K-means 距离或者层次聚类,使用 C( X tr , k ) 表示聚类操作。现在,当我们将聚类操作应用到训练样本时,每对观测值是否落入同一个类中。DC(.), X tr 为 n n 的矩阵,如

3、果样本 i 和 i 落入到同一个类中,第 ii 个元素DC(.), Xtr ii 1,否则为 0。在一般情况下,聚类 C(.) 不需要来自 X tr 。例如,我们对数据集 Y 使用 K-means 算法,将样本空间分割成 K 个多边形区域。如果我们用 C(Y , k ) 表示聚类,如果 X tr 的样本 i 和 i 落入到同一个多边形区域 C(Y , k ) ,则17 DC( xtr te ii ps(k ) minkj kj1) ii Akj华 中 科 技 大 学 硕 士 学 位 论 文DC(.), X tr ii 1。其主要思想归纳为:(a) 将测试样本聚成 K 个簇;(b) 将训练样本聚

4、成 K 个簇;(c) 度量用训练样本的质心去预测在测试样本集中的协同成员关系。对于每一对被分配到相同的测试集群的测试样本,根据训练集的质心确定它们是否也被分配到相同的簇。对于簇的候选数 K, Ak1, Ak 2 ,., Akk 是测试样本集在簇 1,2,,k 中的索引。nk1, nk 2 ,., nkk 是这些簇中样本的个数。则定义集群 C(, k ) 的“预测强度”为:1, k ), X 1 jk n (n对于每个测试集的簇,计算样本组对在测试集的簇中,同时也被训练样本集的质心分配到同一个簇中的比例。而预测强度是选择在 K 测试集群量中最低的。(2) 预测强度的计算先考虑测试集 Test 中

5、的每一个类 1,2,k,分别有 n _ k1, n _ k 2,., n _ kk 样本个数。将它们两两配对有n _ ki(n _ ki 1)2种,接下来就考察每一种配对下,这二个样本是否在训练集中也被分为同一簇中;计算出那些在 Test 中也被分在同一组的配对所占的比例,然后重复这个过程,对所有簇计算出相应的值;最后对这 k 个数值取最小值,就是当前聚类数 k 下的预测强度。假设一批样本,其自身聚类的编号如表 2-2:表 2-2x11x21x31x41x51x61x72x82x92x102被判别的编号如表 2-3:18x1x2x3x4x5x6x110110x20110x3001x410x50

6、x6x7x8x9x10x7110x810x90x10华 中 科 技 大 学 硕 士 学 位 论 文表 2-3x11x21x33x41x51x63x72x82x92x101则对于自身聚类中的第一个类,得到表 2-4 所示矩阵:表 2-4如果两个点在判别编号中是相同的,就记 1,否则为 0,最后得到判别比例为7/15。同理可知,另一个类别的矩阵为表 2-5:表 2-5由 表 2-5 得 到 判 别 比 例 为 3/6=1/2。 于 是 当 前 聚 为 2 个 类 的 预 测 强 度 是min(7/15,1/2)=7/15,即:预测强度为 7/15。19华 中 科 技 大 学 硕 士 学 位 论 文

7、3我国互联网用户上网行为互联网于 1969 年起源于美国,是美军在 ARPA(阿帕网)制定的协定下将美国的四所高校的四台主要的计算机连接起来。从此,开启了互联网发展的新时代,而互联网的出现也不断影响着人们的工作、学习和生活,并不断深入。1994 年中国正式接入互联网,中国经历了互联网发展的新历程。中国互联网在经历追随、参与后,赢了了互联网发展的引领地位。进去 21 世纪后,美国在世界上互联网用户数量上的老大地位已经逐步被中国所取代。在网上信息资源、用户规模、互联网产业规模、互联网企业的发展和外资投资额都不断吸引着着全球投资者 。种种的变化也让人们感受着互联网发展带来的巨大变化。随着互联网的迅速

8、发展,也推动着我国信息化的快速发展。3.1 我国互联网发展现状21截至 2012 年 12 月底,我国的互联网普及率已经达到 42.1%,而网民数量有 5.64亿之多。移动上网业务也不断发展和壮大。2012 年,我国手机用户规模达到 4.2 亿,与 2011 年底相比,人数增加了近 6440 万人,网民中使用手机上网的用户由去年年底的 69.3%上升至 74.5%。2012 年中国 31 个省市的网民规模都有不同程度的增长 ,其中江西、安徽、广西、贵州、河南等省份的 Internet 普及率很低,但是网民的增长速度却很快。相反的,北京、上海、广东、深圳等省市的网民普及率较高,但网民增长速度缓慢

9、。2012年我国互联网用户的应用情况基本保持着去年的发展趋势。即时通信作为第一大上网应用,网民 的使用率仍在不断攀升 ;电子商务类的应用仍 处于高度发展的状态;电子邮件、论坛/BBS等逐步被淘汰,应用使用率继续走低。(1) 网民增长速度明显减缓2011年前两季度,我国网民的数量增加将近2770万人,半年增长率为6.1%。但是与去年同期相比,增长的数量小于去年的人数。从2010年开始,网民增长速度开始放缓,目前表现出了更加明显的减缓趋势。20华 中 科 技 大 学 硕 士 学 位 论 文(2) 微博用户继续增长,用户逐渐趋于移动化2012年,我国微博用户数量达到了3.09亿,较2011年底增长了

10、5873万人。微博疯狂扩张的时代已经结束 ,微信的的发展给微博 带来了挑战。但是微博 的增幅仍高达23.5%左右,并且在其使用率提升到了将近一半。大部分的用户对微博的访问和发布行为都是通过手机客户端进行的,手机微博的应用成为了亮点。传统的PC上网将逐步向移动终端发展。(3) 网上购物和团购业务仍保持较高增长随着电子商务的迅速发 展及网上支付系统的不 断完善,网上购物行为 也不断 增加。与传统的购物方式 相比,电子商务具有诸 多优势,如: 操作简单 、快捷、货到付款、价格实惠等。当 下,城市生活里的生活 节奏越来越快,人们更 愿意选择网上购物,而不是到实体店进行购买商品。2012年,我国网上购物

11、规模达到2.42亿人,这一数字仍在不断被刷新。(4) 手机端电子商务类应用使用率整体大幅上涨由于手机的移动性较强,电子商务类应用在手机端得以迅速的发展。相比2011年,手机网民使用手机进行网上购物的比例增长了6.6个百分点,用户量是上年底的2.36倍;此外,手机团购用户在手机网民中占比较上年底提升1.7个百分点,手机在线支付提升4.6个百分点,手机网上银行提升4.7个百分点,这三类移动应用的用户规模增速均超过了80%。3.2 互联网用户行为的概念与分类3.2.1 互联网用户行为网络用户(网民):中国互联网络信息中心(CNNIC)将网络用户定义为平均每周使用互联网至少一个小时的中国公民21。网络

12、用户行为22是指主机能在网络上产生流量的行为。如 QQ 聊天、游戏、访问 Web 站点,BT 下载、观看视频及音乐等都会在网络上产生流量,因此都是网络用户行为。21华 中 科 技 大 学 硕 士 学 位 论 文用户行为分析的任务是在获得用户访问量基本数据的情况下,对有关数据进行清洗、统计、挖掘,从中发现用户上网行为的规律,为企业和政府的制定相关政策提供事实依据。3.2.2网络用户行为分类27,28从应用角度对网络用户行为进行分类,可将网络用户行为分为四大类:信息获取、商务交易、交流沟通、网络娱乐。(1) 交流沟通:互联网的一个核心功能就是实现交流互通。由于互联网本身的普及、网络交流方式的多样性

13、、网络互通的无时间、地点、距离约束,使得网上交流沟通成为了我国互联网的第一上网应用。(2) 信息获取:由于互联网资源的共享性和开放性特点,互联网成为了重要的信息来源地。而搜索引擎作为互联网的基础应用,是网民获取信息的重要工具之一 ,其使用率自 2010 年后保持在 80%左右水平,稳居互联网应用第二的位置。整体来看,搜索引擎已进入稳定发展阶段,搜索用户市场逐渐从单一用户规模增长向用户体验提升发展。2012 年,新的企业的加入极大刺激了已有搜索引擎公司,也带动了搜索市场的整体发展。一方面,搜索行业加强自律,对搜索结果进行清理和整顿,减少了虚假信息、不安全链接对用户的干扰,提升了用户使用安全性;另

14、一方面,搜索引擎公司加强技术投入,提高搜索质量,并逐渐融入个性化和社交化等元素,试图智能化地呈现搜索结果以提升用户搜索体验。(3) 商务交易:在商务交易的应用方面,主要包含网络购物、团购、网上支付、旅游预订、网上银行、网上支付等。由于互联网的方便、快捷、高效等特点,网上消 费 与支 付 行为 越来越 被 消费 者 所接 受。同 时 线上 消 费的 生活服 务 类型 不 断的 拓宽,交易规模也持续增大,也极大的带动了消费者网上支付的普及。(4) 网络娱乐:网络娱乐主要包括网络游戏、网络视频、网络文学、在线音乐等。网络的娱乐性是网络的发展而延伸和扩展,是网络功能的基础。3.3 数据挖掘在互联网用户

15、行为分析中的应用伴随着计算机信息技术的发展,让企业积累了海量的用户行为数据。这些海量22华 中 科 技 大 学 硕 士 学 位 论 文数据中包含了大量的用户行为信息,它们能够真实、客观地反映用户行为活动。基 于 数 掘 挖 掘的 用 户行 为 分 析 的 目的 是 从用 户 的 行 为 数据 中 找到 个 性 和 共 性的东西。找出用户行为的规律,发现用户的行为模式,了解用户的兴趣、需求、能力等信息,为企业提供决策支持,从而为用户提供更好的服务。(1) 产品设计与营销。要做好的产品设计,就要不断的听取用户意见,不断的调研用户需求并进行分析,得到最适合和满足用户需求和产品特性。除了直接的用户调研,数据分析得到的结果支持是很重要的一个渠道。因为有的时候,用户也不知道他到底想要什么,但是从用户的行为中,我们或许可以分析出来他不了解的自己。比如通过对微博用户分析,得知用户在每天的四个时间点:早起去上班的路上 、午饭时间、晚饭时间、 睡觉前 是最活跃的。 因此,掌握了这些用户 行为,企业就可以在对应的时间段做某些针对性的推广和营销等。(2) 产品客户群定位或细分。并不是所有的产品都是服务于全网用户的,即使对于细分产品,也是有更细致和精确的用户特性可以供提炼分析。除了前文用户资料系统之外,用户行为是更重要的一个分析手段。比如对于电商网站,通过对用户的消费行为和贡献行为产生的数据进行分析,可以

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 宣传企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号