基于数据挖掘校园社交网络用户行为分析

上传人:第*** 文档编号:55926523 上传时间:2018-10-08 格式:DOC 页数:45 大小:1.20MB
返回 下载 相关 举报
基于数据挖掘校园社交网络用户行为分析_第1页
第1页 / 共45页
基于数据挖掘校园社交网络用户行为分析_第2页
第2页 / 共45页
基于数据挖掘校园社交网络用户行为分析_第3页
第3页 / 共45页
基于数据挖掘校园社交网络用户行为分析_第4页
第4页 / 共45页
基于数据挖掘校园社交网络用户行为分析_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《基于数据挖掘校园社交网络用户行为分析》由会员分享,可在线阅读,更多相关《基于数据挖掘校园社交网络用户行为分析(45页珍藏版)》请在金锄头文库上搜索。

1、北京交通大学毕业设计(论文)北京交通大学毕业设计(论文) 第第 1 页页1 绪论1.1 选题背景社交网络,简称 SNS(social network service),在 Web2.0 浪潮中已发展为社会化媒体中一个主要平台。据最新的中国互联网络信息中心(CNNIC)2013 年 1 月 15 日发布的第 31 次中国互联网络发展状况统计报告,截至 2012 年 12 月底,我国网民规模达 5.64 亿,互联网普及率为42.1%,较 2011 年底提升 3.8 个百分点。同时报告显示,社交网络应用持续呈现增长趋势,截止 2012 年 12 月,国内社交网络用户总数已达 2.75亿,占到了全部网

2、民人数的 48.8%,增速保持在 10%以上。与此同时在 2010 年之后社交网络又出现两大新增长点:其一微博用户持续增长,微博用户规模在 2012 年达到 3.09 亿,较 2011 年底增长了5873 万。虽然微博急速扩张的阶段已经结束,但年增幅仍能达到 23.5%;其二用户逐渐移动化成为了社交网络用户增长的又一亮点,截至 2012 年12 月底,我国手机网民规模为 4.2 亿,较上年底增加约 6440 万人,网民中使用手机上网的人群占比由上年底的 69.3%提升至 74.5%,随着手机智能化,相当一部分用户访问和发送微博的行为发生在手机终端上,为社交网站的进一步发展提供了可能。此外“社交

3、化”已经作为一种重要的功能元素,正在全面融合到各类互联网应用中。一方面,2012 年涌现出大批具备社交基因的新应用,包括图片社交、私密社交、购物分享等,尤其在移动互联网领域,由于手机天生的通讯功能,2012 年许多热门移动应用都具备社交功能;另一方面,搜索、网购、媒体等互联网应用正在融合社交因素,以丰富自身的功能、提升用户体验,创新服务和盈利模式。在整个互联网都走向社交化的大趋势下,传统的实名制社交网站也不断增加平台功北京交通大学毕业设计(论文)北京交通大学毕业设计(论文) 第第 2 页页能,在原有网站基础上融入以上新型的社交功能组件,尤其是将业务发展重点转向移动终端,进而带动了 2012 年

4、社交网站用户增长,同时也为社交网络的进一步发展提供无限可能。现行网络中较为成熟和流行的社交网站有国外的Facebook,twitter,Google+,Plurk,Flickr,Linkedin 等,而国内也不乏人人网、开心网、豆瓣、新浪微博、腾讯微博等社交网络应用或网站。社交网站具有巨大的用户群和访问量,并早已成为网络上极其重要的组成部分。其中 Facebook 每月活跃人士已超过 7.5 亿,根据股价估值也已接近千亿级别,已经成为互联网新巨头之一。而在国内的 SNS 中,人人网注册人数也已经超过 1.6 亿,活跃用户也超过了一半,国内互联网巨头阿里巴巴更是出资 5.86 亿美元购得新浪微博

5、 18%股份,表现了其对社交网络发展的看好2。来自市场研究机构 eMarketer 的最新数据显示:在 2012年,全球超过 14 亿人使用社交网络,比 2011 年增加了 19%。2 20 00 02 2 最最早早的的社社交交网网站站 F Fr ri ie en nd ds st te er r发发布布2 20 00 03 3 - -M My ys sp pa ac ce e,经经过过1 10 0天天 匆匆忙忙开开发发后后发发布布 - -L Li in nk ke ed d发发布布2 20 00 04 4 - -F Fa ac ce eb bo oo ok k发发布布 - -图图片片分分享享

6、网网站站 F Fl li ic ck ke er r发发布布2 20 00 05 5 - -全全球球最最大大视视频频分分享享 网网站站y yo ou ut tu ub be e发发布布 - -R Re ed dd di it t发发布布2 20 00 08 8 - -F Fa ac ce ek kb bo oo ok k超超过过M My ys sp pa ac ce e 成成为为最最大大社社交交网网站站 - -团团购购始始祖祖G Gr ro ou up po on n发发布布2 20 00 07 7 - -i iP Ph ho on ne e发发布布 - -全全球球最最大大轻轻博博客客 网网站

7、站T Tu um mb bl lr r发发布布2 20 01 11 1 - -F Fa ac ce eb bo oo ok k活活跃跃用用户户数数 突突破破6 6亿亿 - -I Ip ph ho on ne e集集成成T Tw wi it tt te er r 服服务务2 20 00 06 6 T Tw wi it tt te er r发发布布图 1-1 社交网站发展时间表1.2 研究意义北京交通大学毕业设计(论文)北京交通大学毕业设计(论文) 第第 3 页页社交网络的流行不仅带来了信息传播技术的革命性变革,并且一步步改变着人们的生活方式、思维方式等,对于社交网络的研究也不断深入。但目前对于社

8、交网络的主体网络用户的行为研究仍然比较冷门,主要研究都偏向于网络用户行为研究,很少有专门对于社交网络用户行为的分析化。目前,社会科学对网络行为的研究,主要集中在以下议题: 作为行为场域的网络空间的社会特性 网络行为及其影响因素虽然以上研究都已比较深入,但大多的都从社会学角度切入研究宏观网络用户行为,内容与社交网络契合较少并偏向理论化,方法也大多采用问卷调查等主观性较强的方式,很少有通过技术手段采集客观数据并通过软件分析等方式进行研究的文献。而本文则通过网络爬虫采集相关数据,并通过数据分析软件 Weka 对采集数据进行数据挖掘,通过数据寻找社交网络用户行为及其影响因素,可以说是从一个比较新颖的角

9、度分析了社交网络用户行为。如果能够有效的提取社交网络中的各种数据并对用户行为、群体特征等进行分析,掌握用户的行为模式及其影响因素,不仅能够帮助网站运营商全面掌握用户需求从而提供更好的服务和产品,还能够帮助营销商更好地了解受众群体和信息传播模式进而采取更有效的网络营销和推广手段。1.3 论文主要研究内容及组织结构1.3.1 主要研究内容本论文研究内容主要包括一下三个方面: 社交网络及社交网络用户行为该部分主要是为最终通过分析软件对社交网络用户行为进行总结做好北京交通大学毕业设计(论文)北京交通大学毕业设计(论文) 第第 4 页页理论基础准备。主要对社交网络概念产生、发展过程进行阐述。并对社交网络

10、更加具有 WEB2.0 时代的特点进行描述。最后对一般社交网络用户行为动机进行分析。 数据挖掘中的聚类分析这一部分主要对数据挖掘的聚类分析的定义、分析过程以及主要分析手段进行描述,并分析各聚类方法优缺点,最后通过根据收集所得数据特征选取合适的聚类分析方法 数据采集技术网络爬虫该部分主要确定所要爬取的网页内容,并根据网站 HTTP 协议与网页行为特征制定定向网页爬虫方案,然后通过 python 语言实行具体编码。编码过程主要分为两步,首先通过使用 Wireshark 抓包后使用 python 中的 urlllib 库构造目标网站可识别 HTTP 协议,然后通过设计正则表达式进行数据提取。1.3.

11、2 论文组织结构论文第二章主要讨论了社交网络定义与特点,并对一般社交网络用户行为动机进行分析。同时对数据挖掘中的聚类分析定义、过程以及主要方法进行描述,阐明了本文所涉及的理论基础。论文第三章对于如何通过网络爬虫技术进行数据采集进行了说明。首先介绍了网络爬虫技术的原理与 URL 存在形态,然后分析了如何制定定向网络爬虫,最后说明了本次网络爬虫程序编码所解决的难题与部分具体代码。论文第四章对所收集数据进行预处理,并通过 Weka 数据挖掘软件对数据进行聚类分析,并对所获结果做出解释。北京交通大学毕业设计(论文)北京交通大学毕业设计(论文) 第第 5 页页论文最后对整个研究过程进行总结并分析了所存在

12、的不足之处以及对未来进一步研究的展望。北京交通大学毕业设计(论文)北京交通大学毕业设计(论文) 第第 6 页页2 关键技术和理论基础综述2.1 社交网络2.1.1 社交网络的概念社交网络一词最早是 1954 年由 J. A. Barnes 首先使用。一个社交网络的大小最大约为 150 人左右 (Dunbars number)3,平均大小约为 124 人左右 (Hill and Dunbar, 2002),它是指社会行动者及其间关系的集合,在上世纪 90 年代之前这一词语主要在管理学、社会学等领域应用。但是随着互联网的发展以及六度空间理论和邓巴数字等理论的兴起4,社交网络逐渐被赋予了新的定义,首

13、先出现的是网络社交。网络社交是伴随着电子邮件的出现产生的,它解决了信息点对点的传送。而 BBS 则把网络社交又向前推进了一步:从单纯的点对点交流的成本降低,推进到了点对面交流成本的降低。随后产生的即时通信(IM)和博客(Blog)更像是前面两个社交工具的升级版本,前者提高了即时效果(传输速度)和同时交流能力(并行处理) ;后者则开始体现社会学和心理学的理论信息发布节点开始体现越来越强的个体意识,因为在时间维度上的分散信息开始可以被聚合,进而成为信息发布节点的“形象”和“性格” ,随着网络社交的悄悄演进,一个人在网络上的形象更加趋于完整,这时候符合我们现在定义的社交网络出现了。现在社交网络也被称

14、作社交网络服务(Social Network Service),简称SNS,也就是社交+网络+应用服务的意思5。它通过网络这一载体把人们连接起来,从而形成具有某一特点的团体。社交网络含义包括硬件、软件、服务及应用,狭义上讲它是指建立在真实人际关系基础上的网络平台,是作为现实中的社会团体在互联网上交流的辅助工具而存在,是现实活动的北京交通大学毕业设计(论文)北京交通大学毕业设计(论文) 第第 7 页页在线拓展,与传统的虚拟网络有很大的不同。从这个定义上讲,符合“真实人际关系及其衍生”的 SNS 主要有 Facebook,LinkedInGoogle+以及国内的人人网、开心网等。广义上,一般会把微

15、博、空间、社交网站等都称为“社交网络” ,如图 21 所示这其中包括了一些完全虚拟网络,如微博、Flicker 等它们脱离社会现实,结构相对无序、混乱。而狭义上的社交网络,如 Facebook,是现实人际网络的子集及其衍生,具有现实生活中人际网络特征,同时国内大多数媒体所指的 SNS 也一般即为社交网站(Social Network Sites) ,而并非社会性网络服务(Social Networking Services) 。基于如此本文对社交网络的研究是基于狭义上的社交网络将选取国内的社交网络服务网站人人网为数据来源。社社交交网网络络 服服务务 (S SN NS S)具有 真实人际关系 基

16、础的社交 网络平台传统虚拟人际 关系基础的社 交网络平台F Fa ac ce eb bo oo ok k L Li in nk ke ed d- -I In n G Go oo og gl le e+ + 人人人人网网 开开心心网网T Tw wi it tt te er r F Fl li ic ck ke er r 微微博博 T Tu um mb bu ul lr r图 2-1 基于人际关系的社交网站分类北京交通大学毕业设计(论文)北京交通大学毕业设计(论文) 第第 8 页页2.1.2 社交网络特点与传统网络类型相比,在WEB2.0时代发展起来的社交网络主要呈现出以下特点: 人际传播回归和社交网络关系化正如“电话代替不了握手”一样,网络上具有时并不能带来人们内心的亲切感和信任感。为避免网络这种上具性特征带来的弊端,社交网络正在向人际传播回归,它以现实社会关系为基

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号