哪些老人不说话 基于标签的老年缄默用户预测

上传人:小** 文档编号:34088824 上传时间:2018-02-20 格式:DOC 页数:10 大小:84.50KB
返回 下载 相关 举报
哪些老人不说话 基于标签的老年缄默用户预测_第1页
第1页 / 共10页
哪些老人不说话 基于标签的老年缄默用户预测_第2页
第2页 / 共10页
哪些老人不说话 基于标签的老年缄默用户预测_第3页
第3页 / 共10页
哪些老人不说话 基于标签的老年缄默用户预测_第4页
第4页 / 共10页
哪些老人不说话 基于标签的老年缄默用户预测_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《哪些老人不说话 基于标签的老年缄默用户预测》由会员分享,可在线阅读,更多相关《哪些老人不说话 基于标签的老年缄默用户预测(10页珍藏版)》请在金锄头文库上搜索。

1、哪些老人不说话? 基于标签的老年缄默用户预测 左美云 侯静波 汪长玉 中国人民大学信息学院 中国人民大学智慧养老研究所 摘 要: 基于用户标签实现社交网络缄默用户里的老年用户预测, 有助于解决使用传统基于用户产生文本的预测方法难以预测缄默用户内老年用户的难题。有效预测出缄默用户中的老年人有助于为这部分用户提供诸如适老化用户界面、适老信息以及好友推荐等适老服务, 减轻老年人使用社交网络的负担。使用 Word2vec和 LDA 两种方法, 本文提取了社交网络用户标签特征向量, 并使用六种不同分类算法对社交网络内老年用户进行预测。根据 TF-IDF 计算不同年龄组别用户标签词的热度指数, 本文发现不

2、同年龄组别用户的热门标签词语存在明显差别, 表明使用标签词预测用户的年龄分组具有一定可行性。使用 Word2vec 方法提取用户标签特征, 同时使用简单逻辑回归或随机森林分类模型可以有效判断缄默用户是否为老年用户, 在不使用任何社交网络拓扑结构和用户生成文本的情况下, 分类正确率达到 66%。关键词: 社交网络; 缄默用户; 老年用户预测; 用户标签; 作者简介:左美云 (通讯作者) , 男, 博士, 教授、博士生导师, 研究方向为智慧养老、信息管理、知识管理;Email:;作者简介:侯静波, 男, 硕士研究生, 研究方向为数据挖掘、社交网络分析、智慧养老;作者简介:汪长玉, 女, 博士研究生

3、, 研究方向为知识管理、信息系统、智慧养老。收稿日期:2017-04-08基金:中国人民大学科学研究基金 (中央高校基本科研业务费专项资金资助) 项目 (10XNJ065) Which Seniors Dont Talk? A Study on Predicting Mute Senior Users by TagsZuo Meiyun Hou Jingbo Wang Changyu Abstract: The problem of distinguishing senior users from mute users was solved by the tags in their profi

4、les in social media.Finding the mute seniors is helpful for providing suitable user interface to these users and recommending suitable information for these users, and can reduce these senior users burden of the social network.We use Word2 vec and LDA to extract users features to predict whether the

5、 user is a senior citizen or not.This paper uses TF-IDF to compute the tags popularity in different age groups, finding that there is distinct difference among different age groups.So tags can be used to predict users age group.Experiment results demonstrated that the approaches (using Word2 vec to

6、extract features and using random forest or logistic regression to predict the age group) can make accurate prediction on whether a user is a senior user.Its accuracy can achieve 66% without any user generated content or network topology.Keyword: Social network; Mute users; Senior user prediction; U

7、ser tag; Received: 2017-04-081 研究背景中国互联网络信息中心 2016 年 8 月发布的第 38 次中国互联网络发展状况统计报告1显示:与 2014 年 12 月相比, 2016 年 6 月 60 岁以上高龄群体占比有大幅度提升, 从 2.4%上升至 3.7%。截至 2016 年 6 月, 我国共有 60 岁以上高龄老年网络用户 2600 万人1。可以看出互联网不断地向老年群体渗透, 老年用户开始越来越多地享受到互联网给他们带来的便捷。在智慧养老的大趋势下, 社会和各级组织应该更多地考虑互联网给养老带来的积极作用。有学者指出, 用户在社交网络中可以获得不同类型的社

8、会支持2, 如情感支持、陪伴支持和信息支持, 这些社会支持对老年用户身心健康是有利的。然而退休后的老年人表现出多疑、自卑、敏感等特点3, 也表现在社交网络的使用活动中。我们团队在以往的调研中发现了类似的情况。以老年人上网数量较多的北京市什刹海社区以及人口密度比较大的天通苑社区为例, 我们发现 (引号中内容源自团队前期的访谈记录) 老年人在使用社交网络过程中有如下几方面的问题: (1) 多疑, “社交网络上的帖子都是谁发的, 权威吗?我更愿意相信熟人朋友之间的口口相传”; (2) 自卑, “我已经退休了, 知识也落伍了, 我在社交网络中发表的帖子有人看吗?”;“登录社交网络, 需要熟悉许多计算机

9、操作, 我碰到问题不知道怎么办”; (3) 收益问题, “在社交网络中发帖对我有什么好处呢?”由此可见, 老年人对于使用社交网络的意义持一定的怀疑态度。预测出社交网络中的老年用户, 帮助其克服在使用社交网络时遇到的困难, 并且为其提供更好的适老化服务是目前社交网络需要关注的问题。然而在许多社交媒体中, 有些用户注册只是为了浏览信息, 他们很少发表任何内容, 这类用户被称为缄默用户4。本文研究缄默用户中老年用户的预测, 预测出这一部分老年用户, 对老年用户而言有助于为其提供适老化用户界面, 减轻其使用社交网络的负担;以及为其推荐适老信息内容和好友;同时避免系统要求用户填写出生日期而给用户带来隐私

10、忧虑等问题。对平台方而言, 找到社交网络中的老年用户, 也有利于对社交网络中用户进行受众分析与建立用户画像, 便于给老年产品做广告时有针对性地选取对象。2 文献回顾现有研究对用户属性的预测方法主要包括基于社交网络图结构的预测方法5-7、基于用户产生文本内容 (如根据文本中语言学和语法学特征、文本俚语使用情况、文本长度等进行预测) 的预测方法8-10、和基于社交网络图结构与文本内容相结合的预测方法11三种。研究社交网络用户人口属性预测的文献中, 大多数文献将性别预测作为主要研究问题4,9,11, 而将用户年龄分组预测作为研究问题的文章较少。在少数包含年龄作为预测属性的文献中, Rao 使用基于文

11、本的方法预测 Twitter 用户年龄分组, 其将用户分为 30 岁以上和 30 岁以下两组, 分类正确率为 74.11%8。Brea 基于移动电话社交网络拓扑结构预测用户年龄分组, 将用户分为四组 (小于 25 岁, 2534 岁, 3550 岁, 大于 50岁) , 其分类正确率为 62%6。目前预测用户年龄的文献使用的方法均为基于用户产生文本或者网络拓扑结构的, 难以对发帖量较少的缄默用户进行有效预测。因而本文的研究虽然选择第二种研究方法, 即基于用户产生文本内容的预测方法, 但是本文采用的文本是用户给自己设置的用户标签, 而非用户所发帖子。有学者曾通过用户兴趣标签预测缄默用户性别4。目

12、前国内并无使用社交网络用户标签预测用户年龄的文献;国外主流社交网络如 Facebook 和 Twitter 用户简介中并无用户兴趣标签这一字段, 因此国外也没有文献研究如何使用社交网络中的标签预测用户年龄分组。基于如下三个方面考虑, 本文选择使用标签预测社交网络中的老年用户: (1) 标签是对用户自身特点和兴趣的描述:邢千里等人发现, 用户的标签内容与文本内容具有相似性, 标签越相似的用户, 其文本内容也越相似12。同时黄红霞等人也发现用户的微博内容与其微博标签具有一定关联, 用户标签之间具有一定语义关联, 可以进行聚类处理13。 (2) 使用标签, 有助于准确预测只浏览、不发帖的缄默用户年龄

13、分组。有研究指出, 使用标签内容预测用户关注关系的效果远好于使用微博内容预测的效果, 说明了标签在描述用户方面的价值12。(3) 使用标签预测而非社交网络结构预测, 有助于准确预测好友较少的用户年龄分组。3 数据来源与分析3.1 数据来源本文采用新浪微博用户标签对社交网络中老年用户进行预测, 其中新浪对用户标签的定义是:“添加描述自己的职业、兴趣爱好等方面的词语, 让更多的人找到你, 让你找到更多的同类。”微博用户可以自由选择关键词做自己的标签, 新浪微博允许每个用户最多添加十个标签词。本文使用新浪微博用户简介中标签数据和出生日期数据作为实验数据。数据爬取使用部分种子用户, 通过抓取其朋友数据

14、来扩充用户样本数目。本文最终抓取 128159 条新浪微博用户简介数据。其中有 47.9%的用户填写了出生日期, 有42.8%的用户填写了用户标签, 有 27.2%用户同时填写了用户标签和出生日期, 有 15.6%的用户填写了用户标签但未填写出生日期。而在未填写出生日期却填写标签的这部分用户中, 有 1594 位用户发帖数小于等于 10, 我们把这部分发帖小于 10 条的用户定义为缄默用户。对这部分用户, 很难使用传统的基于帖子文本的预测方法预测其年龄, 而本文使用的基于标签的用户年龄分组方法可以有效地解决这一问题。3.2 数据描述本文使用既填写了用户标签又填写了出生日期的用户数据作为预测用户

15、分组的训练数据和预测数据, 首先对数据进行清洗。删除出生日期字段填写为 1930 年之前出生的和 2004 年之后出生的用户数据, 这部分用户生日数据很大程度上并不真实;同时也删除简介中包含“微商、代购、公司”等关键词的用户信息, 这部分用户非个人用户。处理后剩余 33120 条个人用户数据, 其中老年用户数据281 条, 非老年用户数据 32839 条。从中选取全部老年用户数据和随机选取部分年轻用户数据作为训练数据和预测数据。本文假设用户填写年龄为用户真实年龄, 同时将用户分为 11 组, 每隔五年分为一组, 分别对各组用户做标签分析。目前政策下, 国家法定的企业职工退休年龄是男年满 60

16、周岁, 女工人年满 50周岁, 女干部年满 55 周岁。基于以上退休年龄, 本文定义老年用户为年龄大于等于 55 周岁。3.3 标签分析样本中老年用户平均标签个数为 3.38 个, 非老年用户的平均标签个数为 3.6 个。可以看出, 老年用户使用的标签词语略少于非老年用户。本文目的在于探索不同年龄段内标签分布热度是否有差异, 借用 TF-IDF (term frequency-inverse document frequency) 算法表示标签词在不同年龄段的热度指数, 其中:TF=某个标签词在该年龄段中出现的次数/该年龄段中出现最高频的标签词次数;IDF=log (年龄分段总数/ (包含该标签词的年龄分段+1) ) ;TF-IDF=TF*IDF, 可以看出, TF-IDF 值与一个标签词在某一年龄段内出现的次数成正比, 与该标签词在各年龄段用户中出现次数成反比。因此, TF-IDF 高的标签词, 既是这一年龄段中的高频标签词, 也

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号