中文微博用户标签的自动生成研究

资源描述

《中文微博用户标签的自动生成研究》由会员分享，可在线阅读，更多相关《中文微博用户标签的自动生成研究（12页珍藏版）》请在金锄头文库上搜索。

1、-范文最新推荐-1 / 12中文微博用户标签的自动生成研究摘要随着信息化时代的发展,信息量不断增加 ,这就增加了人们在信息检索过程中的难度,所以我们对新的,更高效的信息检索方法的需求与日俱增, 其中信息检索过程中最关键的,也是最基本的一个步骤就是关键词的提取,由于微博是目前新产生的 ,并且应用量非常大的一个信息发布工具 ,所以目前对微博的研究呈快速上升趋势。本文的目的是通过新浪微博来研究针对每位微博用户的关键词的自动提取，希望能在微博关键词的应用领域做一定的铺垫。本采用的数据是北京理工大学所采集的新浪微博的数据，处理过程的第一步是将原始数据导入到数据库中，并将每个用户的所有微博数据结合起来，第

2、二步，通过复旦大学的关键词提取的开源软件对每位微博用户的所有微博进行关键词提取，第三步，提取部分有自己提取的关键词的用户并将其提取的关键词与机器提取的关键词进行对比并统计分析，分析机器提取结果的召回率和准确率。希望此次研究能够对微博的关键词提取的进一步改进提供帮助，并希望以后有越来越多的人能够关注此领域，为关键词提取领域的技术发展提供动力。12378关键词微博关键词提取新题提取 TitleMining Social Tagging System——Automatic generation of the Chinese micro-blogAbstractWith t

3、he development of the information age, the amount of information increasing, it increases the difficulty in the information retrieval process, so the needs of new, more efficient information retrieval method grows with each passing day, in the information retrieval process the most critical, most ba

4、sic one step is the keyword extraction, since the micro-blog is a new generated and have a large amount of users, so the research to micro-blog is a rapidly upward trend, and is very hot in the field of information technology, so we grasp the trend, in this paper we make the micro-blog as the resear

5、ch object, research the -范文最新推荐-3 / 12technologies in keywords extraction of micro-blog,I hope this could do some help to micro-blog technology, and can promote the further development of the information technology field. 5 总结与展望 115.1 总结 115.2 不足之处 125.3 今后工作展望 12附录 1.关键词提取具体实现的 java 代码 14附录 2.机器提取

6、的关键词与用户提取的关键词的比较分析 16致谢 25参考文献 271 前言当今的网络世界中占主要地位的有及时交流工具如QQ ，MSN 等，社交网站，如 FACEBOOK ，人人网等，博客，如新浪博客，雅虎博客等，还有微博，如新浪微博，腾讯微博等，微博作为一个新起之秀以不可抗拒之势，一出现便一下成为了当今网络世界的主流应用之一，但是由于博客的兴起时间比较早，因此其标签系统相对来说比较完善也比较健全，而微博作为一个新生事物，它的标签提取系统相对比较薄弱，而由于博客的博文字数相对来说比较多，因此博客的关键词提取方法往往是根据用户的标签标记习惯来自动生成。而大多数用户使用微博只是为了随意发表一些

7、状态，因此他们虽提取标签，但随意性很强，很难反映出他们的真实意图，因此不能用博客的关键词提取方法来为微博用户提取标签，但是微博有它自身的特点，即字数很少，最多一百四十个字，所以，我们可以针对其自身特点来进行研究，设计一个专门针对微博的关键词提取方法，生成针对于每位微博用-范文最新推荐-5 / 12户的关键词，为微博的进一步发展提供帮助。2 研究综述2.1 社会化标签和标签系统概述2.1.1 社会化标签社会化标签或社会性标签(Social Tag)也称为个性化标签(Personalized Tag)1，简称标签。标签是一种准确、灵活、开放、有趣的分类方式，是由用户为自己的文章、图片、音频、视频等

8、一系列文件所定义的一个或多个描述。随着全民参与的社会化网络的日益壮大，随着 Web2.0 技术的发展，标签被很多个性化站点广泛应用2。以前的标签提取方法大致有如下几种：(1) 根据用户的标记习惯，来为用户自动推荐标签。即统计用户各个标签的频率，之后为其推荐排名靠前的标签。这种方法只针对用户个人喜好来进行推荐。因此，很难跟踪用户当前文章的核心，因此，难以做出正确推荐。7(2) 根据用户对文章大类的标记习惯，统计以往用户对文章大类的标签提取频率，并为标签排序，因此，这种方法为用户推荐相关文章用户所用标签。这种标签只针对文章大类进行推荐。因此其与文章相关度可能会比较低。8(3) 围脖（微博）关键词

9、，是清华大学自然语言处理组开发的一个自然语言处理应用。该应用利用自然语言处理的关键词抽取技术，分析用户近期发表微博内容，提取代表用户兴趣的关键词，并采用文档可视化技术呈现关键词，便于用户快速了解自己、好友、主题等的关键词。(4) 针对专业文献的关键词提取，这种关键词提取一般需要人工方式，因为其专业性强，要求关键词能准确的反映出所写的文献的核心内容，因此，很少借助于机械化手段进行标签提取。-范文最新推荐-7 / 12综上所述，使用标签自动提取的基本只涉及到博客和新产生的微博，而由于微博的用户使用心理与博客不同，随意性比较强，往往是随时发布，反映了一个及时性，因此，其标签提取自然也会比较随意，不会

10、深入考虑，因此，不能用博客的标签提取方法应用于微博。清华大学的微博标签推荐方法虽然能根据用户兴趣爱好进行标签推荐，但其实现相对复杂，因为需要分析博文内容，再进行统计，最后推荐。本文采用方法是统计词频的方法，即将一定时期内用户所发表文章统计归类，之后将每篇文章进行切分词，之后统计词频，将排名靠前的标签定为该用户，该领域的推荐关键词并加入该用户的推荐词库，之后，针对用户当前发表的微博再次进行切分词，并将所分词与推荐词库中的高频词从高到低进行对比，找出推荐词库中高频词与此微博中出现的词汇相一致的单词，即为此微博的推荐关键词。相比上述几种方法，这种方法既能够体现用户的兴趣爱好，并能避免推荐关键词在当

11、前所发微博中不存在的情况，相对来说比较智能化，进一步摆脱了系统对人的限制，因此其功能更加完善，既符合微博数据库维护者的需要，又能使推荐标签更加符合用户的需要。 3.2 关键技术说明3.2.1 数据的初步处理 10对于 xml 格式的数据文件，虽然 access 中可以直接将 xml 格式的数据导入，但在导入的时候有时候会提示 xml 框架错误，未命名实体，所以可以直接将 xml数据处理为 html 数据，再进一步并通过处理 html 代码，并进一步处理得到所需要的文本格式，最终导入到 access 数据库中。在编辑文本文档时由于文本文档数据量很大，所以如果用系统自带的记事本打开很耗时间，所以，

12、在这里用了 emeditor 进行编辑，这大大节省了在打开文本数据，修改文本数据过程中所耗费的时间。为了使最后的文本文档中的数据满足要求，可以先提取文本文档中一小部分数据做实验，当最后的显示效果满足要-范文最新推荐-9 / 12求之后，再将此处理方法应用于所有数据。将原始数据处理成我们所需要的平面文本格式之后我们根据需要将其导入所用到的数据库表中即可。在access 数据库中我们可以直接通过软件自带的引导功能逐步导入平面文本文件，但是在 mysql 中我们需要一个可视化的外部工具，这里我用的是 navicat，用此工具可以方便的连接 mysql，并且能将各种外部数据通过软件的引导方便快速的导入

13、到 mysql 数据库中。3.2.2 关键词的提取将数据导入数据库中后，我们用了一个 java 程序进行关键词提取，我用的是复旦大学切分词研究专家小组研究出来的的关键词提取开源程序，这是一个复旦大学计算机学院开发的开源中文自然语言处理（NLP）工具包，Fudan NLP 里包含中文分词、关键词抽取、命名实体识别、词性标注、时间词抽取、语法分析等功能，对搜索引擎、文本分析等极为有价值。这里展示一下实现思路，具体代码见附件 1。 3.2.2.1 切分词11 3.2.2.3 统计词频，提取关键词最后一步是统计词频，即将剔除掉停用词的切分好的词汇进行词频统计，即通过 java 程序对文档中的词语进行循

14、环计数，之后根据词频进行排序，最后最终结果返回到我们在 access 数据库表中最后一列中，得到每个微博用户的关键词。4 结果分析4.1 系统展示及提取结果该分词系统采用的是 access 数据库用来存取微博及标签数据，用 eclipse 来运行该分词程序。经过初步处理后存入数据库中的数据如下图所示：图 3 新浪微博数据存入数据库示意图-范文最新推荐-11 / 12之后，通过 eclipse 运行我们的分词程序，如下图所示：图 4 程序执行示意图运行到最后程序会返回“处理完毕 ”提示关键词已经提取完毕，并将切分好的每位微博用户的关键词存入我们在数据库表中中预先设定好的最后一列中。如图 5 所示：图 5 新浪微博数据存入数据库示意图此

展开阅读全文

中文微博用户标签的自动生成研究

最新文档