中期基于个人微博特征的Timeline生成研究

资源描述

《中期基于个人微博特征的Timeline生成研究》由会员分享，可在线阅读，更多相关《中期基于个人微博特征的Timeline生成研究（29页珍藏版）》请在金锄头文库上搜索。

1、基于个人微博特征的Timeline生成研究目录二、课题的设计与实现三、试验测试与结果分析一、课题背景介绍四、中期工作总结与计划一、课题背景介绍1.1课题简介 1.研究意义研究意义在这个信息发展飞速的年代，我们渴望了解我们感兴趣的人和事。企业之间想相互了解自己的竞争对手，公司员工想了解老板的信息，追星族想了解自己喜欢的明星，个人想了解自己的亲戚朋友的近况。微博却承载着我们个人的想法而诞生。2.现状现状随着微博的快速发展，微博的历史信息量也越来越大，加上微博独特的特点，这使得我们在想了解我们感兴趣的人和事情的时候，困难加剧。3.课题研究的特点课题研究的特点本文根据微博的特点，进行事件提取研究

2、，实验也充分的证明了本文算法的有效性。1.2.3.4.改进的TF-IDF提取关键字计算相似度聚类的研究一、课题背景介绍1.2 课题的主要内容目录二、课题的设计与实现三、试验测试与结果分析一、课题背景介绍四、中期工作总结与计划二、课题的设计与实现2.1课题总流程图二、课题的设计与实现2.2预处理部分（1）去除个人微博中相同的微博（2）提取出微博中的标签（微博中一般在博文的开头，两个#号之间或者【】之间的词语或者句子）（3）提取出微博中含有url链接所对应的标题（因为微博的特征是最多140字这里以新浪微博为主，所以url链接所对应的标题很大程度上能突出微博的主题）（4）找出每一条微博的评论、转发、

3、赞的个数（评论、转发、赞越多，我们认为这条微博关注的人数比较多，我们认为这条微博很重要，应给微博中的关键词给予更大的权重）（5）去除微博中的停用词、表情、特殊符号（停用词、表情、特殊符号，我们认为这样的词对于整条微博的价值是很低的，去除这些词和符号，同时也降低了噪声）（6）分词采用中科院汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分词校园招聘：毕业后想进入创业公司工作吗创新工场联合我们投资的公司进入校园，联合招聘。有兴趣的当界毕业生，请点击：应届生招聘 - 创新工场（Inn

4、ovation Works）标签URL对应标题普通文本分词分词分词校园，招聘，毕业，进入，创业，公司，工作创新工场，联合，投资，公司，进入，校园，招聘，兴趣，毕业生应届生，招聘，创新工场，Innovation，Works2.2预处理部分二、课题的设计与实现2.3改进的TF-IDF传统传统TF-IDF的缺点：的缺点： 1.传统的TF-IDF是针对长文本而不是针对微博的，所以没有考虑到微博独特的特点。 2.如果一个词只出现在一条微博当中那么这个词的IDF会很高，传统的TF-IDF会把这个词当做权重高的主题词，但是在微博当中一个词只出现在一条微博当中，那么我们很可能不会把他当成关键词而是把一些分布在

5、各个微博当中分布平均的词当成主题词来提取，所以我们引入信息熵的概念。 3.词的长度越长，那么词还有的信息量就越大，就越有可能成为主题词，那么这个词的TF-IDF权重应越高。二、课题的设计与实现2.3改进的TF-IDF1.改进的改进的TF计算公式：（引入了标签和计算公式：（引入了标签和URL）（1）式（1）中w_hashtagi,j 表示分词后词wi在微博标签中出现的次数，w_urli,j 表示分词后词wi在微博dj中的url所对应的标题中出现的次数，w_posi,j表示分词后的词wi在微博除标签和url对应标题外的文本中出现的次数,分别为词在标签中和词在url链接中出现词汇wi的加权值，试

6、验中,分别设为2。2.IDF计算公式计算公式（2）式（2）中N表示个人微博中所有的微博数，n表示个人微博中包含词wi的微博数，1是为了避免是为了避免lg值出现值出现0值时而设定的一个常量。值时而设定的一个常量。二、课题的设计与实现2.3改进的TF-IDF3.词的长度对词的长度对TF-IDF的影响的影响（3）其中len(wi)表示词的长度，f(len(wi)表示词长的权重，加1主要是为避免出现负数或0添加的平滑因子4.信息熵的概念信息熵的概念（4）若一个个人用户发了n条微博(d1,d2,d3, ,dn)每条微博当中包含词wi的概率分布为p(m1/M,m2/M,.mn/M)其中M表示词

7、wi在所有微博中出现的次数，mi表示词wi在每条微博中出现的次数。我们把H(p)作为词wi在整个微博中的分布熵。 H(p)越大则表示词wi在每个微博当中分布越均匀，那么这个词成为关键词的概率就越大，H(p)越小那么词wi在不同微博中分布中出现的次数不均匀，那么成为关键词的概率就越小。二、课题的设计与实现2.3改进的TF-IDF 5.TF-IDF计算公式计算公式：（5）二、课题的设计与实现2.4提取关键词定义定义1 ：普通文本关键词：表示为每条微博中普通文本的TF-IDF权重大于这条微博中所有词的平均TF-IDF值定义定义2：标签关键词：表示每条微博中标签经过分词去停用词后所剩余的所有词

8、（因为标签一般都很短，所以把标签对应的所有词作为关键词）定义定义 3 ： Url关键词：表示每条微博的url所对应标题经过预处理后剩余的所有词（因为标签一般都很短，所以把标签对应的所有词作为关键词）二、课题的设计与实现2.5相似度计算1.标签相似度标签相似度对文本中提取的标签进行相似度的计算，把提取出来的标签进行分词后得到词的序列，因为标签一般都比较短其中 hashtag(di)hashtag(dj) 表示微博di中的标签和微博dj中的标签有相同词的个数， hashtag(di)hashtag(dj) 表示微博di中的标签和微博dj中标签中词的总数和，如果两条微博当中都没有hashtag那

9、么我们把标签相似度设为0。二、课题的设计与实现2.5相似度计算2.Url对应的标题相似度对应的标题相似度其中 url(di)url(dj) 表示微博di中url所对应的标题和微博dj中url所对应的标题所含共同词的个数，url(di)url(dj) 表示微博di中url所对应的标题和微博dj中url所对应的标题所含词的总数和，如果两条微博都不含url那么我们把url对应的标题相似度设为0。二、课题的设计与实现2.5相似度计算3.文本相似度文本相似度文本相似度用微博di和dj中tf-idf的较高的值提取出关键字，用di和dj中的关键字进行余弦相似度的计算，计算公式如下:4.综合相似度综合相似

10、度实验当中的=0.4;=0.3; =0.3 二、课题的设计与实现2.6聚类算法聚类算法流程图：二、课题的设计与实现2.6聚类算法在聚类中k-means算法对于微博聚类有一下两点缺点：1.聚类算法的中心点选择对聚类的结果会产生很大的影响2.常规的聚类算法没有考虑到微博时间的特征，因为两条微博时间跨度越大，那么这两条微博成为一个事件的概率就越小二、课题的设计与实现2.6聚类算法中心点选择原则中心点选择原则1.统计微博在每个时间组内所有关键词的词频2.在每个实践组内，包含更多的关键词词频高的微博做为首要的中心点选择二、课题的设计与实现2.6聚类算法1.我们把所有的一个人的微博按照发表时间的顺序进行

11、分组分为（T1，T2，T3，.Tn）2.对每个组中各自选择中心点运用综合相似度公式进行K-means聚类3.每个组聚类完成后进行逐渐合并，同时在合并的同时加入时间的因素判断，当两条微博的发表时间差大于一个阈值时，我们不把这两条微博合并成一个类簇，当两条微博的发表时间在一个阈值范围内，执行K-means聚类算法。4.直到合并所有分组完成得出聚类结果目录二、课题的设计与实现三、试验测试与结果分析一、课题背景介绍四、中期工作总结与计划三、试验测试与结果分析3.1实验数据本文数据集通过新浪微博第三方软件爬虫的数据：其中包括李开复、杨毅、冯小刚、潘石屹等人的微博实验环境：CPUInter(R)Core(

12、TM)2 (2.93GHz)，操作系统为64位的Win7，实验工具为Visual Studio 2010，数据库为MYSQL Server 5.1。三、试验测试与结果分析3.2TF-IDF改进前后的实验比对从自己微博中随机挑选出几条微博进行关键词统计，统计结果与人工统计结果比对：改进前改进前TF-IDFTF-IDF改进后改进后TF-IDFTF-IDF人工标注人工标注败,不再,老,一分,韩国,拿下,老将,李炫一,两分,林丹,风云,组合,前段,汤杯,脆,确实,团体,优势,一代败,日本,不再,老,时间,最后,黄金,一分,韩国,拿下,老将,李炫一,两分,林丹,风云,组合,前段,汤杯,脆,确实,团体,优

13、势,一代韩国,李炫一,老将,中国,林丹,风云,汤杯,日本,团体,优势,一分,脆败直,视,直播,调整,曼,视频,上半场,结束,双方,半,场,做出,继续,比赛,敬请,关注,地址央,视,体育,直播,国际,冠军杯,调整,曼,视频,联,上半场,结束,双方,半,场,做出,继续,比赛,敬请,关注,地址直播,冠军杯,国际,曼联,国米,上半场,央视,体育,地址,关注假使,满清,现在,哪里,历史,铁血,社区中国,假使,满清,现在,哪里,历史,铁血,社区中国,满清,铁血,历史,不入关,社区准,妈妈,我国,出生,缺陷准,妈妈,警惕,我国,出生,缺陷准妈妈,警惕,出生,缺陷儿,我国三、试验测试与结果分析3.2TF-ID

14、F改进前后的实验比对微博数据改进前TF-IDF提取关键词数改进后TF-IDF提取关键词数改进前TF-IDF提取关键词与人工标注关键词相同的个数改进后TF-IDF提取关键词与人工标注关键词相同的个数人工标注李开复18271344103512061284自己17231894133216131731三、试验测试与结果分析3.2TF-IDF改进前后的实验比对查全率=改进前或后TF-IDF提取关键词与人工标注关键词相同的个数/人工标注的总个数查准率=改进前或后TF-IDF提取关键词与人工标注关键词相同的个数/改进前或后TF-IDF提取关键词的个数目录二、课题的设计与实现三、试验测试与结果分析一、课题背景介绍四、中期工作总结与计划四、中期工作总结与计划4.1已完成的工作1数据提取2数据预处理3改进的TF-IDF和改进前TF-IDF实验对比4提取个人微博的关键字5改进TF-IDF对关键字提取的影响（和人工标注的关键字对比）6综合相似度计算7聚类结果完成四、中期工作总结与计划4.1下一步工作计划1.聚类结果实验对比的完成2.加大数据量的测试3.各个参数的大小对结果影响的分析4.语义相似度的计算，加入索引机制和爬虫机制5.从时间效率上优化算法THANKS谢谢观看

展开阅读全文

中期基于个人微博特征的Timeline生成研究

最新文档