基于个人博史的公共事件检测

资源描述

《基于个人博史的公共事件检测》由会员分享，可在线阅读，更多相关《基于个人博史的公共事件检测（36页珍藏版）》请在金锄头文库上搜索。

1、基于个人微博史的公共事件检测汇报时间汇报时间:10.2812345www.HighN介绍的内容和步骤课题的主要流程个人微博线索词个性化提取算法（PPWE）线索词实验结果分析公共事件提取公共事件实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）线索词实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）公共事件提取线索词实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）公共事件实验结果分析公共事件提取线索词实验结果分析课题的主要流程介绍个人微博线索词个性化提取算法（PPWE）12345www.HighN介绍的内容和步骤课题的主要流程个人微博线索词个性化

2、提取算法（PPWE）线索词实验结果分析公共事件提取公共事件实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）线索词实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）公共事件提取线索词实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）公共事件实验结果分析公共事件提取线索词实验结果分析课题的主要流程介绍个人微博线索词个性化提取算法（PPWE）www.HighN 提取公共事件的流程图：课题的主要流程介绍www.HighN介绍的内容和步骤课题的主要流程个人微博线索词个性化提取算法（PPWE）线索词实验结果分析公共事件提取公共事件实验结果分析课题的主要流程

3、个人微博线索词个性化提取算法（PPWE）线索词实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）公共事件提取线索词实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）公共事件实验结果分析公共事件提取线索词实验结果分析课题的主要流程介绍个人微博线索词个性化提取算法（PPWE）www.HighN个人微博线索词个性化提取算法WWPE WWPE聚类算法的组成部分：www.HighN个人微博线索词个性化提取算法WWPEWWPE的算法思路：预处理中科院分词系统分词序列相似度计算特征值计算聚类线索词特征线索词合并、去重得到最终线索词源数据www.HighN个人微博线索词个性化提

4、取算法WWPE相似度聚类：1.耦合相似度2.时序相似度3.流行相似度4.综合相似度www.HighN个人微博线索词个性化提取算法WWPE耦合相似度计算：如果两条微博含有相同的关键词，则说明二者在内容上具有一定的耦合性。关键词重叠越多，则耦合度就越大，即很可能阐述的是同一个事件的不同侧面。本文运用了Jaccard进行耦合相似度的衡量。计算公式如下：leni表示分词wi的相对词长，lenID(wi,id)表示分词所在文本的长度，len(wi)表示分词长度。www.HighN个人微博线索词个性化提取算法WWPE时序相似度计算：以往时序相似度是将指定数量中任意两条微博的发布时间都进行一次相似性的

5、度量，这样做明显加大了算法的时间复杂度。由于个人微博的文本内容具有很强随机性和跳跃性。为了防止出现相似度浑浊和相似度漂移，将时序相似度的计算在耦合相似度的基础上进行，这样做使得相似度结果更密集，聚类目标更清晰。计算公式如下：其中ti和tj分别表示编号为idi和idj的微博发布时间。www.HighN个人微博线索词个性化提取算法WWPE微博的流行度计算：流行度是用来评估文本吸引力的，但对于微博数据而言，主要取决于转帖、评论和赞数三个因素。在以往的相关工作中，并没有将流行度应用到个人微博的数据挖据中。计算公式如下：其中res为转帖，com为评论，atti为赞数，count为三者之和。、为可变系数

6、，起平衡每个权重因子的作用。通过分析以上三者对流行度的影响力和反复地实验，设定为0.5，为0.3，为0.2。www.HighN个人微博线索词个性化提取算法WWPE流行相似度计算：若两条微博内容耦合、时序相关，则流行度也定会存在某种关联，所以也将其作为综合相似度的一个特征因子添加进来。本文采用欧拉距离公式来计算流行相似度。计算公式如下：其中Xi和Xj分别表示微博的流行度，即值越小，距离越近说明相似度越高，反之则相似度越低。www.HighN个人微博线索词个性化提取算法WWPE综合相似度计算：通过分析微博的耦合、时序和流行度三个因素的作用以及相似度的计算，对其进行线性加权，得出指定两条微博间的

7、综合相似度。计算公式如下：其中、为以上三种相似度的可调节参数，通过分析每个权重因子的含义以及大量实验，设定、和的值分别为0.6、0.3和0.1，且+=1。分析实验结果，提取相似度在分析实验结果，提取相似度在0.07到到0.4之间的微博之间的微博分词，作为候选聚类线索词。分词，作为候选聚类线索词。www.HighN个人微博线索词个性化提取算法WWPE提取聚类线索词的步骤： 1.提取相似度在0.07-0.4之间的分词，作为候选聚类线索词；2.聚类关键词的词性因子的详细赋值；3.聚类候选关键词的词频统计；4.计算聚类关键词权重；5.提取聚类线索词。www.HighN个人微博线索词个性化提取算法WW

8、PE词性因子的详细分类赋值：根据实验结果及词性分析，同一词性的分词对文本语义贡献度是不同的，为了区分贡献度大小，对词性因子的赋值进行了更具体地分类。由于名词对主题的辨别作用最大，所以只针对名词进行详细地分类赋值。对聚类关键词具体的词性分类如下：其中nr表示人名，n即为普通数据，ns为地名，nz为其他专有名词，j为缩略词。www.HighN个人微博线索词个性化提取算法WWPE计算聚类关键词权重：由于聚类候选关键词的权重受词性和词频因子影响较大。所以完成候选关键词的词频统计后，将其与词性因子进行乘积运算得到综合权重值，再根据该值进行二次筛选，以提高线索词的抽准率。聚类关键词总的权重计算公式如下

9、：其中wi_count为线索词在所有聚类关键字中的词频，posi为聚类关键词的词性。分析实验结果，将提取聚类线索词的阀值设定为大于等于0.6，去除重复关键词，得到最终的聚类线索词。www.HighN个人微博线索词个性化提取算法WWPE特征值计算：1.1.传统传统TF-IDFTF-IDF的缺点；的缺点；2.2.提出一种改进的提出一种改进的TF-IDFTF-IDF函数；函数；3.3.提取特征线索词提取特征线索词www.HighN个人微博线索词个性化提取算法WWPE传统TFIDF的缺点：传统TF-IDF函数虽也能检测到部分线索词，但本次实验的数据集是个人微博数据，故要直接应用此函数会出现一些显著地

10、缺点：1.一些不能代表文本语义的低频词由于IDF值很高，被当作线索词提取出来。对词频低，流行度高的线索词提取效果不佳；2.传统的TF-IDF是针对长文本的，并没有考虑微博的短文本特征以及分词自身因素；3.没有考虑到相同关键字在不同短文本中，出现特征值离散现象。www.HighN个人微博线索词个性化提取算法WWPE改进的TFIDF的函数：针对以上问题，提出一种改进的TF-IDF函数，添加了词长、词性、词频和词流行度四个因素，同时为了避免特征值离散，对某些特征因子求均值以后再进行线性加权。其中词流行度取决于分词所在微博的转帖、评论、赞数、词性其中词流行度取决于分词所在微博的转帖、评论、赞数、词

11、性、词长和出现次数。计算公式如下、词长和出现次数。计算公式如下：其中其中show(wi,idi)为分词在所属短文本中的出现的次数。经多次实为分词在所属短文本中的出现的次数。经多次实验，将可变参数的值分别设定为验，将可变参数的值分别设定为0.4、0.1、0.2、0.3，且和为，且和为1 。其中其中show(wi,idi)为分词在所属短文本中的出现的次数。经多次实为分词在所属短文本中的出现的次数。经多次实验，将可变参数的值分别设定为验，将可变参数的值分别设定为0.4、0.1、0.2、0.3，且和为，且和为1 。www.HighN个人微博线索词个性化提取算法WWPE改进的TFIDF函数形式：对传

12、统的TF-IDF函数调整以后，对于短文本中任意一个关键词，其权重计算公式如下：www.HighN个人微博线索词个性化提取算法WWPE改进的TFIDF的词长因子：leni表示分词wi的相对词长，lenID(wi,id)表示分词所在文本的长度，len(wi)表示分词长度。www.HighN个人微博线索词个性化提取算法WWPE改进的TFIDF的平均词频因子： f1(wi,idi)表示分词所在微博的词频，fw(idi)表示分词所属微博中所有分词出现次数之和，f2表示分词在整个分词序列中出现的次数之和，fmax表示整个序列表中所有分词的出现次数之和。www.HighN个人微博线索词个性化提取算法WWP

13、E改进的TFIDF的平均流行度因子：www.HighN个人微博线索词个性化提取算法WWPE改进的IDF表现形式：由以上公式表明，IDF值会随着n值的增大而增大，随N值的增加而减小。改进后TF-IDF函数的思想：若分词t在文本d中的特征权值大，而在文本e中的频率小，则说明该分词文本鉴别能力强。经过多次实验，将词频的两个可变参数1和1设定为0.6和0.4，其余的可变参数分别为0.1、0.4、0.2、0.3。分析实验结果，将提取特征线索词的阀值设置在分析实验结果，将提取特征线索词的阀值设置在1.80-1.80-1.911.91之间，得到最终的特征线索词。之间，得到最终的特征线索词。www.Hig

14、hN介绍的内容和步骤课题的主要流程个人微博线索词个性化提取算法（PPWE）线索词实验结果分析公共事件提取公共事件实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）线索词实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）公共事件提取线索词实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）公共事件实验结果分析公共事件提取线索词实验结果分析课题的主要流程介绍个人微博线索词个性化提取算法（PPWE）www.HighN线索词实验结果分析词性详细赋值前后的实验结果对比:部分实验结果如图1所示：从以上图表发现，词性详细分类赋值后提取的线索词目标性更强，解决了

15、噪音分词的干扰问题。www.HighN线索词实验结果分析采用传统TFIDF计算关键词特征值结果:部分实验结果如图2所示：由以上图表不难发现，相同关键字可能会出现多次，且具有不同的TFIDF值，这无疑会影响到线索词的提取效果。www.HighN线索词实验结果分析改进前后的TFIDF结果对比:部分实验结果如图3所示：从以上图表看出，改进后的TF-IDF函数提取线索词的效果要明显优于传统的TF-IDF函数。这在很大程度上保证了线索词较高的抽准率以及未来根据线索词进行短文本二次聚类，提取微博事件的准确性。www.HighN线索词实验结果分析综合聚类和特征值计算二者的线索词最后提取结果如图4所示：

16、www.HighN介绍的内容和步骤课题的主要流程个人微博线索词个性化提取算法（PPWE）线索词实验结果分析公共事件提取公共事件实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）线索词实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）公共事件提取线索词实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）公共事件实验结果分析公共事件提取线索词实验结果分析课题的主要流程介绍个人微博线索词个性化提取算法（PPWE）www.HighN公共事件提取线索词提取线索词对应的微博提取微博的主题信息公共模版匹配公共事件提取公共事件提取流程图：www.HighN介绍的内

17、容和步骤课题的主要流程个人微博线索词个性化提取算法（PPWE）线索词实验结果分析公共事件提取公共事件实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）线索词实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）公共事件提取线索词实验结果分析课题的主要流程个人微博线索词个性化提取算法（PPWE）公共事件实验结果分析公共事件提取线索词实验结果分析课题的主要流程介绍个人微博线索词个性化提取算法（PPWE）www.HighN公共事件实验结果分析提取线索词所在的微博信息：www.HighN公共事件实验结果分析提取微博主题信息：通过观察，“【】”内的信息更能说明该条微博的主要信息。www.HighN公共事件实验结果分析利用新浪微博的风云榜作为公共事件匹配的模板：提取的公共事件结果如图5所示：HighNovaHighNova 汉诺中国专业音视频解决方案提供商谢谢Thanks主讲人：周环宇

展开阅读全文

基于个人博史的公共事件检测

最新文档