话题发现与跟踪技术

资源描述

《话题发现与跟踪技术》由会员分享，可在线阅读，更多相关《话题发现与跟踪技术（28页珍藏版）》请在金锄头文库上搜索。

1、话题发现与跟踪技术话题发现与跟踪技术一：方案提出一：方案提出 1 利用网络爬虫利用网络爬虫 Nutch 将爬到的数据存储在表将爬到的数据存储在表 Crawler 中中 2 将表中数据（标题和正文）进行特征向量提取，得到将表中数据（标题和正文）进行特征向量提取，得到 VSM（Vector Space Model）向量空间模型）向量空间模型 3 用用 KNN 聚类算法进行第一次聚类得到微类集合聚类算法进行第一次聚类得到微类集合 4 用单连通算法（用单连通算法（Single-Pass 算法）进行第二次聚类得到精确的聚类结果算法）进行第二次聚类得到精确的聚类结果 5 根据热点事件发展曲线识别出热点话

2、题根据热点事件发展曲线识别出热点话题 6 话题呈现话题呈现二：网络舆情分析二：网络舆情分析 1 系统总体结构：系统总体结构：话题发现模型：话题发现模型：1 主题网络爬虫定义：主题网络爬虫就是根据一定的网页分析算法过滤与主题主题网络爬虫定义：主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接，保留主题相关的链接并将其放入待抓取的无关的链接，保留主题相关的链接并将其放入待抓取的 URL 队列中；然后根队列中；然后根据一定的搜索策略从队列中选择下一步要抓取的网页据一定的搜索策略从队列中选择下一步要抓取的网页 URL，并重复上述过程，并重复上述过程，直到达到系统的某一条件时停止。直到达

3、到系统的某一条件时停止。基本思路：按照事先给定的主题，分析超链接和已下载的网页内容，预测下一基本思路：按照事先给定的主题，分析超链接和已下载的网页内容，预测下一个待抓取的个待抓取的 URL 以及当前网页的主题相关度。以及当前网页的主题相关度。 2 信息采集流程：信息采集流程： 1）输入）输入 WebURL 2）Web 相应？相应？ 3）否就结束；是就进行下一步）否就结束；是就进行下一步 4）初始化）初始化 URL 队列队列5）数据流（读取数据流类）数据流（读取数据流类） 6）信息分类存储（正则表达式匹配类）信息分类存储（正则表达式匹配类） 7）数据库（操作数据库类）数据库（操作数据库类）

4、8）添加到新）添加到新 URL 队列队列 9）重复第）重复第 2）步直到）步直到 URL 队列为空队列为空 3 热点分析过程热点分析过程包括：热点分析起始时间，热点信息显示，舆情采集信息和话题活性图包括：热点分析起始时间，热点信息显示，舆情采集信息和话题活性图 4 存储记录存储记录存储一条记录时，程序首先通过存储一条记录时，程序首先通过 MD5 将网络爬虫提取的每一个字段值联合成将网络爬虫提取的每一个字段值联合成一个字符串进行加密，映射成一个字符串进行加密，映射成 32 位长的位长的 UDDI，作为此数据的标识。实现去重，作为此数据的标识。实现去重功能功能 MD5 去重复去重复 URL

5、： Message-Digest 是指字符串的是指字符串的 Hash 变换，即把一个任意长度的字符串变换成一变换，即把一个任意长度的字符串变换成一定长的大整数。定长的大整数。MD5 加密以加密以 512 位分组来处理输入的信息，且每一组又被划分位分组来处理输入的信息，且每一组又被划分为为 16 个个 32 为子分组，将这四个为子分组，将这四个 32 位分组级联后将生成一个位分组级联后将生成一个 128 位散列值。位散列值。 MD5 算法是一个不可逆的字符串变化算法。特性：算法是一个不可逆的字符串变化算法。特性： 1）任意两端明文书局加密以后的密文不含相同任意两端明文书局加密以后的密文不含相

6、同 2）任意一段明文数据经过加密后其具体结果必须永远是不变的任意一段明文数据经过加密后其具体结果必须永远是不变的三：热点事件发现三：热点事件发现 1 TDT 相关概念相关概念话题（话题（Topic），事件（，事件（Event），报道（，报道（Story），主题（，主题（Subject） TDT 也把包括一个核心事件以及所有与之关联的事件的总和称为话题。即话题也把包括一个核心事件以及所有与之关联的事件的总和称为话题。即话题就是关于某个事件的所有报道的集合。就是关于某个事件的所有报道的集合。报道：指描述某个事件的新闻片段。报道：指描述某个事件的新闻片段。话题：不是指一个大的主题，而

7、是一个具体的事件。话题：不是指一个大的主题，而是一个具体的事件。 2 话题检测与跟踪话题检测与跟踪分为五个子任务：分为五个子任务： 1）报道切分（）报道切分（Story Segmentation） 2）新事件检测（）新事件检测（New Event Detection） 3）关联检测（）关联检测（Link Detection） 4）话题检测（）话题检测（Topic Detection） 5）话题跟踪（）话题跟踪（Story Tracking）话题发现任务的本质是将输入的新闻报道流划入不同的话题类，并在需要话题发现任务的本质是将输入的新闻报道流划入不同的话题类，并在需要的时候建立新的话题类，

8、其过程等同于无指导的聚类过程，且属于一种增量聚的时候建立新的话题类，其过程等同于无指导的聚类过程，且属于一种增量聚类，一般可划分为两个阶段：新事件检测阶段和后续的新闻报道流中的报道划类，一般可划分为两个阶段：新事件检测阶段和后续的新闻报道流中的报道划入相应的话题类阶段。入相应的话题类阶段。 3 热点事件内容特征自动抽取热点事件内容特征自动抽取网络新闻中热点事件的发现及热点事件内容特征的自动抽取。主要包括：网络新闻中热点事件的发现及热点事件内容特征的自动抽取。主要包括： 1）Web 新闻网页的自动采集新闻网页的自动采集 2）网页正文的抽取及去噪网页正文的抽取及去噪 3）事件发现算法事件发现

9、算法 4）热点事件判别热点事件判别 5）对热点事件不同层面内容特征的自动抽取对热点事件不同层面内容特征的自动抽取事件发现算法：事件发现算法：第一层：采用凝聚聚类算法对每天的语料进行聚类，得到每天的微类。第一层：采用凝聚聚类算法对每天的语料进行聚类，得到每天的微类。第二层：采用第二层：采用 Single-Pass 聚类算法对用户选择的某一段事件内的所有天的微类，聚类算法对用户选择的某一段事件内的所有天的微类，按照微类间的时间顺序进行聚类得到事件列表。按照微类间的时间顺序进行聚类得到事件列表。 4 热点事件发现热点事件发现 1）网络新闻语料采集（爬虫）网络新闻语料采集（爬虫） 2）语料预处理

10、）语料预处理文档向量化是计算文档之间相似性的基础，每个文档文档向量化是计算文档之间相似性的基础，每个文档 d 表示成表示成 V(d) = (t1,w1(d);,ti,wi(d);,tn,wn(d)；其中；其中 ti 为特征向，为特征向，wi（d）为）为 ti 在在 d 中中的权值。的权值。文档分标题和正文两部分，也对命名实体进行加权。文档分标题和正文两部分，也对命名实体进行加权。特征向特征向 ti 权重的计算，改进权重的计算，改进 TF*IDF 方法：方法：相似度计算：相似度计算：计算相似度建立相似度矩阵：计算相似度建立相似度矩阵：余弦夹角公式：余弦夹角公式：加入时间衰减函数加入时间

11、衰减函数 T，描述如下：，描述如下：特征词权重：特征词权重：向量空间模型：向量空间模型：向量空间模型（向量空间模型（VSM）：）：热点发现及跟踪：热点发现及跟踪：网页信息预处理：网页信息预处理：文档的向量表示：文档的向量表示：度量事件热度：（时间单元为一周）度量事件热度：（时间单元为一周）主题文章的向量表示：主题文章的向量表示：四：事件发现与跟踪四：事件发现与跟踪五：热度，关注度等度量五：热度，关注度等度量度量事件热度的三个特征量：度量事件热度的三个特征量：话题关注度计算公式：话题关注度计算公式：六：算法实现：六：算法实现： K 均值算法：均值算法：KNN 算法：算法：单连通算法：单连通算法：Single-Pass 聚类算法：聚类算法：KNN 算法的算法的 K 值的选取：值的选取：改进的改进的 KNN 算法：算法：改进的改进的 Single-Pass 算法：算法：事件跟踪算法：事件跟踪算法：增量聚类算法流程：增量聚类算法流程：七：话题发展曲线七：话题发展曲线话题发展曲线：话题发展曲线：事件发展曲线图：事件发展曲线图：

展开阅读全文