基于词向量的新闻事件追踪和相关性推断研究开题报告

资源描述

《基于词向量的新闻事件追踪和相关性推断研究开题报告》由会员分享，可在线阅读，更多相关《基于词向量的新闻事件追踪和相关性推断研究开题报告（9页珍藏版）》请在金锄头文库上搜索。

1、学位论文开题报告专业：计算机应用技术论文题目：基于词向量的新闻事件追踪和相关性推断研究1 选题依据1.1选题的理论及实践意义随着互联网的发展，人们所能接收到包括新闻，微博等在内的信息量骤增，基于媒体数据的热点事件侦测显得尤为重要。热点事件是指人们现实生活中关注的重要信息，是某个事件发生在某个地点的一些不平凡的事情，比如，最近发生的比特币风波就是一个热点事件。多数互联网公司都在进行热点事件侦测的研究，例如百度，谷歌，搜狗，360等公司，由此可见基于新闻的热点事件侦测已成为当前互联网时代不可或缺的技术。而经过多年的研究，热点事件的侦测技术也趋于稳定和实用，反而如何进行事件的追踪和关系展现问题突

2、出出来。事件追踪指的是，当我们获取一个事件后，能在前后一段时间内对相关事件进行聚合，例如近半年发生的李天一系列事件，从现实角度出发，当人们点击一条热点事件后，必然会想要了解此事件的前后发展情况，此时需要精确的对相关事件进行话题追踪，另一方面，一系列的相关事件内也包含不同的分支主题，例如李天一系列事件，包含主线主题，年龄造假主题，父亲被气病等分支主题，结合时间，我们可以采用时间轴的方式对各个主题进行发展关系展现，这也是目前大多数互联网公司和国内外研究机构研究较少的方向，也是将来基于新闻的热点事件必须要突破的科研点之一。如今基于神经网络的深度学习技术在图像和视频领域取得了惊人的成绩，针对自然语言处

3、理和文本挖掘领域，一些科研机构和公司都开始进行研究，例如2013年下半年谷歌公司发表的一项研究表明，基于深度学习的词向量模型，获取了目前最好的精度。此处的词向量，区别于传统的词语向量模型，指的是把训练样本中的词汇转换成统一空间中固定长度的向量，这些词向量可以应用到很多领域，例如机器翻译等，均取得了目前精度最好的成绩，基于深度学习的词向量模型，利用了文本中词语的上下文信息，进而能表达一部分语义概念，例如给出关系对，再给出另外一个词语, 向量模型能给出,这个词汇。目前对于热点事件侦测，追踪，以及关系展现的模型本质上均属于词袋的方式，这种方式丢失了词语顺序和上下文之间的关系，针对于新闻，这却是非常关

4、键的信息，所以本文计划结合基于神经网络的词向量模型和传统的词袋模型进行热点事件的追踪和关系展现的研究，希望能结合词语上下文的信息提升相关事件追踪和关系展现的精度。从实践角度出发，基于新闻的热点事件侦测是大多数互联网公司必做的功能部分，每天都会有大量的用户浏览和点击，如果能在事件追踪和相关性推断方面做出研究突破，就能很好的服务于用户，为用户带来更好的阅读体验，从而带来实际的效益。2 国内外研究现状TDT(事件侦测和追踪)的相关工作开始于1998年，最早的工作基于K-Means 的变形 (Online Spherical K-means (OSKM) 1, 以及Single Linkage聚类算法

5、的变形 3 ，早期的工作大部分采用Bag-of-words 来代表文档，使用TF-IDF决定单词的权重，使用Cosine相似度计算两文档的相似度。事件侦测方面，基本思想为当一个新的文档到来，计算它和所有旧文档(类)的相似度，如果超过特定的阈值，则认为是一个旧的事件，如果低于阈值则为新事件，同时为了降低计算负责度和提升效率，使用时间窗口，例如和前N个文档比较等3。4 中提出对于某一特定事件的第一个事件侦测是困难的，也就是说，准确的侦测到新的事件的开始时困难， 4 中使用 3 中的方法，使用TDT2数据集得此结论。5 中针对此问题，提出了基于分类的FSD算法，首先划定N个Topic然后对新到来的新

6、闻分类，针对于不同的Topic会有不同的IDF集，并且 5 尝试提升Name Entity 词的权重，利用TDT的数据集，得出Location 对于新事件的侦测最重要，并且总体评估参数高于 3 。但是此方法的缺点是需要预先划定Topic ，并且利用已有的数据进行分类器的训练，从现实角度来看，显得不太实用。6 基于 3 的方法提出了增量的TF-IDF 维护算法，并且针对不同的新闻来源，分别建立不同的IDF数据集，因为相同的数据源，用词和造句风格相似。在相似度计算的时候，6 提出了如果相同来源的文档相似度应该减去其来源中相似度的均值，也就是说，同一来源的文档相似度比不同来源的文档的相似度高，减去同

7、来源的相似度均值来减小其影响。7 提出了基于概率的在线文档聚类算法，沿用 3 的聚类思想，当新来一个文档的时候，判断其与现有的类 (1, 2, 3m+1) 的判别概率，如果最大的概率超过阈值则属于旧类，否则属于新类。在计算判别概率的时候，基于贝叶斯，并假设文档的构成服从狄利克雷多项式分布。18 提出了一种侦测历史新闻事件的概率模型，其假设数据集中存在K个事件，把其作为隐含变量，使用EM算法来计算每个新闻属于某个事件的概率，但是此模型需要提前确定K的数值，这也是此模型的弱点之一，因为无法预知当前数据集包含多少个事件，并且也不适用于新闻的数据流特点。有一些研究者提出了基于LDA 主题模型的事件侦测

8、模型，17 提出了基于LDA 的事件展示模型，其首先利用LDA计算新闻文档的新闻属于主题的概率和词属于主题的概率，然后使用余弦相似度找到主题之间的关系，此算法的亮点是其找到了一种展示主题中各关键要素关系的形式，建立了人，机构，地点之间的关系网，并且他们之间的边可以用一些文字标签来表示。8 第一次提出TDT的Burst Feature，并在 9 中利用Burst Feature 来提升事件侦测的精度。后续相关工作有10，20等。11 利用Keywords 来构建词汇网络，利用两个词同时出现在一篇文档中作为条件，构建词语网络，通过中心度算法进行网络分割，从而把整个网络分割成几个小网络，每一个网络都

9、代表一个事件，用小网络中的词语代表此事件，并用文档跟其做相似度比较，超过阈值则划为同一类。进而进行事件的侦测。19 基于 8 的Burst Feature 思想建立了多维数据的事件侦测及时间搜索系统，其综合了文字，图片，视频，以及微博等数据源，利用余弦相似度算法进行长时间范围 (10 年) 的事件侦测，更好地展示了事件。但是其未探索事件发展以及事件发展之间的关系，并且从系统实际效果来看，固定阈值导致系统侦测的事件层级不明等缺点。20 提出了 8 结合时间的思想，同一Burst Feature 在不同的时间可能会代表不同的意思。22 提出了一种在线的LAD模型来侦测事件，其假设Topic k 在

10、T时刻的topic-word概率是由前M时刻该主题的概率线性组合而成，进而进行新时刻词语的概率计算，缺点是很难来学习线性权重，并且对于新出现的词语也不能计算相应的概率。28 提出了一种基于后验概率的事件侦测算法，并比较了非概率，概率等多种离线，在线方法，得出此模型在精确度和时间消耗上均优于其他方法。其他相关工作有基于Tweeter 的事件侦测有12 ，以及事件的可视化展示有13等工作。24 提出一种概率模型来构建离线数据的事件发展关系图，首先把数据集分割成固定的N个时间段，每段时间固定K个主题，一个主题包含多条新闻，然后假设每个时间段的文档生成概率由这K个主题和一个混合主题B (消岐) 组成，

11、主题作为隐含变量，使用EM最大化来估算每个主题的概率分布，获取主题以后使用KL散度来计算每个主题之间的关系，从而构建发展关系图，发展图如下图1。缺点是离线方法，而且模型中N和K的值都是固定的，不符合新闻在线事件发展的实际情况。图 1 事件发展关系图23 假定输入为事件的集合，例如王立军事件，然后利用TF-IDF 和 Cosine相似度来计算事件内两两之间的相似度，并且加入了时间因素，相距越远的事件，相似度越低，以两两两辆之间的相似度来构建事件发展图，缺点很明显，利用两两之间相似度来构建图，很难保证严格按照时间序列链接，并且对于阈值的确定，不同的事件可能有不同的阈值，对于先加入的事件，计算复杂度

12、也很高。2013年，Tomas Mikolov31等人，提出了如下两种神经网络，并使用Back-Propagation和梯度下降来训练，由此可以获取训练样本空间的各个单词的向量。图 2 CBOW模型图 3 Skip-Gram模型如上两图，图2展示的是CBOW网络结构，可以根据给出的词语上下文来猜测中间的词语，图3展示的是SKIP-GRAM模型，可以根据给出的词汇，推断上下相邻的词汇。两种模型，均采用随机初始化词向量模型，并使用随机梯度下降和反向传播算法来训练模型，最终获取到训练样本空间的词向量。基于如上模型训练的词向量，可以被应用于自然语言处理和机器学习领域的多个问题，例如33，利用词向量来提

13、升机器翻译的精度，本课题，计划结合词向量和传统的BOW模型来进行事件追踪和相关性推断研究。虽然基于新闻的事件侦测和追踪研究较早，但是结合词向量的相关研究仍处于刚开始阶段。3 研究方案3.1 主要研究内容本课题的研究内容主要包括如下几个方面：l 5W1H, Burst Feature抽取l 基于神经网络的词向量训练l 动态词向量模型构建l 结合词向量来进行事件追踪和相关性推断研究3.2 研究中所要突破的难题研究中可能出现并需要解决的难题如下：l 基于大量训练文本的词向量模型训练。目前基于神经网络的模型可训练的样本数有限，而新闻的特点是，每天均会产生非常多的文本，经过长时间的积累，可能会有T级别的

14、训练样本，如何在有限的时间范围内，高效的对训练样本进行训练是本课题的一个重要难点。l 如何有效的结合词向量和传统的bag-of-words模型进行热点事件的侦测和追踪也是本课题的难点。基于词向量，可以设计算法来生成固定长度的文档向量，也可以针对两篇文档进行词语之间相似度的计算，然后作为一个特征，加入到现有的bag-of-words模型中来。具体哪一种算法会得倒最优的效果，还需要进一步实验验证。l 现有的基于神经网络的词向量模型均采用离线数据，而新闻的特点是，实时会有新数据产生，所以本课题的另一个要突破的难题是，如何设计实现基于新闻数据流的词向量模型，另一方面，也需要提升模型的训练速度。l 目前

15、，针对新闻事件的相关性研究较少，现有的研究大多利用文本之间的相似度来代替相关性，由于基于神经网络的词向量模型体现了部分词语之间的语义关系，所以本课题计划结合词向量来提升事件间相关性的精确度，但是如何在保证计算效率的前提下实施是本课题的难点。3.3 研究方案设计1) 5W1H, Burst Feature抽取本课题中，计划实现的现有的新闻五要素抽取法，再结合现有的数据进行算法改进，Burst Feature抽取采用21中所提到的侦测方法，本质是基于时间和关键词文档频率的侦测算法，然后根据效果再做调整。2) 词向量训练算法采用31提出的两种神经网络模型(CBOW, Skip-Gram)来进行词向量模型训练，输入的训练预料为已经积累的约一年的新闻数据。另一方面，由于新闻中，关键词间往往夹杂了许多无关紧要的附带词汇，所以我们需要在31的模型基础上，挑选关键词，结合第一步的五要素和Burst Feature来进行句子重组和，进而提升相关词之间的联系紧密度。3) 词向量模型的动态算法新闻数据的特点是实时增加的数据流，31中提出的词向量模型使用离线数据进行训练，所以我们需要设计能动态更新的词向量模型，初步的解决方案为，动态调整使用离线数据建立好的哈夫曼树，并且把已经训练好的词向量载入内存，当有新的数据到来时，使用已有的词向量进行训练，并更新权

展开阅读全文

基于词向量的新闻事件追踪和相关性推断研究开题报告

最新文档