NLP技术的应用场景、技术实现和具体案例分析

上传人:豆浆 文档编号:24973387 上传时间:2017-12-10 格式:DOCX 页数:16 大小:360.86KB
返回 下载 相关 举报
NLP技术的应用场景、技术实现和具体案例分析_第1页
第1页 / 共16页
NLP技术的应用场景、技术实现和具体案例分析_第2页
第2页 / 共16页
NLP技术的应用场景、技术实现和具体案例分析_第3页
第3页 / 共16页
NLP技术的应用场景、技术实现和具体案例分析_第4页
第4页 / 共16页
NLP技术的应用场景、技术实现和具体案例分析_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《NLP技术的应用场景、技术实现和具体案例分析》由会员分享,可在线阅读,更多相关《NLP技术的应用场景、技术实现和具体案例分析(16页珍藏版)》请在金锄头文库上搜索。

1、NLP 技 术 的 应 用 场 景 、技 术 实 现 和 具 体 案 例 分 析针对 NLP 技术,大神们刚刚展开过比较激烈的讨论Yann Lecun 论战 Yova Goldberg,导火索是一篇“对抗式生成自然语言的论文”。NLP 大神 Yova Goldberg 认为该论文所生成的“自然语言”和真实语言相差太远,充满语法错误,随后他直接把战斗升级成语言学家大战计算机科学家:“摆脱你们这帮搞深度学习的人,别再抓着语言不放,并宣称自己已经解决好语言的问题了。”“语言对我来说很神圣。”对此,深度学习大神 Yann Lecun 自是有所不满:“这话竟然是出自 Yova 之口?他自己都在拿深度学习

2、来做 NLP 研究!”其实,深度学习已在很多领域都有应用,迟早会渗透到 NLP 的。这里我们不深究大神们谁对谁错,但从他们的争论中,我们至少能得出两点:首先是深度学习在很多方面得到了应用,事实上在 NLP 的各个领域,深度学习都有应用,其中比较成功的就有机器翻译。反过来,Yova Goldberg 的表述,在我们看来也是有道理的,现在就认定深度学习能解决各种各样的问题确实说得太满了,有一些自认为是人工智能专家的人,其实还远远达不到这一水准。我今天的主题是围绕 NLP 来展开的,其实它跟图像、语音这类智能感知领域不太一样,难点非常多,也是人类几千年的一些智慧或者文化的沉淀。我的分享分为三个部分,

3、主要是想介绍: NLP 在美团有哪一些应用场景 NLP 在美团点评应用了哪一些技术 重点是 NLP 在美团点评的一些案例我会选取几个比较典型的案例给大家详细介绍一下,最后就是简单的总结。NLP 在美团点评的应用场景第一个场景,其实是在美团点评的 APP 上面,每天都有非常大量的用户词。这个里面有一个文本,我们可以理解成是用户的一些需求,从中可以做块状分析,统一性分析等等。这对我们的搜索系统性能的提升有很大的帮助。还有一部分文本,是商家的标题及详情页里面很多东西:比如地址、菜品等等。这也是我们比较关心的文本方面的一些东西,我们可以对它的品类做一些很好的识别。第二个场景,大家应该看得出来,美团点评

4、有着非常巨大的 UGC 数据,就是用户对商家的评论。这个数据能带来什么?比如说我们可以索取 Tag,在用户做决策的时候提供信息帮助。还可以对评论做一些分类,大家现在看到的是比较优质的一些评论分类,事实上我们在后面做的时候,需要对分类做大量的工作,比如垃圾、黄反、优质等的识别。除此之外,还要对评论做一些情感分析,比如说评价是正向、负向还是中性的等等。另外,还有一部分是美团点评 APP 的一些新闻,比如标题的宣传、内容的理解、信息的抽取、POI 的识别,等等。还有很多工作,比如整篇文章的分类,是分成美食还是影视等类别,其实也要用到 NLP 技术。这几大类是大家能直观感受到的,其实还有非常多大家感受

5、不到的,例如客服规划的内容,其实也是 NLP 需要考虑的。还有就是 Crash 日志,以及后台商家需要用到 NLP 的技术。NLP 在美团点评的应用技术回头来看,刚才提到了 NLP 的一些使用场景,那 NLP 具体研究的是什么呢?“NLP(自然语言处理)可以定义为研究在人与人交际中以及在人与机器交际中的语言问题的一门学科。”人和机器交互比较好理解,比如说百度搜索、美团 APP 搜索,这就是人和机器通过搜索关键词进行交互,比如说对话系统,做一些问答或聊天,这个也指人与机器在语音上的交互。人和人交际可能不那么好理解,就是借助于机器设备来做人和人的交际。我说几个例子:比如说输入法,用户通过输入法输入

6、想要的东西,然后再反过来用输入法去做,这里面要用到非常多的 NLP 技术;还有你去国外旅游,可以用APP 实时翻译语音,然后跟外地人进行一次很好的沟通,这也是人和人之间的交流,会借助于设备,这就要用到很多 NLP 技术,这里可能比较抽象。下面我就列一下,我所接触到的 NLP 研究内容,其实还有很多我没接触到的。具体来说,是词法短语方面的分词、词性标注、命名实体识别、组块分析等,还有句法语义、篇章理解、系统应用等,这些都属于 NLP 研究的一些点。NLP 有一个特点,就是很多技术不容易成为技术或产品,比如知识图谱或信息检索。还有像对话、机器翻译这些,其实都是独立的 NLP 应用场景与系统。另外,

7、在语音识别合成、OCR 图片方面也会用到 NLP。在感知方面,语音图像要更深层的理解它里面的内容,其实都离不开语言的表述。所以,未来的趋势就是 NLP 会和这些语境越来越多地融合,也就是说它的应用场景会非常多。这些只是一些关键词,在美团,可能不需要把所有这些东西都研究一遍。接着,说一下我们在美团所做的事情,主要是分三块来做 NLP 的一些研究工作:最下层的 NLP 需要很多依赖,比如大量的标注数据,这是限制深度学习在 NLP领域发展的重要一点。因为这种 NLP 需要大量的数据,这个可能需要有一些人(专门)来做。还有机器学习的一些算法和深度学习的一些算法方向,我们技术研发在这做了一套深度学习的框

8、架。还会依赖于我们内部处理的一些平台,以及数据存储的一些基础,这是最基本的东西。再往上就是 NLP 的一些基础技术,分成四个维度:句法就是整个分析和句法的,语意在表示和匹配,篇章在文本分类方面做一些研究,这是一些基础的技术。其实 NLP 还和应用系统做一些专门的研发或者独立产品,比如说对话、翻译、图谱等等。NLP 支持的业务场景非常多,如搜索、推荐、广告、配送客服之类。上图标红的内容,我接下来会专门举例来讲,也就是我们做出来的案例,会具体到块状分析和评论分析、客服、语意表示和匹配的一些应用。NLP 在美团点评的应用案例我们就进入第三部分案例。先说一下 Query 分析。最下层词语,比如说搜索五

9、道口附近的钢铁侠 3,最上面就会做一些成分识别。成分是根据业务制订的一些标准体系,比如说五道口是一个地址的核心词,附近其实是地址的修饰词,钢铁侠 3 其实是店的核心词,店可以理解成商家的产品,比如说电影院里面某一个电影。再往下就是结构、主体和泛化可做的东西比较多,比如说做一些拓展,五道口可能有华联等等,这个现在是基于图谱来做的。其实,这个用处非常多,比如说举个例子,就是望京华联搜这个可能出不来结果,但如果做一个扩展之后就可以很顺利的找到它想要的一些结果。从图谱方面的一些东西可以很好的应用。从内容方面的话,比如说钢铁侠 3 有一些相似的电影等等,这个其实也是我们的一些泛化。再往上会对 Query

10、 做一些概念的识别,主要是电影。以 Query 意图识别做为例子。说一个 Query,我们对它的类别做一个判别,比如动物园门票就是旅游,全聚德和望京是美食。我们可以分成不同的类别,这些类别有美食、电影、酒店之类的,还有很多二三级的品类。说到这个场景之后,其实大家脑子里就可以想到这个事情怎么来做。Query 意图识别可以转换成机器学习多分类的问题。机器学习对一个问题有一套标准的流程,做过机器学习的都知道。首先要对问题做一个分析,要分哪一些类别,根据现状制定一个目标。现有数据的支持是否有一些标注的辞典、数据等等,根据这个再来整理数据,比如说如果标注数据不够怎么办,后面会做一些介绍。特征工程需要抽取

11、很多特征,特别是你要考虑到 O2O 的一些特点,需要做一些事情。特征做完之后再做模型方面的一些选择和分析,最后做一些线下的评估,然后在线上镶嵌看它的效果。这个流程是非常通用的。摘出几点,对其中不同的地方做一个介绍。首先就是训练样本怎么获取,这个其实比较难,第一种是人工标注,第二种就是自动标注。思路有几种,可以通过主动学习用模型学习,它的执行度是比较高的,有了它以后,区分比较低的再来标一下,这样标注的样本量就非常多。还有 Query 的思想其实也是来扩充执行度比较高的样本作为它的标注数据。第二个问题就是特征设计,我们会把 Query 的一些语义的特征,Query 扩充的一些信息也会融进来。说一下

12、不一样的,我们 Query 是有地域区分的,例如黄鹤楼,可能在北京搜更多的是一个酒店饭店;但如果在武汉搜的话,其实就是一个景点。模型尝试的话,(PPT 图示)右边就是精准化简单的图,中间两层还做了文本分类的模型。最后再说一下整体的流程。我们的分类目标就是定一些品类体系,用的话,可能就是在流量分发、统计到排序里面会用;现状有一些辞典的,解决思路其实就是想通过机器学习的方法来解决。数据准备刚才已经介绍了,特征工程也说了一下,最后用 DN 加很多点,在线上我们在旅游产品上线可以提升 5%的水平。案例 2,其实刚才说的美团点评有很重要的数据就是评论。评论可做的事情非常多,比如说下面是我们需要分析的一些

13、评论的数据,我们要做的一些图谱或者第三方数据抓取的一些数据。我们会对评论展开一些分析,比如说觉得电影不错,这个首先我们会对它做一个句子的切分做成一个短句,做成一个与各方面的区别。这个时候有一些区别对待,再来区别评论的主题,这个更多的在细密度的操作和对 Tag 方面的一些理解,包括 Tag 的抽取,Tag 的聚类一些东西。再往下就是整个评论,比如说刚才说的一些评论,评论区的一些聚合,重点就挑评论摘要的分成做一个介绍。在我们展示的商家里面,除了 Tag 之外,可以把用户评论里面的一些表述提取出来,辅助用户做一些决策。当然,这里面的话,不仅仅可以从评论数据来做,还可以从商家详情里面做一些表述,当然它

14、的难点的话,就是摘要生成会遇到一些问题,具体怎么做呢?简单说一下,就是大概分成几个流程:首先对评论做语句切片,在线上展示的时候会有一定限制的。接着做一些情感分析,比如说识别出它的一些正向的评论,因为一般情况下,不会把负向的放里面,选取有代表性的句子,这个事情已经在我们推进的产品上面。案例 3,语义匹配模型。其实这个是用户非常多的,只要涉及到文本之间的匹配都会遇到这个问题。比如说 Query 和 Query POI 的相似度,比如说搜的是草莓蛋糕,需要和商家的标题做一些匹配;有一些输入的前缀做一些匹配,还会做一些 Query 的推进,比如说烤肉,这个是可以做到搜索广告等排序系统里面的。这里分为四

15、个阶段。从我的理解角度,标准化就是把一个文档分成稀疏的向量算出它的一些权重,匹配通过向量空间得到一个分值,当然矩阵分解也很明显,比如说同意方面的信息表述比较少,而且它的维度非常大。如果把巨大的向量拼在一起就变成一个大矩阵,大矩阵我们是否能把这个维度降下来,然后再是引入语意方面的一些信息呢?实际上是可以的,把一个矩阵分成两个就可以得到它的一些解释,经典的是 1990 年左右做 LSA 方面的工作,存在一个问题就是同义词可以解决,但是多义词就没有办法了,而且得到矩阵的数值其实没有太多含义,范围比较大,这是在实际中不太好理解。在 2000 年左右的时候,我们把 LSA 引入了多义词的分类。比如说一个

16、文档有很多主题组成,假设这个组成是符合一个多样式的分布,主题会有很多词组成,这样就可以通过图模型能够得到生成一个模型,能够估计出这三者完整主题词之间的一个参数。这个其实也非常多,一直到 2014、2015 年的 PPT 这些都是相关的,只不过最近被深度学习赶超了。当然,做过研究的同学都知道,其实它的物理含义是比较明确的。有一个问题就是说它太粗糙了,你用在特征里面还是 OK;但是如果靠它来做判决的话,是有非常多的问题。因为这个是概率模型,其实首先是假设到底合不合适,还有参数如何来调。2013 年左右代码发出来之后,就引爆了媒体方面的应用。如果从语义角度来说还是不太够的,虽然它有一定语义的信息在里面,实际上学习的目标是语音模型。我们其实非常多的是匹配,匹配这个东西的话,就和任务有关。所以在2013 年,微软的团队做了一系列的模型,比如说 DSSM 的一些模型,通过点击的信息来学习点击的一些模型,就把这种表示和匹配结合一起来学,这样非常有针对性,效果非常好。我们这边也做了类

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号