题库NLP精华面试专题介绍及解析--第1期

资源描述

《题库NLP精华面试专题介绍及解析--第1期》由会员分享，可在线阅读，更多相关《题库NLP精华面试专题介绍及解析--第1期（7页珍藏版）》请在金锄头文库上搜索。

1、NLP 主要研究方向有哪些？1.信息抽取：从给定文本中抽取重要的信息，比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来，就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。2.文本生成：机器像人一样使用自然语言进行表达和写作。依据输入的不同，文本生成技术主要包括数据到文本生成和文本到文本生成。数据到文本生成是指将包含键值对的数据转化为自然语言文本；文本到文本生成对输入文本进行转化和处理从而产生新的文本。3.问答系统：对一个自然语言表达的问题，由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析，包括实体链接、关系识别，形成逻辑表

2、达式，然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。4.对话系统：系统通过一系列的对话，跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外，为了体现上下文相关，要具备多轮对话能力。5.文本挖掘：包括文本聚类、分类、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。6.语音识别和生成：语音识别是将输入计算机的语音符号识别转换成书面语表示。语音生成又称文语转换、语音合成，它是指将书面文本自动转换成对应的语音表征。7.信息过滤：通过计算机系统自动识别和过滤符合特定条件的文档信息。通常

3、指网络有害信息的自动识别和过滤，主要用于信息安全和防护，网络内容管理等。8.舆情分析：是指收集和处理海量信息，自动化地对网络舆情进行分析，以实现及时应对网络舆情的目的。9.信息检索：对大规模的文档进行索引。可简单对文档中的词汇，赋之以不同的权重来建立索引，也可建立更加深层的索引。在查询的时候，对输入的查询表达式比如一个检索词或者一个句子进行分析，然后在索引里面查找匹配的候选文档，再根据一个排序机制把候选文档排序，最后输出排序得分最高的文档。10.机器翻译：把输入的源语言文本通过自动翻译获得另外一种语言的文本。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法，再到今天的基于神经网络（编码

4、 - 解码）的方法，逐渐形成了一套比较严谨的方法体系。有哪些文本表示模型，它们各有什么优缺点？(1) 词袋模型最基本的文本表示模型。将每篇文章看成一袋子词，并忽略每个词出现的顺序。每篇文章对应表示成一个长向量，向量中每一维代表一个单词。权值常用 TF-IDF 计算(2)N-Grams将连续的 N 个词组成的词组，作为一个单独的特征放到向量表示中去。(3) 主题模型用于从文本库中发现有代表性的主题（得到每个主题上的词的分布特性）, 并且能够计算出每篇文章的主题分布。(4) 词嵌入与深度学习模型词嵌入是一类将词向量化的模型的统称，核心思想是将每个单词都映射成地位空间上的一个稠密向量。低维空间上的每

5、一个单词也可以看做是一个隐含的主题，只不过不像主题模型中那么明显。对有 N 个单词的文档，词嵌入用 K 维向量映射单词，可以得到一个 N*K 的矩阵来表示这篇文档。但是还需要抽象出更高层的特征，通常使用深度学习来得到更高维的特征。离散表示存在的问题？对于一般的 NLP 问题，是可以使用离散表示文本信息来解决问题的，但对于要求精度较高的场景就不适合了。无法衡量词向量之间的关系。词表的维度随着语料库的增长而膨胀。n-gram 词序列随语料库增长呈指数型膨胀，更加快。离散数据来表示文本会带来数据稀疏问题，导致丢失了信息，与我们生活中理解的信息是不一样的。Word2vec 与 LDA 有什么区别和联系

6、？首先，LDA 是按照文档中单词的共现关系来对单词按照主题聚类，也可以理解为对 “文档 - 单词” 矩阵进行分解，得到 “文档 - 主题” 和 “主题 - 单词” 两个概率分布。而 word2vec 实际上是对 “上下文 - 单词” 矩阵进行学习，其中上下文由周围几个单词组成，由此学到的词向量更多融入了上下文特征。主题模型和词嵌入两类方法最大的不同在于模型本身。主题模型是一种基于概率图模型的生成式模型。其似然函数可以写为若干条件概率连乘的形式，其中包含需要推测的隐含变量 (即主题)词嵌入模型一般表示为神经网络的形式，似然函数定义在网络的输出之上。需要学习网络的权重来得到单词的稠密向量表示。处理

7、文本数据时，RNN 比 CNN 有什么特点？传统文本处理任务的方法一般将 TF-IDF 向量作为特征输入，这样实际上丢失了输入的文本系列中每个单词的顺序。CNN 一般会接收一个定长的向量作为输入，然后通过滑动窗口加池化的方法将原来的输入转换为一个固定长度的向量表示。这样做可以捕捉到文本中的一些局部特征，但是两个单词之间的长距离依赖关系难以学习。RNN 能够很好处理文本数据变长并且有序的输入序列。将前面阅读到的有用信息编码到状态变量中去，从而拥有了一定的记忆能力。常见的概率图模型中，哪些是生成式模型，哪些是判别式模型？首先需要弄清楚生成式模型与判别式模型的区别。假设可观测的变量集合为 X，需要预

8、测的变量集合为 Y，其他的变量集合为 Z。生成式模式是对联合概率分布P(X,Y,Z)进行建模，在给定观测集合 X 的条件下，通过计算边缘分布来求得对变量集合 Y 的推断。判别式模型是直接对条件概率分布P(Y,ZX)进行建模，然后消掉无关变量 Z 就可以得到对变量集合 Y 的预测，即P(YX)=ZP(Y,ZX)常见的概率图模型由朴素贝叶斯、最大熵模型、贝叶斯网络、隐马尔可夫模型、条件随机场、pLSA、LDA 等。其中朴素贝叶斯、贝叶斯网络、pLSA、LDA 属于生成式。最大熵模型属于判别式。隐马尔可夫模型、条件随机场是对序列数据进行建模的方法，其中隐马尔可夫属于生成式，条件随机场属于判别式。LR

9、和 SVM 的联系与区别？联系：1、LR 和 SVM 都可以处理分类问题，且一般都用于处理线性二分类问题（在改进的情况下可以处理多分类问题）2、两个方法都可以增加不同的正则化项，如 L1、L2 等等。所以在很多实验中，两种算法的结果是很接近的。区别：1、LR 是参数模型，SVM 是非参数模型。2、从目标函数来看，区别在于逻辑回归采用的是 Logistical Loss，SVM 采用的是 hinge loss. 这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。3、SVM 的处理方法是只考虑 Support Vectors，也就是和分类最相关的少数点，

10、去学习分类器。而逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。4、逻辑回归相对来说模型更简单，好理解，特别是大规模线性分类时比较方便。而 SVM 的理解和优化相对来说复杂一些，SVM 转化为对偶问题后，分类只需要计算与少数几个支持向量的距离，这个在进行复杂核函数计算时优势很明显，能够大大简化模型和计算。5、Logic 能做的 SVM 能做，但可能在准确率上有问题，SVM 能做的 Logic 有的做不了。LR 与线性回归的区别与联系？个人感觉逻辑回归和线性回归首先都是广义的线性回归，其次经典线性模型的优化目标函数是最小二乘，而逻辑回归则是似然函

11、数，另外线性回归在整个实数域范围内进行预测，敏感度一致，而分类范围，需要在 0,1。逻辑回归就是一种减小预测范围，将预测值限定为 0,1 间的一种回归模型，因而对于这类问题来说，逻辑回归的鲁棒性比线性回归的要好。逻辑回归的模型本质上是一个线性回归模型，逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到 sigmoid 的非线性形式，sigmoid 可以轻松处理 0/1 分类问题。L1 和 L2 正则先验分别服从什么分布？L1是拉普拉斯分布，L2是高斯分布先验就是优化的起跑线，有先验的好处就是可以在较小的数据集中有良好的泛化性能，当然这是在先验分布是接近真实分布的情况下得到的了，从信息论的角度看，向系统加入了正确先验这个信息，肯定会提高系统的性能。详细细节可参考：https:/ 等你来答 -1、简述数据库以及线程死锁产生的原理及必要条件，简述如何避免死锁？2、请列举面向对象设计的三个基本要素及五种主要设计原则？3、多线程如何同步？4、new 和 malloc 的区别？5、hash 冲突及解决办法？

展开阅读全文

题库NLP精华面试专题介绍及解析--第1期

最新文档