自然语言处理技术分享1

资源描述

《自然语言处理技术分享1》由会员分享，可在线阅读，更多相关《自然语言处理技术分享1（8页珍藏版）》请在金锄头文库上搜索。

1、内容大概分为：自然语言处理的简介、关键技术、流程及应用。首先，介绍一下什么是自然语言处理（也叫自然语言理解）：语言学家刘涌泉在大百科全书（2002）中对自然语言处理的定义为：“自然语言处理是人工智能领域的主要内容，即利用电子计算机等工具对人类所特有的语言信息（包括口语信息和文字信息）进行各种加工，并建立各种类型的人-机-人系统，自然语言理解是其核心，其中包括语音和语符的自动识别以及语音的自动合成。”从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看,自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括：回答有关提问；计算机正确地回答用自然语

2、言输入的有关问题提取材料摘要；机器能产生输入文本的摘要同词语叙述；机器能用不同的词语和句型来复述输入的自然语言信息不同语言翻译。机器能把一种语言翻译成另外一种语言自然语言处理的关键技术自然语言处理的关键技术包括：词法分析、句法分析、语义分析、语用分析和语句分析。1 词法分析词法分析的主要目的是从句子中切分出单词，找出词汇的各个词素，并确定其词义。词法分析包括词形和词汇两个方面。一般来讲，词形主要表现在对单词的前缀、后缀等的分析，而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中，词法分析主要表现在对汉语信息进行词语切分，即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信

3、息的特征，从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。不同的语言对词法分析有不同的要求，例如英语和汉语就有较大的差距汉语中的每个字就是一个词素，所以要找出各个词素是相当容易的，但要切分出各个词就非常难。如”我们研究所有东西“，可以是“我们研究所有东西”也可是“我们研究所有东西” 。英语等语言的单词之间是用空格自然分开的，很容易切分一个单词，因而很方便找出句子的每个词汇，不过英语单词有词性、数、时态、派生、变形等变化，因而要找出各个词素就复杂得多，需要对词尾和词头进行分析。如uncomfortable可以是un-comfort-able或uncomfort-able，因为un、c

4、omfort、able都是词素。2句法分析句法分析是对用户输入的自然语言进行词汇短语的分析，目的是识别句子的句法结构，实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。这种层次结构可以是从属关系、直接成分关系,也可以是语法功能关系。句法分析是由专门设计的分析器进行的，其分析过程就是构造句法树的过程，将每个输入的合法语句转换为一棵句法分析树。一个句子是由各种不同的句子成分组成的。这些成分可以是单词、词组或从句。句子成分还可以按其作用分为主语、谓语、宾语

5、、宾语补语、定语、状语、表语等。这种关系可用一棵树来表示，如对句子： He wrote a book.可用图示的树形结构来表示。3语义分析语义分析是基于自然语言语义信息的一种分析方法，其不仅仅是词法分析和句法分析这样语法水平上的分析，而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的，灵活、明确、简洁的表达方式。其实就是要识别一句话所表达的实际意义。比如弄清楚“干什么了”，“谁干的”，“这个行为的原因和结果是什么”以及“这个行为发生的时间、地点及其所用的工具或方法”等。4语用分析语用分析

6、相对于语义分析又增加了对上下文、语言背景、环境等的分析，从文章的结构中提取到意象、人际关系等的附加信息，是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联，从而形成动态的表意结构。5语境分析语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识，特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来，补充完善了词法、语义、语用分析的不足。自然语言处理工具：OpenNLPOpenNLP是一个基于Java机器学习工具包，用于处理自然语言文本。支持大多数常用的 NLP 任务，例如：标识化、

7、句子切分、部分词性标注、名称抽取、组块、解析等。FudanNLPFudanNLP主要是为中文自然语言处理而开发的工具包，也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证。开发语言为Java。功能：1. 文本分类、新闻聚类2. 中文分词、词性标注、实体识别、关键词抽取、依存句法分析、时间短语识别3. 结构化学习、在线学习、层次分类、聚类、精确推理。自然语言处理流程：2.1获取原始文本22对文本进行预处理2.2.1文本编码格式2.2.2文本模式匹配2.2.3规范化文本2.3分词文本中起到关键作用的是一些词，甚至主要词就能起到决定文本取向。中文分词，出现了很

8、多分词的算法，有最大匹配法、最优匹配法、机械匹配法、逆向匹配法、双向匹配法等。中科院张华平博士研发的分词工具ICTCLAS，该算法经过众多科学家的认定是当今中文分词中最好的，并且支持用户自定义词典，加入词典；对新词，人名，地名等的发现也具有良好的效果Jieba分词工具：支持繁体分词；支持自定义词典常见的分词工具有：word分词器、Ansj分词器、Stanford分词器、FudanNLP分词器、Jieba分词器、Jcseg分词器、MMSeg4j分词器、IKAnalyzer分词器、Paoding分词器、smartcn分词器、HanLP分词器等。2.4去除停顿词在信息检索中，为节省存储空间和提高搜索

9、效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。比如：的、有、得、了等这些词。2.5 特征选择在文本处理建模的预处理过程中,我们得到文本特征维度常常非常大,要得到一个好的模型，需要做两个工作:1、降维。模型的维度常常很大,这会加大模型的运行成本,并且不利于研究人员理解模型。2、去燥。维度很大时,特征之间会相互依赖,甚至很多特征对模型分类是有干扰作用的，去除这一部分特征将对模型有提升作用。特征选择和特征抽取都能完成上面的工作。在文本处理中常采用特征选择而非特征抽取, 原因是特征选择保持了特征原来的面貌,有利于挖掘人员理解模型。

10、在文本处理中常见的特征选择方法有：文档频率(TF-IDF) 词频(TF)即为词在一篇文档中出现的频率。其中T Ft,d表示词t在第d个文档的词频,nt表示词t在文档d出现的次数,Nd表示文档d 中词的总数。逆向文档频率(IDF)值衡量词在某个文档中是否有代表性,其计算公式：其中IDFt是词t的逆向文档频率,D是语料集的总文档数,Dt是包含t的文档数量,加 1是做平滑处理。注意到TF-IDF是和标签无关的,这意味着计算过程是无监督的，由于TF-IDF无监督的特征，常常被用来表示文档向量空间模型的向量，从而能够运用于文档的相似度计算和关键词提取等。信息增益(Information Gain)信息

11、增益是信息论中很重要的一个概念。在特征选择中，该方法主要是通过评估词项能够给分类带来多少的信息量，带来的信息量越大，说明该词项越重要。信息量，也就是熵。对于一个变量X，它可能的取值有n多种，分别是x1 ,x2 ,.,xn ，每一种取到的概率分别是p1 ,p2 ,.,pn ，那么X的熵就定义为：互信息(Mutual Information)互信息是信息论中又一重要的概率，在文本处理中用来说明词t对于类别c的贡献程度，互信息越大则贡献程度越大。互信息计算是类别c关于t后验概率与先验概率的比值的 log。2.6利用算法进行挖掘我们能够利用各种算法进行挖掘，可以对文本、新闻等进行分类、聚类，可以利用K

12、NN算法，朴素贝叶斯算法、决策树算法、神经网络法、线性最小二乘法、K-Means算法、余弦相似度等算法。自然语言处理的应用：自然语言处理的范围涉及众多方面，如语音的自动识别与合成，机器翻译，自然语言理解，人机对话，信息检索，文本分类，自动文摘，等等。这些大致可以归纳为如下四个大的方向：(1）语言学方向.它只研究语言及语言处理与计算相关的方面，而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。（2）数据处理方向。是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发，近些年来则有大规

13、模的语料库的涌现。（3）人工智能和认知科学方向。在这个方向，自然语言处理被作为在计算机上实现自然语言能力的学科来研究，探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。（4）语言工程方向。主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究，这一方向的研究一般称为“人类语言技术”或者“语言工程”。自然语言处理常用模型：1 N元模型该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。2 马尔可夫模型以及隐马尔可夫模型马尔可夫模

14、型实际上是个有限状态机，两两状态间有转移概率；隐马尔可夫模型中状态不可见，我们只能看到输出序列，也就是每次状态转移会抛出个观测值；当我们观察到观测序列后，要找到最佳的状态序列。3 支持向量机模型支持向量机的目标就是要根据结构风险最小化原理,构造一个目标函数将两类模式尽可能地区分开来,通常分为两类情况来讨论,：(1)线性可分；(2)线性不可分。4 条件随机场模型条件随机场(CRFs)是一种基于统计的序列标记识别模型，由JohnLafferty等人在2001年首次提出。它是一种无向图模型，对于指定的节点输入值，它能够计算指定的节点输出值上的条件概率，其训练目标是使得条件概率最大化。CRFs具有很强

15、的推理能力，能够充分地利用上下文信息作为特征，还可以任意地添加其他外部特征，使得模型能够获取的信息非常丰富。CRFs通过仅使用一个指数模型作为在给定观测序列条件下整个标记序列的联合概率，使得该模型中不同状态下的不同特征权值可以彼此交替，从而有效地解决了其他非生成有向图模型所产生的标注偏置的问题。这些特点，使得CRFs从理论上讲，非常适合中文词性标注。5 最大熵模型最大熵原理原本是热力学中一个非常重要的原理，后来被广泛应用于自然语言处理方面。其基本原理很简单：对所有的已知事实建模，对未知不做任何假设。也就是建模时选择这样一个统计概率模型，在满足约束的模型中选择熵最大的概率模型。若将词性标注或者其他自然语言处理任务看作一个随机过程，最大熵模型就是从所有符合条件的分布中，选择最均匀的分布，此时熵值最大。条件随机场，隐马模型，最大熵隐马模型这三个模型都可以用来做序列标注模型。

展开阅读全文