基于词向量的规范词与非规范词关系挖掘-计算机技术硕士专业学位论文

资源描述

《基于词向量的规范词与非规范词关系挖掘-计算机技术硕士专业学位论文》由会员分享，可在线阅读，更多相关《基于词向量的规范词与非规范词关系挖掘-计算机技术硕士专业学位论文（64页珍藏版）》请在金锄头文库上搜索。

1、分类号密级U D C编号10486硕硕士士专专业业学学位位论论文文基于词向量的规范词与非规范词关系挖掘研究生姓名：xxx 学号：xxx指导教师姓名、职称：xxx 教授专业类别（领域）：计算机技术二一六年五月Mining Relation between Formal and Informal Words based on Word EmbeddingName ：xxStudent ID ：xxxDirector ：Prof. xxxxMajor ：Computer TechniqueMay, 2016论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下，独立

2、进行研究工作所取得的研究成果。除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本声明的法律结果由本人承担。学位论文作者（签名）：年月日基于词向量的规范词与非规范词关系挖掘I摘要随着社交网络的快速发展，用户每天在互联网上产生了大规模的数据，这些数据无疑蕴含着极大的价值，比如可以基于这些数据做用户推荐、用户情感分析以及大数据预测疾病等等。然而在应用自然语言处理相关算法对这些数据进行处理的时候，经常会遇到一个问题，即未登录词问题(Out-of-Vocabulary)。未登录词问题对诸多自然语言处理

3、算法都有不利的影响，比如机器翻译、情感分析等。非规范词语是属于未登录词中的一种，如果能够将非规范词语进行规范化，无疑会大大提高自然语言处理相关算法的性能和效果。一般意义上，非规范词是规范词的不规则的形式，一个非规范词一般对应一个规范词且两者具有相同的语义。基于以上的认识，本文提出了一种基于多语义词向量的规范词与非规范词挖掘模型，该模型分为三个部分，分别为多语义词向量模型的训练、基于规则的候选词对过滤以及基于支持向量机的分类算法。其中，多语义词向量模型的目的是学习出词语的多个语义表达，比如“稀饭”可以学习出两个语义表达，一种是常规的食物“稀饭”，另一种则对应为“喜欢”的非规范表达。训练的结果将具

4、有相同语义的词语聚在同一个类别中，由于聚类的结果中包含大量的噪声数据，因此又设计了基于规则的过滤器对词对进行过滤，得到候选的词对，最后再使用支持向量机算法对候选词对进行分类处理，得到最终的规范词与非规范词词对。本实验将使用两种方式来评估实验结果。一种是直接通过人工标注数据来评估，另一种是将实验产生的规范词与非规范词词对应用于具体的文本规范化任务中，实验结果表明不论是哪一种评估方式，通过本实验产生的规范词与非规范词词对都取得了很好的实验效果。关键词：多语义，词向量，规范词，非规范词，未登录词武汉大学硕士学位论文AbstractWith the rapid development of socia

5、l network, internet users produce large amount of data, which undoubtedly contains great value. For example, people can use these data to build a recommendation system, do emotional analysis or predict the diseases trends.However, when applied natural language processing algorithm to these data, peo

6、ple often encountered with a problem called Out-of-Vocabulary. The problem of Out-of-Vocabulary has an adverse effect on many natural language processing algorithm, such as machine translation, sentiment analysis and so on.Informal words is a kind of Out-of-Vocabulary, if we can convert informal wor

7、d to its formal format, it will certainly helpful for improving the result of natural language processing algorithm.In a general way, informal word is a variant of the formal word, an informal word often has a corresponding formal word and they show the same semantic.Based on the background describe

8、d above,this paper describe a system for mining relation between informal and formal pairs via multi-sense embedding learning.The system include three parts, includes multi-sense embedding learning, rule-based filter and SVM-based classification.The purpose of multi-sense embedding learning part is

9、to learn multi-sense for every word, for example, the Chinese word “稀饭”(porridge) will learn two semantic embedding, one for its regular meaning “porridge” and one for its irregular meaning “like”.The result of this part will generate many words clusters which have the same semantic meaning. After t

10、hat, we will use a rule-based filter to remove some pairs which obvious not the formal and informal pairs.Finally, we applied an classification algorithm to the candidates pairs, it will give us the final formal and informal pairs.We use two methods to assess the quality of the final formal and info

11、rmal pairs. On one hand, we manually labeled some formal and informal data to evaluate the quality of the pairs, on the other hand, we use our result as input to a text normalization system. As the result, either directly evaluation or applied those pairs to a specific task, our formal and informal

12、pairs both performing well.Keywords: multi-sense, word embedding, formal words, informal words, Out-of-Vocabulary基于词向量的规范词与非规范词关系挖掘目录摘要 IAbstractII1 绪论11.1 研究问题的背景.11.2 国内外研究现状及文件综述.11.3 研究的内容与方法.21.4 本文的组织结构.31.5 本章小结.42 相关工作52.1 词向量.52.2 语言模型.82.3 word2vec 模型.172.4 文本分类技术.212.5 本章小结.303 全局多词义词向量表

13、示模型313.1 多语义词向量模型背景.313.2 多语义 skip-gram 模型（MSSG）333.3 非参多语义 skip-gram 模型(NP-MSSG).363.4 基于位置的全局多语义词向量模型.373.5 本章小结.404 过滤与分类414.1 基于规则的词对过滤器设计.414.2 基于 SVM 的文本分类设计424.3 本章小结.445 实验455.1 数据处理及模型训练.455.2 直接评估法.495.3 间接评估法.505.4 本章小结.516 总结与展望52参考文献：53致谢56基于词向量的规范词与非规范词关系挖掘11 绪论1.1 研究问题的背景据中国互联网中心(CNNI

14、C)发布的第 37 次中国互联网网络发展状况统计报告显示，到 2015 年 12 月份为止，我国互联网网民的人数已经达到了 6.88 亿，仅 2015年一年就新增了接近 1000 万的网民0。如此大量的用户每天在社交网络上产生了大规模的多媒体数据，以微博为例，据微博 2015 年第四季度及全年报告显示，2015 年 12月微博的每日活跃的用户数和每月活跃的用户数分别达到了 1.06 亿和 2.36 亿0，以此估算，用户每天将会发送数以亿计的微博数据；这些用户实时产生的大量微博文本数据已经在诸多方面体现了其潜在的价值，比如使用微博文本做用户情感分析0、事件发现00以及疾病发现0等等；然后由于微博

15、自身的特性，用户直接产生的文本噪声非常大，其中就包括了很多不规范的网络用语，比如说，在微博中，经常使用“亚力山大”来表示“压力山大”，使用“为神马”来表示“为什么”等等。如果直接使用这些微博文本作为算法的输入，无疑会极大地影响到自然语言处理模型的性能00，比如机器翻译领域0、语音识别领域0等；为了减少对性能的影响，研究者也专门针对微博短文本调整了自然语言处理的工具；一种可以选择的方法是，对不规范的词语进行预处理，将其处理成标准的规范形式。比如说将“亚力山大”规范化为“压力山大”，将“为神马”规范化为“为什么”。对于依靠关键词匹配或者词频统计的应用来说，规范化方法尤其重要。比如说，“亚力山大”、

16、“鸭梨山大”、“压力山大”都有一个统一的规范词语“压力山大”，通过将这些不规范的词语规范化，基于关键词匹配或者词频统计的应用的性能将会有很大的提升。1.2 国内外研究现状及文件综述微博中出现的非规范词可以看做是未登录词(Out-of-Vocabulary)的一种特殊情况，将非规范词语进行规范化处理又被称为文本规范化；在文本规范化方面，前人做了很多相关的工作；在挖掘文本缩略词和规范词方面，Chang 和 Lai 等人0将中文缩略词的挖掘视作一个错误恢复问题，即将缩略词视为错误，使用方法将其恢复到规范化的词语上去，再此基础上，进一步提出了一个基于隐马尔科夫模型（Hidden Markov model,HMM）的发生模型(generation model)来识别缩略词以及将缩略词恢复成规范词。Chang 和 Teng 等人0也提出了一种基于隐马尔科夫模型的缩略词挖掘模型，使用该模武汉大学硕士学位论文2型可以挖掘出缩写词与其对应的全称；Yvon 等人0提出了一个针对法语 SMS 信息的规范化处理系统；该规

展开阅读全文