深度学习之word2vec讲解

上传人:我** 文档编号:112806897 上传时间:2019-11-07 格式:PPT 页数:22 大小:1.73MB
返回 下载 相关 举报
深度学习之word2vec讲解_第1页
第1页 / 共22页
深度学习之word2vec讲解_第2页
第2页 / 共22页
深度学习之word2vec讲解_第3页
第3页 / 共22页
深度学习之word2vec讲解_第4页
第4页 / 共22页
深度学习之word2vec讲解_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《深度学习之word2vec讲解》由会员分享,可在线阅读,更多相关《深度学习之word2vec讲解(22页珍藏版)》请在金锄头文库上搜索。

1、深度学习之word2vec,学习、分享与交流 报告人:黄宇鹏,目录,基本概念 模型与方法 实战与应用,词向量,自然语言中的词语在机器学习中表示符号 One-hot Representation 例如: “话筒”表示为 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 . “麦克”表示为 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 . 实现时就可以用0,1,2,3,.来表示词语进行计算,这样“话筒”就为3,“麦克”为8. 存在两个问题 维度比较大,尤其是用于 Deep Learning 的一些算法时 词汇鸿沟:任意两个词之间都是孤立的,不能体现词和词之间的关系,

2、词向量,Distributional Representation 词表示为: 0.792, 0.177, 0.107, 0.109, 0.542, .,常见维度50或者100 解决“词汇鸿沟”问题 可以通过计算向量之间的距离(欧式距离、余弦距离等)来体现词与词的相似性 如何训练这样的词向量 没有直接的模型可训练得到 可通过训练语言模型的同时,得到词向量,语言模型,判断一句话是不是正常人说出来的,用数学符号描述为 给定一个字符串“w1,w2,.,wt“,计算它是自然语言的概率 ,一个很简单的推论是 例如,有个句子“大家,喜欢,吃,苹果“ P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p

3、(吃|大家,喜欢)p(苹果|大家,喜欢,吃) 简单表示为 计算 问题,语言模型,现有模型 N-gram模型 N-pos模型 . Bengio的NNLM C&W 的 SENNA M&H 的 HLBL Mikolov 的 RNNLM Huang 的语义强化 .,word2vec原理,两种模型,两种方法,CBOW模型+Hierarchical Softmax方法,CBOW模型 INPUT:输入层 PROJECTION:投影层 OUTPUT:输出层 w(t):当前词语(向量) w(t-2),w(t-1),w(t+1),w(t+2):当前词语的上下文 SUM:上下文的累加和,CBOW模型+Hierarc

4、hical Softmax方法(续),CBOW模型+Hierarchical Softmax方法(续),为什么建哈夫曼树?,非叶子结点 为LR分类器,叶子结点对应 词典中的一个词,目标:,CBOW模型+Hierarchical Softmax方法(续),句子:我,喜欢,观看,巴西,足球,世界杯 w=足球,CBOW模型+Hierarchical Softmax方法(续),正类概率: 负类概率: “足球“ 叶子节点经过4次二分类,每次分类结果对应的概率为 由Context(“足球“)预测“足球“出现的概率,CBOW模型+Hierarchical Softmax方法(续),对于词典中的每个词w有,

5、结点个数 其中, 或者表示为 对于由S个句子组成的语料库C有 取对数似然函数,参数1,参数2,CBOW模型+Hierarchical Softmax方法(续),梯度下降法进行求解 令 f(w,j)关于 和 的梯度分别为 更新公式,word2vec实战(一),训练数据集:经过分词后的新闻数据,大小184MB 查看“中国“,“钓鱼岛“,“旅游“,“苹果“几个词语的相似词语如下所示,word2vec实战(一),向量加减法 “中国+北京-日本“,“中国+北京-法国“,“家庭+孩子-学校“,word2vec应用(一),机器翻译 语言词语的关系集合被表征为向量集合 向量空间内,不同语言享有许多共性 实现一

6、个向量空间到另一个向量空间的映射和转换 图为英语和西班语的五个词在向量空间中的位置(已经过降维) 对英语和西班语之间的翻译准确率高达90%,word2vec应用(三),给广告主推荐用户 T媒体网站用户浏览网页的记录 pageH是匹克体育用品公司在T上的官网 page2,page3,page5和pageH是比较相似的页面 可给匹克体育用品公司推荐经常浏览page2,3,5这个几个页面的用户进行广告投放,word2vec应用(三),相似的页面计算过程,word2vec应用(三)续,对ctr预估模型的帮助 新广告上线存在冷启动问题 通过比较相似的广告的点击率来预估这个广告的点击率 由上个例子可得到每

7、个页面的向量,然后通过Kmeans进行聚类,得到比较相似页面的簇? 向页面向量添加其它的特征,例如广告主所属的行业和地域等 假设页面p1的向量是(0.3,-0.5,0.1),加入行业和地域信息后为(0.3,-0.5,0.1,1,0),1和0分别表示行业和地域的特征值 这样得到的聚类效果相对更好,参考文献,1 深度学习word2vec笔记之算法篇 2 word2vec 中的数学原理详解(四)基于 Hierarchical Softmax 的模型 3 杨超在知乎上的问答Word2Vec的一些理解 4 hisen博客的博文 5 深度学习word2vec笔记之应用篇 6 Deep Learning实战

8、之word2vec,网易有道的pdf 7 word2vec源码解析之word2vec.c 8 Hierarchical probabilistic neural network language model. Frederic Morin and Yoshua Bengio. 9 Distributed Representations of Words and Phrases and their Compositionality T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean. 10 A neural probabilist

9、ic language model Y. Bengio, R. Ducharme, P. Vincent. 11 Linguistic Regularities in Continuous Space Word Representations. Tomas Mikolov,Wen-tau Yih,Geoffrey Zweig. 12 Efficient Estimation of Word Representations in Vector Space. Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean. 13 Deep Learning in NLP (一)词向量和语言模型,thank you ! Q&A,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号