word2vec分享－金锄头文库

资源描述

《word2vec分享》由会员分享，可在线阅读，更多相关《word2vec分享（34页珍藏版）》请在金锄头文库上搜索。

1、word2vecTylerwang 2015.4.30Word2vec是什么 word2vec是一个将单词转换成向量形式的工具。通过转换，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。词向量把自然语言中的一个词表示成一个向量 One-hot Representation 例如： “话筒”表示为 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 . “麦克”表示为 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 . 存在两个问题维数灾难词汇鸿沟：任意两个词之间都是孤立的，不能体现词和词之间的关系词

2、向量 Distributional Representation 将词表示为：通过训练将每个词映射成K维实数向量，通过词之间的距离（比如cosine相似度、欧氏距离等）来判断它们之间的语义相似度。具体表示为如0.792, 0.177, 0.107, 0.109, 0.542, .，常见维度几十到几百可解决“词汇鸿沟”问题可以通过计算向量之间的距离（欧式距离、余弦距离等）来体现词与词的相似性又叫Word Represention”或 Word Embedding霍夫曼树霍夫曼编码词频越高，编码的长度越短，从根节点到相应词的路径越短语言模型判断一句话是不是正常人说出来的，用数学符

4、, word2vec 用sum 输入层和输出层之间构建一层传递关系，可更快传导输入word的变化可以选择双曲正切或者sigmoid神经网络语言模型 N: 词语window大小，当前词前后多少个词 D: 词向量维度 H: hidden layer节点数 V: 词汇表vocabulary大小复杂度：N * D + N * D * H + N *D * V + H * V 第三第四项复杂度最高，word2vec去掉第三项，优化第四项(用hs或者neg)word2vec原理两种模型，两种加速策略模型模型CBOWSkip-Gram方法Hierarchical SoftmaxNegative S

5、amplingHierarchical SoftmaxNegative SamplingCBOW模型+Hierarchical Softmax方法 CBOW模型 INPUT:输入层 PROJECTION:投影层 OUTPUT:输出层 w(t):当前词语（向量） w(t-2),w(t-1),w(t+1),w(t+2): 当前词语的上下文 SUM:context的累加和CBOW模型+Hierarchical Softmax方法（续）CBOW模型+Hierarchical Softmax方法（续）非叶子结点为LR分类器叶子结点对应词典中的一个词目标：)|(iiContextwpCBOW模型+Hi

6、erarchical Softmax方法（续）句子：我,喜欢,观看,巴西,足球,世界杯 w=足球）0或1编码（:w jd非叶子节点向量:w j二分类二分类正类）:0负类，:1正负类（:w jd类别向量:w jCBOW模型+Hierarchical Softmax方法（续）正类概率: 负类概率: “足球“ 叶子节点经过4次二分类，每次分类结果对应的概率为由Context(“足球“)预测“足球“出现的概率CBOW模型+Hierarchical Softmax方法（续） wljw jww jXdpwContextwp21),|()(|( 对于词典中的每个词w有，结点个数其中，或者表示为

7、对于由S个句子组成的语料库C有取对数似然函数 . 1),(1; 0),(),|(11 1w jw jT xw jw jT xw jww jdXdXXdpw jw jdw jT wdw jT ww jww jXXXdp)(1 )(),|(11 11 Csswljw jww j Cssww XdpwContextwpXL21),|()(|(),()(1log()(log)1(),|(log),(log21121Csswljw jT ww jw jT ww jCsswljw jww jwwXdXdXdpXLwl参数1参数2CBOW模型+Hierarchical Softmax方法（续）)(1log

8、()(log)1 (),(11w jT ww jw jT ww jXdXdjwfw j 1 梯度下降法进行求解令 f(w,j)关于和的梯度分别为更新公式 Xw是sum得来的，有人提出应均分梯度到 context，即wXww jT ww jw jXXdjwf )(1 ),( 1 1w jw jT ww j wXdXjwf 11)(1 ),( w jw jw jjwf111),(: wljwwContextwXjwfwVwV2)(,),()(: )(为什么建huffman树遇到词频高的词语时更快到达叶子节点，提高训练速度复杂度从H*V变为H*log（V）输出即概率，不需归一化，神经网络

9、语言模型的输出需要softmax归一化Skip-gram + HSU和w可调换位置Negative sampling + CBOW 无严格理论证明，目的：提高训练速度并且提高训练所得词向量的质量做法：按词频随机负采样Negative sampling + CBOWNegative sampling + skip-gramword2vec实战（一）训练数据集：经过分词后的新闻数据，大小 184MB 查看“中国“，“钓鱼岛“，“旅游“，“苹果“几个词语的相似词语如下所示word2vec实战（二）向量加减法 “中国+北京-日本“，“中国+北京-法国“，“家庭+孩子-学校“word2ve

10、c应用（三）机器翻译语言词语的关系集合被表征为向量集合向量空间内，不同语言享有许多共性实现一个向量空间到另一个向量空间的映射和转换图为英语和西班语的五个词在向量空间中的位置（已经过降维）对英语和西班语之间的翻译准确率高达90%word2vec应用（四）给广告主推荐用户 T媒体网站保存了用户浏览网页的记录 pageH是匹克体育用品公司在T上的官网 page2,page3,page5和pageH是比较相似的页面可给匹克体育用品公司推荐经常浏览page2,3,5这个几个页面的用户进行广告投放page2page3page5pageHUserUser1 1UserUser2 2Use

11、rNUserN匹克体育用品匹克体育用品公司公司.pageH广告投放广告投放用户浏览用户浏览相似页面相似页面UserUser1 1page1page2pageIUserUser2 2page1page3pageJUserNUserNpage2page5pageK.word2vec应用（四）相似的页面计算过程UserUser1 1page1page2pageIUserUser2 2page1page3pageJUserNUserNpage2page5pageK.p1,p2,pi,.p1,p3,pj,.p2,p5,pk,.P1 (0.1,0.4,0.2).P2 (-0.3,0.7,0.8)pH

12、(0.3,-0.5,0.1).word2vec余弦距离余弦距离欧式距离欧式距离 .pageH Page2 Page3 page5也可用于挖掘同好用户：将一簇簇相似的用户作为doc（譬如QQ群），将单个用户作为word，我们则可以训练user distributed representation，可以借此挖掘相似用户。Paragraph2vec 训练过程中新增了paragraph id，即训练语料中每个句子都有一个唯一的id。paragraph id和普通的word一样，也是先映射成一个向量。 paragraph vector与word vector的维数虽一样，但是来自于两个不同的

13、向量空间。对应于cbow, 在计算里，paragraph vector和 word vector累加或者连接起来，作为输出层 softmax的输入。在一个句子或者文档的训练过程中，paragraph id保持不变，共享着同一个 paragraph vector，相当于每次在预测单词的概率时，都利用了整个句子的语义。Paragraph2vec 对应于skip-gram, Paragraph2vec 在预测阶段，给待预测的句子新分配一个 paragraph id，词向量和输出层softmax的参数保持训练阶段得到的参数不变，重新利用梯度下降训练待预测的句子。待收敛后，即得到待预测句子的

14、paragraph vector。Paragraph2vec参考文献1 http:/ 深度学习word2vec笔记之算法篇 2 http:/ word2vec 中的数学原理详解（四）基于 Hierarchical Softmax 的模型 3 http:/ 杨超在知乎上的问答 Word2Vec的一些理解 4 http:/ hisen博客的博文 5 http:/ 深度学习word2vec笔记之应用篇 6 http:/ Deep Learning实战之word2vec，网易有道的pdf 7 http:/ word2vec源码解析之word2vec.c 8 Hierarchical probabilistic neural network language model. Frederic Morin and Yoshua Bengio. 9 Distributed Representat

展开阅读全文

word2vec分享

最新文档