word2vec分享

上传人:n**** 文档编号:45921954 上传时间:2018-06-20 格式:PDF 页数:34 大小:1.32MB
返回 下载 相关 举报
word2vec分享_第1页
第1页 / 共34页
word2vec分享_第2页
第2页 / 共34页
word2vec分享_第3页
第3页 / 共34页
word2vec分享_第4页
第4页 / 共34页
word2vec分享_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《word2vec分享》由会员分享,可在线阅读,更多相关《word2vec分享(34页珍藏版)》请在金锄头文库上搜索。

1、word2vecTylerwang 2015.4.30Word2vec是什么 word2vec是一个将单词转换成向量形式的工具。 通过转换,可以把对文本内容的处理简化为向量 空间中的向量运算,计算出向量空间上的相似度, 来表示文本语义上的相似度。词向量 把自然语言中的一个词表示成一个向量 One-hot Representation 例如: “话筒”表示为 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 . “麦克”表示为 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 . 存在两个问题 维数灾难 词汇鸿沟:任意两个词之间都是孤立的,不能体现词和词之 间的关系词

2、向量 Distributional Representation 将词表示为: 通过训练将每个词映射成K维实数向量,通过词之 间的距离(比如cosine相似度、欧氏距离等)来判 断它们之间的语义相似度。 具体表示为如0.792, 0.177, 0.107, 0.109, 0.542, .,常见维度几十到几百 可解决“词汇鸿沟”问题 可以通过计算向量之间的距离(欧式距离、余弦距 离等)来体现词与词的相似性 又叫Word Represention”或 Word Embedding霍夫曼树霍夫曼编码词频越高,编码的长度越短,从根节点到相应词的路径越短语言模型 判断一句话是不是正常人说出来的,用数学符

3、 号描述为 给定一个字符串“w1,w2,.,wt“,计算它是自然语言的 概率,一个很简单的推论是 例如,有个句子“大家,喜欢,吃,苹果“ P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家, 喜欢)p(苹果|大家,喜欢,吃) 简单表示为 计算问题),.,(21twwwp),.,|(.),|()|()(),.,(12121312121tttwwwwpwwwpwwpwpwwwp TiiiTContextwpwwwpsp121)|(),.,()()|(iiContextwp神经网络语言模型神经网络语言模型 输入是向量,也会被更新,每次查询C矩阵 论文中输入向量间用catenation

4、, word2vec 用sum 输入层和输出层之间构建一层传递关系, 可更快传导输入word的变化 可以选择双曲正切或者sigmoid神经网络语言模型 N: 词语window大小,当前词前后多少个词 D: 词向量维度 H: hidden layer节点数 V: 词汇表vocabulary大小 复杂度:N * D + N * D * H + N *D * V + H * V 第三第四项复杂度最高,word2vec去掉第 三项,优化第四项(用hs或者neg)word2vec原理 两种模型,两种加速策略模型模型CBOWSkip-Gram方法Hierarchical SoftmaxNegative S

5、amplingHierarchical SoftmaxNegative SamplingCBOW模型+Hierarchical Softmax方法 CBOW模型 INPUT:输入层 PROJECTION:投影层 OUTPUT:输出层 w(t):当前词语(向量) w(t-2),w(t-1),w(t+1),w(t+2): 当前词语的上下文 SUM:context的累加和CBOW模型+Hierarchical Softmax方法(续)CBOW模型+Hierarchical Softmax方法(续)非叶子结点 为LR分类器叶子结点对应 词典中的一个词目标:)|(iiContextwpCBOW模型+Hi

6、erarchical Softmax方法(续) 句子:我,喜欢,观看,巴西,足球,世界杯 w=足球)0或1编码(:w jd非叶子节点向量:w j二分类二分类正类):0负类,:1正负类(:w jd类别向量:w jCBOW模型+Hierarchical Softmax方法(续) 正类概率: 负类概率: “足球“ 叶子节点经过4次二分类, 每次分类结果对应的概率为 由Context(“足球“)预测“足球“出现的概率CBOW模型+Hierarchical Softmax方法(续) wljw jww jXdpwContextwp21),|()(|( 对于词典中的每个词w有,结点个数 其中, 或者表示为

7、对于由S个句子组成的语料库C有 取对数似然函数 . 1),(1; 0),(),|(11 1w jw jT xw jw jT xw jww jdXdXXdpw jw jdw jT wdw jT ww jww jXXXdp)(1 )(),|(11 11 Csswljw jww j Cssww XdpwContextwpXL21),|()(|(),()(1log()(log)1(),|(log),(log21121Csswljw jT ww jw jT ww jCsswljw jww jwwXdXdXdpXLwl参数1参数2CBOW模型+Hierarchical Softmax方法(续))(1log

8、()(log)1 (),(11w jT ww jw jT ww jXdXdjwfw j 1 梯度下降法进行求解 令 f(w,j)关于和的梯度分别为 更新公式 Xw是sum得来的,有人提出应均分梯度到 context,即wXww jT ww jw jXXdjwf )(1 ),( 1 1w jw jT ww j wXdXjwf 11)(1 ),( w jw jw jjwf111),(: wljwwContextwXjwfwVwV2)(,),()(: )(为什么建huffman树 遇到词频高的词语时更快到达叶子节点,提 高训练速度 复杂度从H*V变为H*log(V) 输出即概率,不需归一化,神经网络

9、语言模 型的输出需要softmax归一化Skip-gram + HSU和w可调换位置Negative sampling + CBOW 无严格理论证明,目的:提高训练速度并 且提高训练所得词向量的质量 做法:按词频随机负采样Negative sampling + CBOWNegative sampling + skip-gramword2vec实战(一) 训练数据集:经过分词后的新闻数据,大小 184MB 查看“中国“,“钓鱼岛“,“旅游“,“苹果“几个词语的相 似词语如下所示word2vec实战(二) 向量加减法 “中国+北京-日本“,“中国+北京-法国“,“家庭+孩子-学 校“word2ve

10、c应用(三) 机器翻译 语言词语的关系集合被表征为向量集合 向量空间内,不同语言享有许多共性 实现一个向量空间到另一个向量空间的映射和转换 图为英语和西班语的五个词在向量空间中的位置(已 经过降维) 对英语和西班语之间的翻译准确率高达90%word2vec应用(四) 给广告主推荐用户 T媒体网站保存了用户浏览网页的记录 pageH是匹克体育用品公司在T上的官网 page2,page3,page5和pageH是比较相似的页面 可给匹克体育用品公司推荐经常浏览page2,3,5这个几 个页面的用户进行广告投放page2page3page5pageHUserUser1 1UserUser2 2Use

11、rNUserN匹克体育用品匹克体育用品 公司公司.pageH广告投放广告投放用户浏览用户浏览相似页面相似页面UserUser1 1page1page2pageIUserUser2 2page1page3pageJUserNUserNpage2page5pageK.word2vec应用(四) 相似的页面计算过程UserUser1 1page1page2pageIUserUser2 2page1page3pageJUserNUserNpage2page5pageK.p1,p2,pi,.p1,p3,pj,.p2,p5,pk,.P1 (0.1,0.4,0.2).P2 (-0.3,0.7,0.8)pH

12、(0.3,-0.5,0.1).word2vec余弦距离余弦距离 欧式距离欧式距离 .pageH Page2 Page3 page5也可用于挖掘同好用户:将一簇簇相似的用户作为doc(譬如QQ群), 将单个用户作为word,我们则可以训练user distributed representation, 可以借此挖掘相似用户。Paragraph2vec 训练过程中新增了paragraph id,即训练语料中 每个句子都有一个唯一的id。paragraph id和普 通的word一样,也是先映射成一个向量。 paragraph vector与word vector的维数虽一样, 但是来自于两个不同的

13、向量空间。 对应于cbow, 在计算里,paragraph vector和 word vector累加或者连接起来,作为输出层 softmax的输入。在一个句子或者文档的训练过 程中,paragraph id保持不变,共享着同一个 paragraph vector,相当于每次在预测单词的概 率时,都利用了整个句子的语义。Paragraph2vec 对应于skip-gram, Paragraph2vec 在预测阶段,给待预测的句子新分配一个 paragraph id,词向量和输出层softmax的参数 保持训练阶段得到的参数不变,重新利用梯度下 降训练待预测的句子。待收敛后,即得到待预测 句子的

14、paragraph vector。Paragraph2vec参考文献1 http:/ 深度学习word2vec笔记之算法篇 2 http:/ word2vec 中的数学原理详解(四)基于 Hierarchical Softmax 的模型 3 http:/ 杨超在知乎上的问答 Word2Vec的一些理解 4 http:/ hisen博客的博文 5 http:/ 深度学习word2vec笔记之应用篇 6 http:/ Deep Learning实战之word2vec,网易有道的pdf 7 http:/ word2vec源码解析之word2vec.c 8 Hierarchical probabilistic neural network language model. Frederic Morin and Yoshua Bengio. 9 Distributed Representat

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号