干货：深度学习word2vec笔记之应用篇.docx

资源描述

《干货：深度学习word2vec笔记之应用篇.docx》由会员分享，可在线阅读，更多相关《干货：深度学习word2vec笔记之应用篇.docx（88页珍藏版）》请在金锄头文库上搜索。

1、深度学习word2vec笔记之应用篇2014年8月17日Deep Learning,nlpword2vecsmallroof声明：1）该博文是Google专家以及多位博主所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2）本文仅供学术交流，非商用。所以每一部分具体的参考资料并没有详细对应，更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益，还望海涵，并联系老衲删除或修改，直到相关人士满意为止。3）本人才疏学浅，整理总结的时候难免出错，还望各位前辈不吝指正，谢谢。4）阅读本文需要机器学习、概率统计算法等等基础（如果没有也没关系了，没有就

2、看看，当做跟同学们吹牛的本钱），基础篇url：http:/ a1,a2,a3U2 a2,a3,a5,U3 a1,a3,a6,其中u1，u2，u3表示不同的用户，后面的一串表示这些用户的浏览记录，如U1 a1,a2,a3表示用户u1先浏览了页面a1，再浏览a2，然后浏览了a3,这些数据还不符合word2vec的输入数据格式，把第一列去掉，变成下面的样子a1,a2,a3a2,a3,a5,a1,a3,a6,这些数据就可以作为word2vec的输入数据了。就把这些数据作为word2vec的训练数据，词向量维度为3，进行训练，完成后得到下面的输出A1 (0.3,-0.5,0.1)A2 (0.1,0.4,

3、0.2)A3 (-0.3,0.7,0.8)An (0.7,-0.1,0.3)就得到了每个页面的向量。这些向量有啥意义呢？其实单个向量的意义不大，只是用这些向量可以计算一个东西距离，这个距离是页面之间的距离，如页面a1和a2可以用欧式距离或者cos距离计算公式来计算一个距离，这个距离是有意义的，表示的是两个网页在用户浏览的过程中的相似程度（也可以认为是这两个页面的距离越近，被同一个人浏览的概率越大）。注意这个距离的绝对值本身也是没有意义的，但是这个距离的相对大小是有意义的，意思就是说，假设页面a1跟a2、a3、a4的距离分别是0.3、0.4、0.5，这0.3、0.4、0.5没啥意义，但是相对来说

4、，页面a2与a1的相似程度就要比a3和a4要大。那么这里就有玄机了，如果页面a1是电商公司B的主页，页面a2、a3、a4与a1的距离在所有页面里面是最小的，其他都比这三个距离要大，那么就可以认为同一个用户u浏览a1的同时，浏览a2、a3、a4的概率也比较大，那么反过来，一个用户经常浏览a2、a3、a4，那么浏览a1的概率是不是也比较大呢？从实验看来可以这么认为的。同时还可以得到一个推论，就是用户可能会喜欢a1这个页面对应的广告主的广告。这个在实验中实际上也出现过的。这里模拟一个例子吧，如a1是匹克体育用品公司在媒体公司A上的官网，a2是湖人队比赛数据页，a3是热火队的灌水讨论区，a4是小牛队的

5、球员讨论区。这个结果看起来是相当激动人心的。根据这样的一个结果，就可以在广告主下单的那个页面上增加一个条件经常浏览的相似页面推荐，功能就是在广告主过来选条件的时候，可以选择那些经常浏览跟自己主页相似的页面的用户。举个例子就是，当匹克体育用品公司来下单的时候，页面上给它推荐了几个经常浏览页面的粉丝：湖人队比赛数据页，热火队的灌水讨论区，小牛队的球员讨论区。意思是说，目标人群中包括了经常浏览这三个页面的人。这个功能上线后是获得过很多广告主的好评的。这样word2vec这个算法在这里就有了第一种用途。二对ctr预估模型的帮助根据另一篇博文互联网广告综述之点击率系统，里面需要计算的用户对某广告的ct

6、r。在实际操作的时候，这个事情也是困难重重的，其中有一个冷启动问题很难解决。冷启动问题就是一个广告是新上线的，之前没有任何的历史投放数据，这样的广告由于数据不足，点击率模型经常不怎么凑效。但是这个问题可以使用同类型广告点击率来缓解，意思就是拿一个同行的广告的各种特征作为这个广告的特征，对这个新广告的点击率进行预估。同行往往太粗糙，那么怎么办呢？可以就利用跟这个广告主比较相似的广告的点击率来预估一下这个广告的点击率。上面说过，可以得到每个页面的词向量。这里的方法比较简单，如在媒体公司A上面有1000个广告主，它们的主页分别是a1、a2、a1000。根据上面的方法，得到了这1000个词向量，然后运

7、行kmean或者其他聚类算法，把这1000个广告主聚成100个簇，然后每个簇里面的广告主看成是一个。这里可以模拟一个例子，聚类完成后，某个簇c里面包含了几个广告主的主页，分别是京东商城，天猫，唯品会，当当，聚美优品，1号店，蘑菇街，卓越，亚马逊，淘宝这10个，这10个的目标人群看起来基本是一致的。这里的看成是一个簇是有意义的，比如说第一个簇c1，c1这个簇里面的所有历史投放数据和实时数据可以做特征，来预估这个流量对这个簇的ctr。得到这个ctr后，就很有用了，如果某广告投放数据比较充分，就直接预估这个广告的ctr；如果某广告的历史投放数据很少，就用这个广告主所在的簇的ctr来代替这个广告，认为对簇的ctr就是这个广告的ctr，这样能让一个新广告也能得到相对靠谱的预估ctr，保证不至于乱投一番。三一些总结如何应用好一个算法，确实是很多算法工程师的一个重大课题。数据挖掘算法工程师经常要面对的一个难题就是：这个算法怎么用到我

展开阅读全文