用户点击行为模型分析

资源描述

《用户点击行为模型分析》由会员分享，可在线阅读，更多相关《用户点击行为模型分析（18页珍藏版）》请在金锄头文库上搜索。

1、1 数据挖掘实验报告数据挖掘实验报告基于用户网站点击行为预测基于用户网站点击行为预测 2 数据挖掘实验报告1 一概要：3 二背景和挖掘目标：.3 三难点分析：.4 四难点解答：.4 五数据采集：.5 六分析方法：.6 七数据探索：.8 7.1 数据无效： .8 7.2 数据缺失： .8 八.数据预处理9 8.1 数据清洗 .9 8.2 数据丢弃 10 8.3 数据转换 10 九挖掘过程：11 9.1 计算用户爱好 11 9.2 基于协同过滤算法进行预测 12 十结果分析： .13 十一.实验总结 14 11.1 数据的采集 .14 11.2 在试验过程中遇到的问题 .14 11.3 解决方

2、案以及改进 .14 11.4 数据挖掘学习体会： .15 3 4 1概要：概要：这次的数据挖掘我们团队做的是基于用户网站点击行为预测，其中遇到的问题有数据量大，机器难以处理，含有时序关系，特征难以描述等，我们运用正负样本比例平衡的方法和时间衰减函数来解决这些问题，运用到的算法有基于协同过滤算法进行预测。二背景和挖掘目标：二背景和挖掘目标：随着互联网和信息技术的快速发展，广告的精准投放一直是各大广告商面临的问题。点击网络广告的一般有两类人。第一种是不小心点错的，相信大部分人都是不喜欢广告的，但由于网络的互动性，仍然会有部分人把广告当内容点击，其中网站诱导用户点击占了很大一部分比

3、例。第二种是真的想看广告内容，这部分人对广告的内容感兴趣，或是符合他们的需求，才会点击网络广告。认真去研究这两类的行为，进行广告个性化的投放将产生巨大的价值。基于这个背景，本次课题我们进行了网站点击行为的数据挖掘。数据来自网络，包含了 2015 年 1 月 1 日-2015 年 6 月 22 日间广告曝光和点击日志。目的是预测每个用户在 8 天内即 2015 年 6 月 23 日-2015 年 6 月 30 日间是否会在各检测点上发生点击行为。利用数据挖掘技术可以帮助获得决策所需的多种知识。在许多情况下，用户并不知道数据存在哪些有价值的信息知识，因此对于一个数据挖掘系统而言，

4、它应该能够同时搜索发现多种模式的知识，以满足用户的期望和实际需要。此外数据挖掘系统还应能够挖掘出多种层次（抽象水平）的模式知识。数据挖掘系统还应容许用户指导挖掘搜索有价值的模式知识 5 三难点分析：三难点分析： 1.数据量大，机器难以处理； 2.含有时序关系，特征难以描述； 3.针对行为预测，评价标准要创新。四难点解答：四难点解答： 1.如何解压数据，导入数据库？使用 XZCAT 等命令工具，结合 LIUNX 管道，直接读取并处理压缩文件，分布式存储平台和分布式计算框架处理大数据。 2.如何对点击行为进行准确描述？ One hot encoding 扩展提取特征，One-Hot 编码

5、，又称为一位有效编码，主要是采用位状态寄存器来对个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。在实际的机器学习的应用任 6 务中，特征有时候并不总是连续值，有可能是一些分类值，如性别可分为“male”和“female”。在机器学习任务中，对于这样的特征，通常我们需要对其进行特征数字化。在分析变量时加上时间要素的角度而形成的。对于变量的考察，凡能用时间单位来表达的，就必须在分析中加上时间这一维度，才能使变量准确的表达出来。 3.如何在数据分布不平衡时有效地学习？运用探索式下采样算法，把问题转化为 N 个平衡分布的子问题，依次解决平衡分布的子问题，把单

6、模型的输出作为特征，自动学习模型权重。把收集到的数据集划分为第一层和第二层中的最终模型，经过分析得到最终结果。五数据采集：五数据采集：原始数据总共包含 60G 的 txt 文本数据，每条记录包含六列，分别是用户 id，监测点 id，ip 地址，浏览器类型，国家，时间，点击或曝光。同一网站的不同广告检测点 id 不同，如新浪网的衣服广告和新浪网的手机广告有不同的加测点 id，不同网站相同广告有不同的检测点 id，如百度网的手机广告和新浪网 7 相同的手机广告有不同的检测点 id。如图：鉴于数据量巨大，经过探讨我们决定抽取部分数据进行分析。依据所提供的原始数据，试着分析如下目标：

7、每个用户在 8 天内即 2015 年 6 月 23 日-2015 年 6 月 30 日间是否会在各检测点上发生点击行为。六分析方法：六分析方法：本课题的目标是进行广告行为预测，数据量越大预测的准确率越高，因为数据量巨大，如果对数据不进行处理就会出现内存空间不足的情况。因此我们抽取部分数据进行分析。因为原始数据检测点是乱序的，我们第一步进行检测点分类，将同一个监测点的数据统一进行处理，如图： 8 将数据进行分类后，我们采用基于时间戳的衰减算法进行处理，示意图如下：对于同一个监测点的数据统一处理，对于每一位用户在该监测点上的点击行为进行统计，比较，计算该用户对该检测点的偏好。如图用

8、户 A 分别在 3 月 1 日、3 月 5 日、3 月 10 日访问了三次。而用户 B 只在 3 月 3 日访问了一次，这样用户 A 相对用户 B 对该网站的偏好更高。对于另一个用户 C 也访问了三次，但是这三次相对于用户 A 的距离 2015 年 6 月 23 日-2015 年 6 月 30 日期间更近，显然用户 C 比用户 A 更有可能在 2015 年 6 月 23 日-2015 年 6 月 30 日间继续访问该网站，我们认为用户 C 比用户 A 对该网站有更高的偏好。我们将对比各用 9 户的偏好，我们选择偏好最高的那个用户，这里选择用户 C。 10 七数据探索：七数据探索：在进

9、行数据分析前我们发现我们得到的第一手数据是不可靠的，有的行缺少数据，有的出现重复，有的数据是无效的，所以我们有必要进行数据探索，保证数据的有效性。 7.1 数据无效：数据无效：我们发现有的数据是无效的。如下图：通过观察，我们发现图中的数据只有一个用户曝光了该站点，我们认为该站点是无效的，将其剔除。 7.2 数据缺失：数据缺失：在获取的数据过程中有一些数据缺失了网站 id，这些数据是不能用来挖掘的数据，否则会影响到最终挖掘的结果，因此我们把这类数据剔除。 11 八八.数据预处理数据预处理现实世界数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或者挖掘得到的结果偏差，

10、为了提高数据挖掘的质量产生了数据预处理技术，数据预处理一方面是要提高数据的质量，另外一方面是要让数据更好地适应特定的挖掘技术或工具。数据预处理主要包括数据清洗，数据集成，数据变换和数据规约等。这些数据处理技术在数据挖掘之前使用，大大提高了数据挖掘模式的质量，降低了实际挖掘所需要的时间。常用的数据清理主要分为两类：空缺值的处理和噪声数据处理。空缺值处理主要是使用最可能的值填充空缺值，比如可以用回归、贝叶斯形式化方法工具或判定树归纳等确定空缺值。这类方法依靠现有的数据信息来推测空缺值，使空缺值有更大的机会保持与其他属性之间的联系。同时还可以用一个全局常量替换空缺值、使用属性的平均

11、值填充空缺值或将所有元组按某些属性分类，然后用同一类中属性的平均值填充空缺值。不过这些方法有局限性，当空缺值很多的情况下，这些方法的使用可能会误导挖掘结果；除了空缺值处理还有噪声数据处理，噪声是一个测量变量中的随机错误或偏差，包括错误的值或偏离期望的孤立点值。常用分箱、回归、计算机检查和人工检查结合、聚类等方法进行噪音处理。本次数据挖掘中主要用了数据清洗，数据丢弃，还有时间变换。 8.1 数据清洗数据清洗数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题

12、的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给业务主管部门，确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。 12 8.2 数据丢弃数据丢弃数据丢弃如下图所示：在获取到的数据中，有一

13、些数据我们是用不到的，因此把这些无关数据丢弃，这样能使后面的挖掘过程更简单，我们只留下用户 id，网站 id 和时间这三种数据。数据丢弃前 13 数据丢弃后 8.3 数据转换数据转换数据转换，其作用就是将数据转换为易于进行数据挖掘的数据存储形式。主要是由于数据量的不断增加,原来数据构架的不合理,不能满足各方面的要求.由数据库的更换,数据结构的更换,从而需要数据本身的转换。在这次数据挖掘中我们把时间做了相应的转换：把 UNIX 时间戳（unix 时间戳是从 1970 年 1 月 1 日（UTC/GMT 的午夜）开始所经过的秒数，不考虑闰秒）转换成现在的时间，方便后续的数据统计，

14、并且还利于观看。如上图最后的那一列时间变换如下： 1434686416-2015/6/19 12:0:16 1434677712-2015/6/19 9:35:12 1434686526-2015/6/19 12:2:6 1434677256-2015/6/19 9:27:36 1433384573-2015/6/4 10:22:53 1433384578-2015/6/4 10:22:58 1433384485-2015/6/4 10:21:25 1433384482-2015/6/4 10:21:22 1433384525-2015/6/4 10:22:5 14 1433384534-

15、2015/6/4 10:22:14 九挖掘过程：九挖掘过程：先计算用户对新闻主题的偏好，然后根据协同过滤方法分别预测用户可能的偏好。 9.1 计算用户爱好计算用户爱好由于用户对新闻的偏好与阅读次数之间不是线性关系，而是随着阅读次数的增加，用户兴趣度增长速度逐步变慢。因此，根据边际效应递减理论使用公式(1)来计算用户对新闻点击率的偏好： (1) i f ai plog 其中，a 为对数的底数。当 a 的取值比较大时，得到的用户偏好的范围比较小，当 a 的取值比较小时，得到的用户偏好的范围比较大，本文中需要将用户偏好映射到0,1之间的数值，因此，需要选择合适的 a 值。在获取了用户

16、对单个分词的偏好后，可以计算出用户对某个新闻标题的偏好，其计算公式如下： (2) i new i N k knew pp 1 其中，表示新闻标题中包含的分词的数量。 i new N 9.2 基于协同过滤算法进行预测基于协同过滤算法进行预测（1）选择两个用户共同的分词数量大于分词总量的 20%时，才计算用户之间的相似度。如公式(3 所示： (3) | | i ji W WW 其中，Wi 表示用户 i 阅读的新闻标题的分词的集合。设定 0.2 时，才计算用户偏好之间的相似度。 15 （2）实验结果显示，相关相似性较余弦相似性所得的推荐质量更高。因此本文采用相关相似性度量用户间的相似性。通过 Pearson 相关系数度量，公式如下： (4) ck jkj ck iki ck jkjiki ji Ss usu Ss usu

展开阅读全文