用户点击行为模型分析

上传人:第*** 文档编号:55976320 上传时间:2018-10-08 格式:DOCX 页数:18 大小:911.51KB
返回 下载 相关 举报
用户点击行为模型分析_第1页
第1页 / 共18页
用户点击行为模型分析_第2页
第2页 / 共18页
用户点击行为模型分析_第3页
第3页 / 共18页
用户点击行为模型分析_第4页
第4页 / 共18页
用户点击行为模型分析_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《用户点击行为模型分析》由会员分享,可在线阅读,更多相关《用户点击行为模型分析(18页珍藏版)》请在金锄头文库上搜索。

1、1 数据挖掘实验报告数据挖掘实验报告 基于用户网站点击行为预测基于用户网站点击行为预测 2 数据挖掘实验报告1 一 概要:3 二背景和挖掘目标:.3 三难点分析:.4 四难点解答:.4 五数据采集:.5 六分析方法:.6 七数据探索:.8 7.1 数据无效: .8 7.2 数据缺失: .8 八.数据预处理9 8.1 数据清洗 .9 8.2 数据丢弃 10 8.3 数据转换 10 九挖掘过程:11 9.1 计算用户爱好 11 9.2 基于协同过滤算法进行预测 12 十结果分析: .13 十一.实验总结 14 11.1 数据的采集 .14 11.2 在试验过程中遇到的问题 .14 11.3 解决方

2、案以及改进 .14 11.4 数据挖掘学习体会: .15 3 4 1概要:概要: 这次的数据挖掘我们团队做的是基于用户网站点击行为预测,其中遇到的 问题有数据量大,机器难以处理,含有时序关系,特征难以描述等,我们运用 正负样本比例平衡的方法和时间衰减函数来解决这些问题,运用到的算法有基 于协同过滤算法进行预测。 二背景和挖掘目标:二背景和挖掘目标: 随着互联网和信息技术的快速发展,广告的精准投放一直是各大广告商面 临的问题。点击网络广告的一般有两类人。第一种是不小心点错的,相信大部 分人都是不喜欢广告的,但由于网络的互动性,仍然会有部分人把广告当内容 点击,其中网站诱导用户点击占了很大一部分比

3、例。第二种是真的想看广告内 容,这部分人对广告的内容感兴趣,或是符合他们的需求,才会点击网络广告。 认真去研究这两类的行为,进行广告个性化的投放将产生巨大的价值。 基于这个背景,本次课题我们进行了网站点击行为的数据挖掘。数据来自 网络,包含了 2015 年 1 月 1 日-2015 年 6 月 22 日间广告曝光和点击日志。目 的是预测每个用户在 8 天内即 2015 年 6 月 23 日-2015 年 6 月 30 日间是否会在 各检测点上发生点击行为。 利用数据挖掘技术可以帮助获得决策所需的多种知识。在许多情况下,用 户并不知道数据存在哪些有价值的信息知识,因此对于一个数据挖掘系统而言,

4、它应该能够同时搜索发现多种模式的知识,以满足用户的期望和实际需要。此 外数据挖掘系统还应能够挖掘出多种层次(抽象水平)的模式知识。数据挖掘 系统还应容许用户指导挖掘搜索有价值的模式知识 5 三难点分析:三难点分析: 1.数据量大,机器难以处理; 2.含有时序关系,特征难以描述; 3.针对行为预测,评价标准要创新。 四难点解答:四难点解答: 1.如何解压数据,导入数据库? 使用 XZCAT 等命令工具,结合 LIUNX 管道,直接读取并处理压缩文件, 分布式存储平台和分布式计算框架处理大数据。 2.如何对点击行为进行准确描述? One hot encoding 扩展提取特征,One-Hot 编码

5、,又称为一位有效编码, 主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立 的寄存器位,并且在任意时候只有一位有效。在实际的机器学习的应用任 6 务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分 为“male”和“female”。在机器学习任务中,对于这样的特征,通常 我们需要对其进行特征数字化。 在分析变量时加上时间要素的角度而形成的。对于变量的考察,凡能用 时间单位来表达的,就必须在分析中加上时间这一维度,才能使变量准确 的表达出来。 3.如何在数据分布不平衡时有效地学习? 运用探索式下采样算法,把问题转化为 N 个平衡分布的子问题,依次 解决平衡分布的子问题,把单

6、模型的输出作为特征,自动学习模型权重。 把收集到的数据集划分为第一层和第二层中的最终模型,经过分析得到最 终结果。 五数据采集:五数据采集: 原始数据总共包含 60G 的 txt 文本数据,每条记录包含六列,分别是用户 id,监测点 id,ip 地址,浏览器类型,国家,时间,点击或曝光。同一网站的 不同广告检测点 id 不同,如新浪网的衣服广告和新浪网的手机广告有不同的加 测点 id,不同网站相同广告有不同的检测点 id,如百度网的手机广告和新浪网 7 相同的手机广告有不同的检测点 id。如图: 鉴于数据量巨大,经过探讨我们决定抽取部分数据进行分析。依据所提供 的原始数据,试着分析如下目标:

7、每个用户在 8 天内即 2015 年 6 月 23 日-2015 年 6 月 30 日间是否会在各检 测点上发生点击行为。 六分析方法:六分析方法: 本课题的目标是进行广告行为预测,数据量越大预测的准确率越高,因为 数据量巨大,如果对数据不进行处理就会出现内存空间不足的情况。因此我们 抽取部分数据进行分析。因为原始数据检测点是乱序的,我们第一步进行检测 点分类,将同一个监测点的数据统一进行处理,如图: 8 将数据进行分类后,我们采用基于时间戳的衰减算法进行处理,示意图如下: 对于同一个监测点的数据统一处理,对于每一位用户在该监测点上的点击 行为进行统计,比较,计算该用户对该检测点的偏好。如图用

8、户 A 分别在 3 月 1 日、3 月 5 日、3 月 10 日访问了三次。而用户 B 只在 3 月 3 日访问了一次, 这样用户 A 相对用户 B 对该网站的偏好更高。对于另一个用户 C 也访问了三次, 但是这三次相对于用户 A 的距离 2015 年 6 月 23 日-2015 年 6 月 30 日期间更近, 显然用户 C 比用户 A 更有可能在 2015 年 6 月 23 日-2015 年 6 月 30 日间继续访 问该网站,我们认为用户 C 比用户 A 对该网站有更高的偏好。我们将对比各用 9 户的偏好,我们选择偏好最高的那个用户,这里选择用户 C。 10 七数据探索:七数据探索: 在进

9、行数据分析前我们发现我们得到的第一手数据是不可靠的,有的行缺 少数据,有的出现重复,有的数据是无效的,所以我们有必要进行数据探索, 保证数据的有效性。 7.1 数据无效:数据无效: 我们发现有的数据是无效的。如下图: 通过观察,我们发现图中的数据只有一个用户曝光了该站点,我们认为该 站点是无效的,将其剔除。 7.2 数据缺失:数据缺失: 在获取的数据过程中有一些数据缺失了网站 id,这些数据是不能用来挖掘 的数据,否则会影响到最终挖掘的结果,因此我们把这类数据剔除。 11 八八.数据预处理数据预处理 现实世界数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖 掘,或者挖掘得到的结果偏差,

10、为了提高数据挖掘的质量产生了数据预处理技 术,数据预处理一方面是要提高数据的质量,另外一方面是要让数据更好地适 应特定的挖掘技术或工具。数据预处理主要包括数据清洗,数据集成,数据变 换和数据规约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖 掘模式的质量,降低了实际挖掘所需要的时间。 常用的数据清理主要分为两类:空缺值的处理和噪声数据处理。空缺值处 理主要是使用最可能的值填充空缺值,比如可以用回归、贝叶斯形式化方法工 具或判定树归纳等确定空缺值。这类方法依靠现有的数据信息来推测空缺值, 使空缺值有更大的机会保持与其他属性之间的联系。同时还可以用一个全局常 量替换空缺值、使用属性的平均

11、值填充空缺值或将所有元组按某些属性分类, 然后用同一类中属性的平均值填充空缺值。不过这些方法有局限性,当空缺值 很多的情况下,这些方法的使用可能会误导挖掘结果;除了空缺值处理还有噪 声数据处理,噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离 期望的孤立点值。常用分箱、回归、计算机检查和人工检查结合、聚类等方法 进行噪音处理。 本次数据挖掘中主要用了数据清洗,数据丢弃,还有时间变换。 8.1 数据清洗数据清洗 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据 文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺 失值等。因为数据仓库中的数据是面向某一主题

12、的数据的集合,这些数据从多 个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数 据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要 的,称为“脏数据”。 我们要按照一定的规则把“脏数据”“洗掉”,这就是 数据清洗。 而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务 主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求 的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是 与问卷审核不同,录入后的数据清 理一般是由计算机而不是人工完成。 12 8.2 数据丢弃数据丢弃 数据丢弃如下图所示: 在获取到的数据中,有一

13、些数据我们是用不到的,因此把这些无关数据丢 弃,这样能使后面的挖掘过程更简单,我们只留下用户 id,网站 id 和时间这三 种数据。 数据丢弃前 13 数据丢弃后 8.3 数据转换数据转换 数据转换,其作用就是将数据转换为易于进行数据挖掘的数据存储形式。 主要是由于数据量的不断增加,原来数据构架的不合理,不能满足各方面的 要求.由数据库的更换,数据结构的更换,从而需要数据本身的转换。 在这次数据挖掘中我们把时间做了相应的转换: 把 UNIX 时间戳(unix 时间戳是从 1970 年 1 月 1 日(UTC/GMT 的午夜)开 始所经过的秒数,不考虑闰秒)转换成现在的时间,方便后续的数据统计,

14、并 且还利于观看。 如上图最后的那一列时间变换如下: 1434686416-2015/6/19 12:0:16 1434677712-2015/6/19 9:35:12 1434686526-2015/6/19 12:2:6 1434677256-2015/6/19 9:27:36 1433384573-2015/6/4 10:22:53 1433384578-2015/6/4 10:22:58 1433384485-2015/6/4 10:21:25 1433384482-2015/6/4 10:21:22 1433384525-2015/6/4 10:22:5 14 1433384534-

15、2015/6/4 10:22:14 九挖掘过程:九挖掘过程: 先计算用户对新闻主题的偏好,然后根据协同过滤方法分别预测用户可能 的偏好。 9.1 计算用户爱好计算用户爱好 由于用户对新闻的偏好与阅读次数之间不是线性关系,而是随着阅读次数 的增加,用户兴趣度增长速度逐步变慢。因此,根据边际效应递减理论使用公 式(1)来计算用户对新闻点击率的偏好: (1) i f ai plog 其中,a 为对数的底数。当 a 的取值比较大时,得到的用户偏好的范围比较 小,当 a 的取值比较小时,得到的用户偏好的范围比较大,本文中需要将用户 偏好映射到0,1之间的数值,因此,需要选择合适的 a 值。 在获取了用户

16、对单个分词的偏好后,可以计算出用户对某个新闻标题的偏 好,其计算公式如下: (2) i new i N k knew pp 1 其中,表示新闻标题中包含的分词的数量。 i new N 9.2 基于协同过滤算法进行预测基于协同过滤算法进行预测 (1)选择两个用户共同的分词数量大于分词总量的 20%时,才计算用户之 间的相似度。如公式(3 所示: (3) | | i ji W WW 其中,Wi 表示用户 i 阅读的新闻标题的分词的集合。设定 0.2 时,才计 算用户偏好之间的相似度。 15 (2)实验结果显示,相关相似性较余弦相似性所得的推荐质量更高。因此 本文采用相关相似性度量用户间的相似性。通过 Pearson 相关系数度量,公式 如下: (4) ck jkj ck iki ck jkjiki ji Ss usu Ss usu

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号