网络用户浏览路径分析

上传人:艾力 文档编号:36584543 上传时间:2018-03-30 格式:PDF 页数:33 大小:2.04MB
返回 下载 相关 举报
网络用户浏览路径分析_第1页
第1页 / 共33页
网络用户浏览路径分析_第2页
第2页 / 共33页
网络用户浏览路径分析_第3页
第3页 / 共33页
网络用户浏览路径分析_第4页
第4页 / 共33页
网络用户浏览路径分析_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《网络用户浏览路径分析》由会员分享,可在线阅读,更多相关《网络用户浏览路径分析(33页珍藏版)》请在金锄头文库上搜索。

1、网络用户浏览路径分析网络用户浏览路径分析网站分析、用户行为北京 | 上海 | 广州 | 深圳 | 东京 | 硅谷 | 香港2012-11-04肖嘉敏: 张 翔:Blog: www.shaw.cu.cc21234网站分析简介网站分析简介网络用户浏览路径网络用户浏览路径R R与与SQLSQL切换切换QQQQ群关系群关系目录目录网站分析目的网站分析目的3网站网站分析驱动目标达成分析驱动目标达成准确度量,持续改进准确度量,持续改进网站中发生了什么事情网站中发生了什么事情4 用户从用户从哪里来哪里来?哪里进入哪里进入网站?又是网站?又是哪哪里离开里离开网站?网站? 用户在网站中用户在网站中寻找什么寻找什

2、么?网站中的哪些?网站中的哪些内容、哪些页面最受用户欢迎?内容、哪些页面最受用户欢迎?网站中各部分功能是否正常网站中各部分功能是否正常5 页面页面布局合理布局合理吗?网站吗?网站导航清晰导航清晰吗?各吗?各项网站项网站功能正常功能正常吗?吗? 页面内容是否合适?转化路径是否合理?页面内容是否合适?转化路径是否合理?网站的改善与优化网站的改善与优化6 哪些来源渠道的用户更有价值?网站哪方面哪些来源渠道的用户更有价值?网站哪方面存在问题,需要改进?存在问题,需要改进? 网站的运营策略是否有效?如何采取进一步网站的运营策略是否有效?如何采取进一步行动优化?行动优化?搜索频率,搜 索内容排行, 下单访

3、客的搜 索,对搜索结 果的满意度。 类目搜索解析 关键词搜索解 析, 搜索来源(首 页搜索,频道 搜索,内页搜 索)我们正在做的站内用户行为分析我们正在做的站内用户行为分析7首页流量、首 页作为着陆页 的比例。 分析首页点击 分布、下一页 访问路径,包 括各去向页面 占比。 顶部频道和左 右侧导航点击; 公告或排行的 点击。 站内广告的点 击和转化。首页分析首页分析站内搜索站内搜索发现主流路径 及其中的循环 浏览,判断其 合理性。 发现路径中的 主要流失出口, 判断是否存在 主流路径上。 区分不同人群 的访问路径浏览路径浏览路径购物车与下单 按钮的点击 访问商品的分 类:大中小行 业,品牌 确

4、认下单商品单品访问单品访问流程中各步骤 的访客流失情 况; 重新回到流程 的途径; 离开流程的访 客数量和去向 观察购物流程 执行效率的变 化趋势下单流程下单流程8目录目录1234网站分析简介网站分析简介网络用户浏览路径网络用户浏览路径R R与与SQLSQL切换切换QQQQ群关系群关系网络用户浏览路径分析网络用户浏览路径分析9浏览浏览 路径路径时间序列时间序列通过序列分析探索用户上网模式 利用日志文件对用户上网模式进行分类序列分析维度序列分析维度 如何从大量序列数据当中如何从大量序列数据当中提取感兴趣的特征序列提取感兴趣的特征序列 如何如何计算序列数据指标计算序列数据指标,量化特征,进一步对序

5、,量化特征,进一步对序 列数据进行统计分析列数据进行统计分析 序列数据序列数据可视化可视化 序列数据序列数据相似性的度量相似性的度量,以此基础继续一些探索性,以此基础继续一些探索性 数据分析数据分析 识别具有识别具有共同模式共同模式的子集的子集10URLURL归类归类11URL归类原则归类原则 按不同频道(垂直类) 按网站功能(电商) 按URL规则(门户) 搜 索导 航首 页商 品 页活 动 页商 品 页商 品 页频 道商 品 页频 道下 单用户日志转化序列数据对象用户日志转化序列数据对象12Log xxx xxx Sample ID Datetime Domain Duration serv

6、ice print(te, format=STS) Sequence 1167 0-0-0-0-0-0-0-0-0-3-6-6-6-6-6-6 514 0-1-1-1-1-1-1-1-1-1-1-3-6-6-6-6 print(te, format=SPS) Sequence 1 (0,9)-(3,1)-(6,6) 2 (0,1)-(1,10)-(3,1)-(6,4) 序列数据可视化序列数据可视化( (站内站内) )13站内浏览路径汇总站内浏览路径汇总不同颜色对应不同URL类别序列数据可视化序列数据可视化( (站内站内) )14序列频次序列频次类别频次类别频次类别分布类别分布source: h

7、ttp:/ (站外站外) )15站外来源路径分析站外来源路径分析 进站前来源点 进站前精准路径 进站前模糊路径站站外去向路径分析外去向路径分析 出站后去向点 进站前精准路径 出站后模糊路径序列数据相似序列数据相似( (异异) )性度量性度量16评价序列相异性的两个重要方法:评价序列相异性的两个重要方法:1.1.计算它们之间匹配总量;计算它们之间匹配总量; Simple Hamming, Longest common prefix, Longest common suffix, Longest common subsequence2. 2. 两条序列相互转化的成本。两条序列相互转化的成本。 Op

8、timal matching, Hamming, Dynamic Hamming序列数据相似性度量序列数据相似性度量17转换比率转换比率 transition rates替换成本替换成本 substitutionsubstitution- -costcostnt(si) 当t不是最后一个位置时,si状态的个数; nt,t+1(si, sj)为 t位置为si状态, t+1位置 为sj状态的个数。序列数据相似性度量序列数据相似性度量18编辑距离编辑距离 Edit distanceEdit distance搜索引擎识别拼写错误,并提示正确的写法:从一个字符变到 另一个字符主要有三种方式:替换一个字符

9、、增加一个字符和 删除一个字符,把这三种操作都看做一次字符的修改,两个单 词的Edit Distance就是从一个单词变成另一个单词需要的最少 字符修改次数。Optimal matching(OM), Generalized Hamming (HAM) and dynamic Hamming (DHD)基于相似基于相似( (异异) )性矩阵的序列分析性矩阵的序列分析19聚类分析聚类分析基于相似基于相似( (异异) )性矩阵的序列分析性矩阵的序列分析20提取代表序列提取代表序列一般的处理方法: 1. 提取出现频次最高的 序列; 2. 提取中心度最高的序 列搜索代表序列方法搜索代表序列方法 根据代

10、表性得分对序列进行排序根据代表性得分对序列进行排序 sequence frequency, neighborhood density, mean state frequency, centrality, sequence likelihood. 设定阈值删除冗余序列设定阈值删除冗余序列 The redundancy threshold is set as a percentage (10% by default) of the maximum theoretical dissimilarity Dmaxbetween two sequences and the representative s

11、et will thus not contain any pair of sequences that are nearer each other than this threshold.2122目录目录1234网站分析简介网站分析简介网络用户浏览路径网络用户浏览路径R R与与SQLSQL切换切换QQQQ群关系群关系同样适合同样适合R R编程的经典语句编程的经典语句23“ “我们当中大多数人接受的教育是,我们当中大多数人接受的教育是, 在编程时,要在编程时,要 把一个任务细分成多个更小的步骤,把一个任务细分成多个更小的步骤,按一定的顺序按一定的顺序 执行程序执行程序,进行想要计算。,进行想要计

12、算。 但是,如果也按这种思想但是,如果也按这种思想来处理来处理SQLSQL编程,那么最终只能得到编程,那么最终只能得到平庸的结果平庸的结果“ “-Microsoft SQL Server 2008技术内幕技术内幕:T-SQL查询查询Excel, Excel, sqlsql, R, R切换自如切换自如24Excel 透视表透视表selectselect语句中可以通过语句中可以通过groupgroup byby将行划分成较小的将行划分成较小的 组,然后使用聚集函数返回每一个小组的汇总信息组,然后使用聚集函数返回每一个小组的汇总信息交互式报表,可快速合并和比较大量数据。旋交互式报表,可快速合并和比较

13、大量数据。旋 转其行和列以看到源数据的不同汇总,而且可转其行和列以看到源数据的不同汇总,而且可 显示感兴趣区域的明细数据显示感兴趣区域的明细数据sql 语句语句applyapply系列系列, , plyrplyr, , sqldfsqldf等扩展包等扩展包R切片计算切片计算25Many problems involve splitting up a large data structure, operating on each piece and joining the results back together:split-apply-combineHadley Wickham, Visua

14、lisation and data manipulation in R ebay http:/courses.had.co.nz/11-ebay/访次访次& &上网出入口的设计上网出入口的设计26rank IDTimedomain 1118:49:24a 2118:57:25b 3118:57:29b 4119:57:47a 5119:58:22a 6218:59:13c 7218:59:18a 8219:00:01a 9221:00:09a 10319:00:17crank IDTimedomain 2118:57:25b 3118:57:29b 4119:57:47a 5119:58:22

15、a 6218:59:13c 7218:59:18a 8219:00:01a 9221:00:09a 10319:00:17c 1118:49:24a排序排序 - 移位移位- 比较比较访问次数访问次数 用户访问该网站比前一次访问的时间间隔超过30分钟,访问次数加1次,在30 分钟之内连续访问该网站页面,只算1次。 上网出入口上网出入口 用户一天当中上网的起点各终点网站, 最大连续不在线时间间隔。R R 涉及涉及applyapply系列函数;系列函数;sqlsql涉及分页查询,全连接涉及分页查询,全连接27目录目录1234网站分析简介网站分析简介网络用户浏览路径网络用户浏览路径R R与与SQLSQL切换切换QQQQ群关系群关系聊天记录分析28RankNamesFreqRankNamesFreq 1肖嘉敏(61792715)12811肖嘉敏(61792715)143 2李源栋(276868740)5922李源栋(276868740)49 3阿铁(355665588)4043钱海燕(278310114)23 4钱海燕(278310114)1904缪静(277844672)20 5王静(52392252)1855周和根(278746367)20 6王昭林(158242136)1746阿铁(355665588)17 7江(278310998)1337

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号