基于马尔可夫混合模型的电子商务搜索引擎用户行为聚类.doc

上传人:壹****1 文档编号:542368422 上传时间:2023-04-04 格式:DOC 页数:11 大小:48KB
返回 下载 相关 举报
基于马尔可夫混合模型的电子商务搜索引擎用户行为聚类.doc_第1页
第1页 / 共11页
基于马尔可夫混合模型的电子商务搜索引擎用户行为聚类.doc_第2页
第2页 / 共11页
基于马尔可夫混合模型的电子商务搜索引擎用户行为聚类.doc_第3页
第3页 / 共11页
基于马尔可夫混合模型的电子商务搜索引擎用户行为聚类.doc_第4页
第4页 / 共11页
基于马尔可夫混合模型的电子商务搜索引擎用户行为聚类.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《基于马尔可夫混合模型的电子商务搜索引擎用户行为聚类.doc》由会员分享,可在线阅读,更多相关《基于马尔可夫混合模型的电子商务搜索引擎用户行为聚类.doc(11页珍藏版)》请在金锄头文库上搜索。

1、 基于马尔可夫混合模型的电子商务搜索引擎用户行为聚类摘要:对搜索引擎用户行为进行聚类分析有利于为用户提供个性化的服务。为了能准确地刻画用户行为的动态性,提出利用马尔可夫混合模型,对电子商务搜索引擎的用户行为模式聚类。模型假设每一类用户行为可表示为一个马尔可夫模型,当用户使用搜索引擎时,每个用户以一定的概率属于某一聚类;该用户的行为序列,由对应的马尔可夫模型产生。同时,为了解决参数估计和模型自动选择的问题,将贝叶斯阴阳和谐学习理论应用于该混合模型,提出针对该模型的和谐度函数及自适应梯度算法。仿真实验结果表明,与传统的最大期望(em)算法相比,基于贝叶斯阴阳机的自适应梯度算法能更高效和准确地同时进

2、行参数学习和模型选择。最后,将所提出的聚类方法应用于真实的电子商务搜索引擎点击日志,初步验证了本模型的有效性。关键词:马尔可夫模型;最大期望算法;模型聚类;贝叶斯阴阳机;和谐度函数 clustering the patterns of user behaviors of merce search enginebased on the mixture of markov modelsclustering user behavior patterns of merce search enginebased on mixture of markov modelsqin jun1*,xiao rong

3、21. school of computer science, south.central university of nationalities,wuhan hubei 430074, china;2. taobao (china) software company limited,hangzhou zhejiang 310099, chinaabstract:clustering the behavior patterns of the customers is helpful to provide more specific services for e-commerce applica

4、tions. a mixture model based on markov models is proposed to solve this problem on the search engine of e-commerce website. this model assumes that the behaviors of every customer which uses the search engine can be represented by a markov model and every user is assigned to a particular cluster ran

5、domly. based on bayesian ying-yang harmony learning theory,a corresponding harmony function and an adaptive gradient algorithm are designed to deal with the parameter-learning and model-selection tasks. the experimental result shows that this adaptive gradient algorithm can achieve the model-selecti

6、on and the parameter-learning more automatically and efficiently when compared with em algorithm. at last, this clustering approach is applied on real-world click-through logs of the search engine on and the result shows that this method can capture the nature of customers behaviors effectively.clu

7、stering the behavior patterns of the customers is helpful to provide more specific services for merce applications. a mixture model based on markov models was proposed to solve this problem on the search engine of merce website. this model assumed that the behaviors of every customer who used the se

8、arch engine can be represented by a markov model and every user was assigned to a particular cluster randomly. based on bayesian ying.yang (byy) harmony learning theory, a corresponding harmony function and an adaptive gradient algorithm were designed to deal with the parameter.learning and model.se

9、lection tasks. the experimental result shows that this adaptive gradient algorithm can achieve the model.selection and the parameter.learning more automatically and efficiently when compared with em algorithm. at last, this clustering approach was applied on real.world click.through logs of the sear

10、ch engine on and the result shows that this method can capture the nature of customers behaviors effectively.key words:markov model; expectation.maximization (em) algorithm; model.based clustering; bayesian ying.yang (byy); harmony function0 引言分析搜索引擎日志中用户行为模式能帮助我们深入了解用户与系统之间如何交互,并可应用于众多领域,比如:改善用户界面

11、设计1, 提升搜索结果相关性2-3,个性化搜索结果4-5, 优化系统性能6等。对于通用搜索引擎日志分析,很多学者已做出许多研究工作7-8。随着电子商务的发展,越来越多的用户使用搜索引擎查找他们所需的商品。与通用搜索引擎相比,电子商务搜索引擎的用户的行为有许多不同。用户不仅会点击搜索结果,可能还会收藏或购买感兴趣的商品等。表1给出了一些来自用户动作序列的例子。根据点击序列数据对用户行为模式聚类是对用户行为深入分析的基础。基于距离的聚类方法,对静态的向量特征数据聚类具有良好效果,但是,由于本文研究的用户点击行为数据具有明显的动态性:用户连续地从一个动作跳至下一动作。如果考虑用向量表示序列,每个分量

12、表示对应的动作出现次数,然后采用基于距离的方法,比如k.means,这有可能丢失掉用户行为的动态性而影响聚类效果。已有学者采用马尔可夫混合模型或隐马尔可夫混合模型9对用户网页浏览行为进行建模。受其启发,本文拟采用马尔可夫混合模型对用户使用电子商务搜索引擎的行为进行建模,并采用基于模型的聚类方法来体现用户动作的动态性。对于基于模型的聚类方法,通常采用最大期望( expectation.maximization,em)算法进行参数估计。但该方法存在一个前提条件:分量模型的数量k是已知的。而对于本文这一关键信息是未知的,因此需解决模型选择问题。虽然已有学者提出很多关于模型选择标准,如赤池信息准则(a

13、kaike information criterion,aic)、贝叶斯信息准则(bayesian information criterion,bic)和最小描述长度(minimum description length,mdl)等,但需要对不同的k值重复整个参数估计过程,耗费大量计算时间。xu提出10的贝叶斯阴阳(bayesian ying.yang,byy)和谐学习系统和理论提供了一个通用的统计学习框架,它不仅可以用来解释现有的众多学习方法,而且对于有限样本集上混合模型学习问题提供了一种新机制,可用来在实现参数估计的同时进行模型选择,其核心是最大化和谐度函数(harmony functio

14、n)。jinwen ma等基于该理论,提出了针对高斯混合模型的和谐度函数,通过自适应梯度算法求解模型参数,并自动进行模型选择。本文拟将byy理论应用于马尔可夫混合模型,提出适合该混合模型的和谐度函数,并推导出对应的梯度算法,以解决该模型在参数学习同时模型自动选择的问题。1 用户行为建模首先介绍如何从搜索引擎日志中重建用户的动作序列,然后采用马尔可夫混合模型对用户行为进行建模,及基于模型的聚类方法。本文从搜索引擎一天的点击序列日志中重建了用户动作序列,该日志包含了用户向搜索引擎请求的url。处理这些数据有以下两个问题需要解决:1)如何区分不同的用户动作。首先,根据用户使用搜索引擎时的不同意图定义

15、了15种动作:new.search, page, sort, change.tab, location.filter, price.filter, prepay.filter, other.filter, compass, relative.search, change.category, change.mode, click, buy, other。文本采用一个集合来表示s=s,0s14,然后映射url到这些动作。2)如何区分不同的序列。ip地址不足以区分不同用户,而且一个用户在一天内可能会使用搜索引擎不止1次。在日志文件中记录了每个url请求的cookie id。因此,本文假设cookie id和ip地址能唯一地识别一个用户动作序列,而且根据url映射产生的动作按时间先后保持顺序。如果同一用户的两个动作时间间隔超过30m,则认为这是两个不同的序列。由此获得一个大约1800万个序列组成的数据集,表示为o=on|n=1,,n。每个序列on由集合s中状态依次排列组成,例如:on=0,1,2,12,13。4 结语为了分析电子商务网站的搜索引擎用户行为模式,本文提出了采用一阶马尔可夫混合模型用于对用户的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号