商户文档权重计算方法

上传人:工**** 文档编号:476421388 上传时间:2023-10-27 格式:DOCX 页数:5 大小:19.40KB
返回 下载 相关 举报
商户文档权重计算方法_第1页
第1页 / 共5页
商户文档权重计算方法_第2页
第2页 / 共5页
商户文档权重计算方法_第3页
第3页 / 共5页
商户文档权重计算方法_第4页
第4页 / 共5页
商户文档权重计算方法_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《商户文档权重计算方法》由会员分享,可在线阅读,更多相关《商户文档权重计算方法(5页珍藏版)》请在金锄头文库上搜索。

1、商户权重计算方法(草2)技术领域:本发明涉及网络技术领域,尤其是生活搜索行业。背景技术:本地搜索排序的基础是商户,而商户权重对搜索的排序又有至关重要的作用。如 何正确标识商户权重,是一个重要的工作。发明名称:商户权重计算方法发明摘要:本发明公开一种计算商户权重的计算方法。通过这种方法计算出来的商户权重, 能客观反应商户的重要性,给引擎排序提供了一种重要的依据。商户重要度因子,主要包括 商户信息可信度,商户信息完整度,商户信息引用度,商户信息关注度四个方面。详细说明:下面分别介绍商户文档权重的计算方法。一、商户信息可信度商户信息中电话的可信度最为重要,其次为地址。电话可信度较容易获取,地址可信度

2、获取 成本较高,所以商户信息可信度上只考虑电话因素。电话根据呼叫状态设置可信度值如下:类型电话不存在电话无法接通电话可以接通可信度T00.51根据上面的表计算商户的可信度DTO另外数据来源也是商户信息可信度的一个重要因素, 包括合作商提供,互联网抓取,自身采集等,来源数据特征作为计算可信度的一个参数。数据来源及分类Fsite经过人工验证的数据1.5自有数据未人工验证1预订类网站数据1.5非预订类网站数据0.8WeliaMlity = site * DT简介准确度Intr,如果是合作伙伴或者自身采集,设置为10;坐标准确度Coor.如果为地 图厂商提供,准确度设置为10,否则根据地理编码结果准确

3、度级别提供.Intr CoorReliability = site * (DT + 如 H 仍)二、商户信息完整度在本地搜索中,商户信息完整度对于用户体验至关重要,因此商户信息完整度是商户权重的一个重要方面,根据应用需要,设置完整度计算公式如下:字段分值地址存在03电话存在0.4简介存在0.1图片存在0.05有点评0.1有人均消费0.05根据上面的表,可以计算出商户的完整度integrityWntegrity =【addr +【tel +【intro +【pic + Liview +【piice三、商户信息关注度在数据运行过程中,与用户交互过程中所产生的信息,对商户权重有重要作用,这类作用称

4、为交互度。与用户的交互主要会产生以下信息:1. 用户浏览量及点评数,该参数可以计算商户的流行度。具体计算方法如下:流行度,也就是商户与用户的交互量,在一定程序上反应商户在社会中的重要程度,其主要反应在浏览量及点评量两个参数上。流行度的计算如下所示: 根据页面总浏览量:total_view_count_f来计算流行度tvcfrs = a tall-1 (,vi=nv * (2/n)(afl=k,根据网站的不同,人工根据网站级别进行设CLi=O viJ*ari置) 根据点评数:review_count_f来计算流行度成=皿1(蓄声*(2/n) (afl=3)用户交互度因子计算公式为:userint

5、erfoctor = tvcf * 0.2 + pfrS * 0.2 + rcf * 0.6? pks是什么? ?2. 用户点评时间,该参数可以计算商户的活跃度。具体计算方法如下:(1) 最新点评时间:latest_review_update_time_factor(vmax - 3600 * 24 * 180)3600*24*1800线性方程组方式vmax - 86400 * 180 v; vmaxV; Vmax - 86400 * 180采用6个月为活跃周期(2) 最近一周浏览量:latest_week_view_count_factor_1v;lwvcf;s = a tan x( i=n

6、 * (2/tQ)(S=3vi)/n*afl其中:afl=1.0(3) 最近一月浏览量:latest_month_view_count_factorImv% = a taL( I;* (2/n)(afl=1.0)Qi=o Vi)/n,ari其中:afl=1.0综上,活跃度计算公式:hotfoct0r = Irut&s * 0.5 + Iwvc&s * 0.3 + lmvcs * 0.23. 商家真实关注度:根据下发口志计算得到;用户下发短信或者打电话到商家;商户信息关注度计算公式:w _ ( userinterfactor * 0.3 + hotfactor * 0.2 w 1四、商户信息引用

7、度(2种关键词和链接)人类总是用知名的事物来介绍不知名的事物,因此被引用的事物往往重要性更高,因此商户 信息引用度可以作为商户信息权重的一个重要因素。步骤如下:1. 计算关键字间的引用因子定义集合E=n|nG(商户名称中的关键字),地址简介中的关键字,必须都要在E中出现,凡 是不出现的,不作统计。两个关键字匕和Kj间的引用因子W,j,计算公式为SdeM NdaZdeM Fl(kj,kj) + bZdeM F2(kkj) + cSdeM Wj其中Wij是关键字Ki对Kj的引用因子值。M代表所有的商户文档 d是任意一篇商户文档Fl(ki,kj)代表关键字Ki在商户文档d中的名称字段中的引用次数F2

8、(ki,kj)代表关键字Ki在商户文档d中的地址字段中的引用次数F3(ki,kj)代表关键字Ki在商户文档d中的简介字段中的引用次数a,b,c作为三个调控参数来设置三个字段的影响力。一般设为10, 5, 2。2. 构造引用因子矩阵构造矩阵:根据上面计算出来的各关键字间的引用因子,构造引用因子矩阵:w= (Wjj) nxn其中W,j代表关键字Ki对Kj的引用因子值,n代表关键字总数,i0, jn3. 计算每个关键字的重要度根据上面的矩阵,计算每个关键字的重要度,步骤如下:(1) 初始化每个关键字的重要度为R(i)= n代表关键字的个数(2) 初始化每个关键字的Authorities和Hubs值分

9、别为0(3) 计算每个关键字的Authorities值,公式为:Si =R(q )k-i其中ln(e)指的是e.引用的其它关键字的集合R(q )k-l指的是关键字第k-1次迭代计算出的重要度Wjj是关键字ej对关键字&的引用因子(4)计算每个关键字的Hubs值,公式为:So = R(eg )k-l X WggeOutj)其中Out(eJ指的是巳被其它关键字引用的集合R(%)k-i指的是关键字第k-1次迭代计算出的重要度W.g是关键字&对关键字eg的引用因子这样,每个关键字的重要度计算公式为1 dR(eDk = R(eDk-1 + dX(aX Sj + bX S) 4其中R(&)kT为关键字巳第

10、k-l次迭代的重要度,d为调控因子,n为关键字个数,a,b为 Authorities和Hubs的权重系数。4. 基于关键字引用度计算商户引用度1. 使用生活类词库分词(为了应对分词可能带来的问题,设定如下规则:名称长度小于等 于4个字的将不进行分词)。2. 去掉高频词,如“有限“,”公司“,”分店“,”店“等关键字。3. 把剩下的词,根据其IDF值,标上一个权重值P,得到带权重的关键字集合W4. 根据下面的公式计算商户引用权重Wdte = -X R(w) * P(w) n weW5. 网站链接引用同时访问,用户感兴趣的商户;网站收录数目网站数目和网站知名度 相关网页数目 分店量主页等五、是否考虑增加分类信息权重用于某类信息时排序使用,比如火锅的用户好评,服务质量等;六、商户信息统一权重商户统一权重是上面所述四个因素的一个综合,统一权重公式为:W = a * W,包ialility + b * Wg + C * Wntegrity + d * Wnter

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号