ABtest原理及用法总结

上传人:亦*** 文档编号:324277513 上传时间:2022-07-13 格式:DOCX 页数:3 大小:90.90KB
返回 下载 相关 举报
ABtest原理及用法总结_第1页
第1页 / 共3页
ABtest原理及用法总结_第2页
第2页 / 共3页
ABtest原理及用法总结_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《ABtest原理及用法总结》由会员分享,可在线阅读,更多相关《ABtest原理及用法总结(3页珍藏版)》请在金锄头文库上搜索。

1、ABtest原理及法总结A/B test的检卷产品或活动案调整优化在某指标上是否有显著改善效果c检绘构建实验组和对照组。之后,在后期的观察中.通过些统计法,验证效果的差异性是否显著。A/B test原理(注意区分计算不同:两总体均值检验、两总体率值检验)A/B test流程明确标:验证实验相对照组是否有显著性差异变化(提升或下降),如点击率、转化率、均订单量等等。选定指标:根据实验的和业务需求选定实验结果好坏的评价指标。般分层级,个核指标十多个观察指标。核指标来计算需要的样本量.以及度量我们这次实莫的效果。观察指标则来度量,该实验对其他数据的影响(如对盘留存的影响,对络延迟的影响等等)建假设:

2、建零假设和备选假设。零假设般是实验改动没有效果,备选假设是有效果,即实验组相对照组有显著性差异。计算样本量:选取显著性平、功效值,根据公式计算实验组所需最样本量。样本量与变异系数、功效(般要求0.8-0.95)成正,与提升度(般于 0.05)成反。因此,当延长可接受的实验周期累计样本量还是不够时,可以通过以下2种思路来降低样本量要求。(I)选择变异系数较的衡量指标;(2)降低功效值要求,放宽提升度。注意:以下法代。的是A和B的2个差组合(),相当于2倍差,因此计算的也是A、B两组总共需要的最样本量,假设检验时每组只需半的样本量即可。公式:n = 2X( Z吟-P)义 = 2X ( Za/2 +

3、Z.B ) 2 X (o/p)2 x (1/lift)2 当指标为相对指标的:16X02X 一(1)不合并两组率法。2:Poqo+Piqi、(2)合并两组率法 。2=2的.其中p=(a+p,)/2Z a/2 :取决于显著性水平(越小越好,表示犯1类错概率越小,一般a取0.05,双侧,对应临界值Zoq25=1.96口=(而加/2Z1-0 :取决于功效1 -5力下越大越好,表示3B2类错概率越小,一般1千取0.8,单侧,对应临界值Zos=084当指标为绝对指标时:。:实验前指标样本标准差/a2= 一、)- X2zn - 1A :提升度(实验前指标样本均值口 x提升百分比lift),注意:通常以户粒

4、度来作为实验单位。(1)户粒度:这个是最推荐的,即以个户的唯标识来作为实验样本。好处是符合AB测试的分桶单位唯性,不会造成个实验单位处于两个分桶,造成的数据不置信。( 2)设备粒度:以个设备标识为实给单位。相户粒度,如果个户有两个机,那么也可能出现个户在两个分桶中的情况,所以也会造成数据不置信的情况。( 3)为粒度:以次为为实党单位,也就是户某次使该功能,是实验桶,下次便可能就被切换为基线桶。会造成量的户处于不同的分桶。强烈不推荐这种式。收集数据:站或APP的访问者将被随机分配对照组和实验组,上线验证,并收集数据。流量分割F分流和分层两种思路。如果要同时上线多个实验,分流流量不够切,或者为了达

5、到最样本量需要很长的实验周期怎么办?这也不现实。此时就可以考虑 分层的思路,就是将同批户,不停的随机后,处于不同的桶。也就是说,个户会处于多个实验中,只要实验之间不相互影响,我们就能够限次的切割户。1)目的:用户叫的分01 .目的:用户叫的分01 .加:防一闲户悬于” g. BWiweaB*fM总与之mhiH于足不要8flAiM 发放30多交及会拒&UW 交叉不会哒*看WII实验周期:最样本量/实验桶天均流量。注意:在做AB测试时,尽量设定个测试效期,这个周期般是户的个活沃间隔期。线上验证:(I)验证实验改动是否效;(2)验证必须分流时,同户是否在个桶,否则数据就不置信了。检缭分析:达到最样本

6、量,查看看显著性结果、功效。最好耐观察段时间等结果稳定时再得出最终结果。(I)描述三指标(2)差齐性检党(3)较检验统计量或p值(般,绝对值指标检验,相对值指标?即率Z检验)A/B test简单案例实例背景简述:某司猜你想看业务接了的新推荐算法,新推荐策略算法开发完成后,在全流量上线之前要评估新推荐策略的优劣。所的评估法是A/Ble”具体做法是在全量中砌羊出两份流量,分别新推荐策略分和旧推荐策略分,通过对这两份流量下的指标(这按户点击衡量)的差异,可以评估出新策略的优劣,进决定新策略是 否全适合全流量。实例A/B test步骤:选定指标:CTR实验组:新的推荐策略B建假设:新的推荐策略实验组B

7、可以带来更多的户点击。计算样本量:此处和部分公司样缺少这步。收集数据:实验组B数据为新的策略结果数据,对照组A数据为旧的策略结果数据。均为伪造数据。检验分析(Python):利python中的scipy.stats.itcstj舒两组数据的双边检验,结果较简单。但是做于或者于的单边检测的时候需要将双边检验计算出来的hvalue除于2取单边的结果与显著性平cfO.05进较。注:部分公司也只做了收集数据后三个描述指标的较,未作假设检验。我们先看看实验组B和对照组A均值情况:很明显,实验组B的均值 对照组A的均值,但这就能说明实验组B可以带来更多的业务转化吗?还是仅仅是由于些随机因素造成的?I fr

8、om sc ipyi in port stats 2 iinportnumpy as np 3 import numpy asnp 4 import seaborn assns 5 6 A = np.array( 1,4,2, 3,5, 5, 5, 7, 8,9,10,18) 7B = np.array( 1,2,5,6, 8, 10, 13, 14, 17, 20,13,8) 8prii 煤咯 的均值是:;np.mcan(A)9 pril煤figB的均值是:;np.mcan(B)I Output:2 策略 A 的均值是:3策略B的均值是:9.75由于存在抽样误差,为了更加科学就需要进步做个假

9、设检验。因为我们是希望实莫组B效果更好,所以设置:(I)原假设Ho: Bv=A0备择假设H|: BA般研究者欲持的结论设为备择假设,其反作为原假设 ),即单侧检验scipy.slats.ttesjindi脸证的悬.mean()-y.mean(这个假设。为了在结果中得到正数,计算如下:slals.ltcst_ind(B,AxquaLvar= False)I output:2 根据scipy.siats.llesl_ind|蛆懈)释,这是双边检验的结果o为了得到单边检验的结果,需要将计算出来的p-value除于2取单边的结果与显著性平进较。显著性平造定取().05,计算的p-valuc=0.p/2

10、 cH).05,未落在拒绝域,所以不能够拒绝原假设,接受备择假设H : BA成。即暂时还不能够认为实 验组B就定能带来多的户点击。A/B test需要注意点:1、先验性:通过低代价,流量的实验,在推到全流量的户。 AB测试定要从流量逐渐放如果上线个功能,直接流量开到50%去做测试,那么如果数据效果不好,或者功能意外出现bug,对线上户将会造成极的影响。所以,建议开始从最样本量开始实 3佥,然后再逐渐扩户群体及实验样本量02、并性:不同版本、不同案在验证时,要保证其他条件都致。 户属性定要致如果上线个实验,我们对年轻群体上线,年群体不上线,实验后拿着效果来对,即使数据显著性检验通过,那么,实验也

11、是不可信的。因为AB测试的基础条件之,就是实验户的同质化。即实验户群,和实验户群的地域、性别、年龄等然属性因素分布基本致。 定要在同时间维度下做实验举例:如果某个招聘app,年前3份对户群A做了个实验,年中7份对户群B做了同个实给,结果7份的效果明显较差,但是可能本是由于周期性因素导致的。所以我们在实验时,定要排除掉季节等因素。分流 上线后验证改动对户是否效户如果被分组后,未触发实验,我们需要排除这类户。因为这类户本就不是AB该统计进的户(这种情况较少,如果有,那在做实验时打上效标签即可)上线后给证户不能同时处于多个组如果户同时国于多个组,那么,个是会对户造成误导(如每次使,效果都不样),个是

12、会对数据造成影响,我们不能确认及校验实验的效果及准确性 如果多个实验同时进,定要对户分层十分组如,在推荐算法修改的个实验中,我们还上线了个UI优化的实验,那么我们需要将户划分为4个组:A、算法+ UI, B、算法+新UI, C、新算法+UI,D、新算法+新UI,因为只有这样,我们才能同时进的两个实验的参与改动的元素,做数据上的评估3、科学性:是指不能直接均值转化率、均值点击率等来进AB test决策,应该通过置信区间、假设检给、收敛程度等数学原理进步科学验证得出结论。:AB测试最后得出结论B组相对于A组某指标提升了多少般是个区间,如说 (141.9第(1.5%.1.7%)如果实验组最样本量不该

13、怎么办(I)优先考虑,流量分割时通过扩分配的例,拉长时间周期,累计获得理想的最样本量C(2)裁少最样本量。通过(a)更改指标选择变异系数的指标,或(b)降低功效值要求、放提升度来实现。是 否需要上线第天就开始看效果?达到最样本量时,可以查看显著性结果、功效。最好继续耐观察段时间,结果稳定时得出最终结果。另,由于AB-Tesi,会影响到不同的户群体,所以,我们在做AB测试时,尽量设定个测试效期,这个周期般是户的个活沃间隔期。如招聘户活跃间隔是7天.那么效期为7天,如果是个机酒app,户活跃间隔是30天,那效期为30天 实际情况(如何改进)样本量计算这步,可能在部分公司不会使,更多的是偏向经验值;

14、如果我们对总体均值区间估计范围精度要求不,最样本量计算其实不是个必须的过程,当然样本量越这个范围就越精确,但同时我们付出的时间成本也会越。假设检验这步,部分公司可能也不会使。部分公司,都会有的AB平台,产运更偏向于平台上直接测试,最后在段时间后查看指标差异。对于以上两种情况,我们需要计算不同流量分布下的指标波动数据,把相关然波动下的阈值作为波动参考,这样能够概率保证AB实验的严谨及可信度。4、其它 终效应这种情况通常出现在社交络,以及共享经济场景(如滴滴)。举个例:如果微信改动了某个功能,这个功能让实验组户更加活跃。但是相应的,实验组的户 的好友没有分配到实验组,是对照组。但是,实险组户更活跃

15、(如更频繁的发朋友圈),作为对照组的我们也就会经常去刷朋友圈,那相应的,对照组户也受 到了实验组户的影响。本质上,对照组户也就收到了新的功能的影响,那么AB实验就不再能很好的检测出相应的效果。解决办法:从地理上区隔户,这种情况适合滴滴这种能够从地理上区隔的产品,如北京是实验组,上海是对照组,只要两个城市样本量相近即可。或者从户上直 接区隔,如我们刚刚举的例,我们按照户的亲密关系区分为不同的分层,按照户分层来做实验即可。但是这种案较复杂,建议能够从地理上区隔,就从地 理上区隔。 学习效应这种情况就类似,产品做了个醒的改版,如将某个按钮颜从暗调成亮。那相应的,很多户刚刚看到,会有个新奇,去点击该按钮,导致按钮点击率在段时间内上涨,但是长时间来看,点击率可能会恢复到原有平。反之,如果我们将亮调成暗,也有可能短时间内点击率下降,长时间内恢复到原有平。这就是学习效应。解决办法:个是拉长周期来看,我们不要开始就去观察该指标,是在段时间后再去观察指标。通过刚刚的描述家也知道,新奇效应会随着时间推移消失。另种办法是只看新户,因为新户不会有学习效应这个问题,毕竟新户并不知道版本是什么样的。 多重检验放犯错概率问题这个很好理解,就是如果我们在实验中,不断的检验指标是否有差异,会造

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号