ABtest原理及用法总结

资源描述

《ABtest原理及用法总结》由会员分享，可在线阅读，更多相关《ABtest原理及用法总结（3页珍藏版）》请在金锄头文库上搜索。

1、ABtest原理及法总结A/B test的检卷产品或活动案调整优化在某指标上是否有显著改善效果c检绘构建实验组和对照组。之后，在后期的观察中.通过些统计法，验证效果的差异性是否显著。A/B test原理（注意区分计算不同：两总体均值检验、两总体率值检验）A/B test流程明确标：验证实验相对照组是否有显著性差异变化（提升或下降），如点击率、转化率、均订单量等等。选定指标：根据实验的和业务需求选定实验结果好坏的评价指标。般分层级，个核指标十多个观察指标。核指标来计算需要的样本量.以及度量我们这次实莫的效果。观察指标则来度量，该实验对其他数据的影响（如对盘留存的影响，对络延迟的影响等等）建假设：

2、建零假设和备选假设。零假设般是实验改动没有效果，备选假设是有效果，即实验组相对照组有显著性差异。计算样本量：选取显著性平、功效值,根据公式计算实验组所需最样本量。样本量与变异系数、功效（般要求0.8-0.95）成正，与提升度（般于 0.05）成反。因此，当延长可接受的实验周期累计样本量还是不够时，可以通过以下2种思路来降低样本量要求。（I）选择变异系数较的衡量指标；（2）降低功效值要求，放宽提升度。注意：以下法代。的是A和B的2个差组合（）,相当于2倍差，因此计算的也是A、B两组总共需要的最样本量，假设检验时每组只需半的样本量即可。公式：n = 2X（ Z吟-P）义 = 2X （ Za/2 +

3、Z.B ） 2 X （o/p）2 x （1/lift）2 当指标为相对指标的：16X02X 一（1）不合并两组率法。2:Poqo+Piqi、（2）合并两组率法。2=2的.其中p=（a+p,）/2Z a/2 :取决于显著性水平（越小越好，表示犯1类错概率越小,一般a取0.05,双侧，对应临界值Zoq25=1.96口=（而加/2Z1-0 :取决于功效1 -5力下越大越好,表示3B2类错概率越小，一般1千取0.8,单侧，对应临界值Zos=084当指标为绝对指标时：。：实验前指标样本标准差/a2= 一、）- X2zn - 1A :提升度（实验前指标样本均值口 x提升百分比lift）,注意：通常以户粒

4、度来作为实验单位。（1）户粒度：这个是最推荐的，即以个户的唯标识来作为实验样本。好处是符合AB测试的分桶单位唯性，不会造成个实验单位处于两个分桶,造成的数据不置信。（ 2）设备粒度：以个设备标识为实给单位。相户粒度，如果个户有两个机，那么也可能出现个户在两个分桶中的情况,所以也会造成数据不置信的情况。（ 3）为粒度：以次为为实党单位，也就是户某次使该功能，是实验桶,下次便可能就被切换为基线桶。会造成量的户处于不同的分桶。强烈不推荐这种式。收集数据：站或APP的访问者将被随机分配对照组和实验组，上线验证，并收集数据。流量分割F分流和分层两种思路。如果要同时上线多个实验，分流流量不够切，或者为了达

5、到最样本量需要很长的实验周期怎么办？这也不现实。此时就可以考虑分层的思路，就是将同批户，不停的随机后，处于不同的桶。也就是说，个户会处于多个实验中，只要实验之间不相互影响，我们就能够限次的切割户。1)目的：用户叫的分01 .目的：用户叫的分01 .加：防一闲户悬于” g. BWiweaB*fM总与之mhiH于足不要8flAiM 发放30多交及会拒&UW 交叉不会哒*看WII实验周期：最样本量/实验桶天均流量。注意：在做AB测试时，尽量设定个测试效期,这个周期般是户的个活沃间隔期。线上验证：(I)验证实验改动是否效；(2)验证必须分流时，同户是否在个桶，否则数据就不置信了。检缭分析：达到最样本

6、量,查看看显著性结果、功效。最好耐观察段时间等结果稳定时再得出最终结果。(I)描述三指标(2)差齐性检党(3)较检验统计量或p值(般，绝对值指标检验，相对值指标？即率Z检验)A/B test简单案例实例背景简述:某司猜你想看业务接了的新推荐算法,新推荐策略算法开发完成后，在全流量上线之前要评估新推荐策略的优劣。所的评估法是A/Ble”具体做法是在全量中砌羊出两份流量,分别新推荐策略分和旧推荐策略分，通过对这两份流量下的指标(这按户点击衡量)的差异，可以评估出新策略的优劣，进决定新策略是否全适合全流量。实例A/B test步骤：选定指标：CTR实验组：新的推荐策略B建假设：新的推荐策略实验组B

7、可以带来更多的户点击。计算样本量：此处和部分公司样缺少这步。收集数据：实验组B数据为新的策略结果数据，对照组A数据为旧的策略结果数据。均为伪造数据。检验分析(Python)：利python中的scipy.stats.itcstj舒两组数据的双边检验，结果较简单。但是做于或者于的单边检测的时候需要将双边检验计算出来的hvalue除于2取单边的结果与显著性平cfO.05进较。注：部分公司也只做了收集数据后三个描述指标的较,未作假设检验。我们先看看实验组B和对照组A均值情况：很明显，实验组B的均值对照组A的均值，但这就能说明实验组B可以带来更多的业务转化吗？还是仅仅是由于些随机因素造成的？I fr

8、om sc ipyi in port stats 2 iinportnumpy as np 3 import numpy asnp 4 import seaborn assns 5 6 A = np.array( 1,4,2, 3,5, 5, 5, 7, 8,9,10,18) 7B = np.array( 1,2,5,6, 8, 10, 13, 14, 17, 20,13,8) 8prii 煤咯的均值是：；np.mcan(A)9 pril煤figB的均值是：；np.mcan(B)I Output:2 策略 A 的均值是：3策略B的均值是：9.75由于存在抽样误差，为了更加科学就需要进步做个假

9、设检验。因为我们是希望实莫组B效果更好，所以设置：(I)原假设Ho： Bv=A0备择假设H|： BA般研究者欲持的结论设为备择假设，其反作为原假设 )，即单侧检验scipy.slats.ttesjindi脸证的悬.mean()-y.mean(这个假设。为了在结果中得到正数，计算如下：slals.ltcst_ind(B,AxquaLvar= False)I output:2 根据scipy.siats.llesl_ind|蛆懈)释，这是双边检验的结果o为了得到单边检验的结果，需要将计算出来的p-value除于2取单边的结果与显著性平进较。显著性平造定取().05,计算的p-valuc=0.p/2

10、 cH).05,未落在拒绝域，所以不能够拒绝原假设，接受备择假设H : BA成。即暂时还不能够认为实验组B就定能带来多的户点击。A/B test需要注意点：1、先验性：通过低代价，流量的实验，在推到全流量的户。 AB测试定要从流量逐渐放如果上线个功能，直接流量开到50%去做测试，那么如果数据效果不好，或者功能意外出现bug,对线上户将会造成极的影响。所以，建议开始从最样本量开始实 3佥，然后再逐渐扩户群体及实验样本量02、并性：不同版本、不同案在验证时，要保证其他条件都致。户属性定要致如果上线个实验,我们对年轻群体上线，年群体不上线，实验后拿着效果来对，即使数据显著性检验通过，那么，实验也

11、是不可信的。因为AB测试的基础条件之,就是实验户的同质化。即实验户群，和实验户群的地域、性别、年龄等然属性因素分布基本致。定要在同时间维度下做实验举例：如果某个招聘app,年前3份对户群A做了个实验，年中7份对户群B做了同个实给，结果7份的效果明显较差，但是可能本是由于周期性因素导致的。所以我们在实验时，定要排除掉季节等因素。分流上线后验证改动对户是否效户如果被分组后，未触发实验，我们需要排除这类户。因为这类户本就不是AB该统计进的户（这种情况较少，如果有，那在做实验时打上效标签即可）上线后给证户不能同时处于多个组如果户同时国于多个组，那么，个是会对户造成误导（如每次使，效果都不样），个是

12、会对数据造成影响，我们不能确认及校验实验的效果及准确性如果多个实验同时进，定要对户分层十分组如，在推荐算法修改的个实验中，我们还上线了个UI优化的实验，那么我们需要将户划分为4个组：A、算法+ UI, B、算法+新UI, C、新算法+UI,D、新算法+新UI,因为只有这样，我们才能同时进的两个实验的参与改动的元素，做数据上的评估3、科学性：是指不能直接均值转化率、均值点击率等来进AB test决策，应该通过置信区间、假设检给、收敛程度等数学原理进步科学验证得出结论。:AB测试最后得出结论B组相对于A组某指标提升了多少般是个区间，如说（141.9第（1.5%.1.7%）如果实验组最样本量不该

13、怎么办（I）优先考虑，流量分割时通过扩分配的例，拉长时间周期，累计获得理想的最样本量C（2）裁少最样本量。通过（a）更改指标选择变异系数的指标，或（b）降低功效值要求、放提升度来实现。是否需要上线第天就开始看效果？达到最样本量时,可以查看显著性结果、功效。最好继续耐观察段时间，结果稳定时得出最终结果。另，由于AB-Tesi,会影响到不同的户群体，所以，我们在做AB测试时，尽量设定个测试效期，这个周期般是户的个活沃间隔期。如招聘户活跃间隔是7天.那么效期为7天，如果是个机酒app,户活跃间隔是30天，那效期为30天实际情况（如何改进）样本量计算这步，可能在部分公司不会使，更多的是偏向经验值；

14、如果我们对总体均值区间估计范围精度要求不，最样本量计算其实不是个必须的过程，当然样本量越这个范围就越精确，但同时我们付出的时间成本也会越。假设检验这步，部分公司可能也不会使。部分公司，都会有的AB平台，产运更偏向于平台上直接测试，最后在段时间后查看指标差异。对于以上两种情况，我们需要计算不同流量分布下的指标波动数据，把相关然波动下的阈值作为波动参考，这样能够概率保证AB实验的严谨及可信度。4、其它终效应这种情况通常出现在社交络，以及共享经济场景（如滴滴）。举个例：如果微信改动了某个功能，这个功能让实验组户更加活跃。但是相应的，实验组的户的好友没有分配到实验组，是对照组。但是，实险组户更活跃

15、（如更频繁的发朋友圈），作为对照组的我们也就会经常去刷朋友圈，那相应的，对照组户也受到了实验组户的影响。本质上，对照组户也就收到了新的功能的影响，那么AB实验就不再能很好的检测出相应的效果。解决办法：从地理上区隔户，这种情况适合滴滴这种能够从地理上区隔的产品，如北京是实验组,上海是对照组，只要两个城市样本量相近即可。或者从户上直接区隔，如我们刚刚举的例，我们按照户的亲密关系区分为不同的分层，按照户分层来做实验即可。但是这种案较复杂，建议能够从地理上区隔，就从地理上区隔。学习效应这种情况就类似，产品做了个醒的改版，如将某个按钮颜从暗调成亮。那相应的，很多户刚刚看到，会有个新奇，去点击该按钮，导致按钮点击率在段时间内上涨，但是长时间来看，点击率可能会恢复到原有平。反之，如果我们将亮调成暗，也有可能短时间内点击率下降，长时间内恢复到原有平。这就是学习效应。解决办法：个是拉长周期来看，我们不要开始就去观察该指标，是在段时间后再去观察指标。通过刚刚的描述家也知道，新奇效应会随着时间推移消失。另种办法是只看新户，因为新户不会有学习效应这个问题，毕竟新户并不知道版本是什么样的。多重检验放犯错概率问题这个很好理解，就是如果我们在实验中，不断的检验指标是否有差异，会造

展开阅读全文