Show Menu
主题×

A/B 测试应该持续多长时间?

成功的 A/B 测试需要足够数量的访客(样本量)才能提高转化率,但您如何知道 A/B 测试应该持续多长时间?本文包含有关自动分配活动和 Target 样本量计算器的信息,可帮助您确保活动拥有足够数量的访客来实现您的目标。
如果在活动的前几天中,就有一个选件的表现大大优于或弱于其他选件,那么很有可能在此时即停止活动。但是,当观察数量较低时,很有可能只是偶然观察到正或负的提升,因为转化率只是少数访客的平均值。随着活动收集的数据点越来越多,转化率会逐渐靠近真正的长期值。
在执行 A/B 测试时,过早停止活动是您可能会遇到的九种主要陷阱之一。有关更多信息,请参阅 九种常见的 A/B 测试陷阱以及避免方法
Target 提供了一些工具来帮助确保您的活动具有足够的样本量,以满足转化目标:
  • 自动分配: ​自动分配活动是一种 A/B 测试,可标识两个或多个体验中的入选者,并在测试继续运行和学习期间,自动为入选者重新分配更多流量以提高转化。
    标准 A/B 测试具有一定的固有成本。您必须花费流量来衡量每个体验的性能,并通过分析找出入选体验。即使在您认识到某些体验的性能优于其他体验之后,流量分配仍保持不变。此外,要算出样本量也很复杂,并且活动必须运行其整个过程,然后才能对入选者执行操作。在完成所有这些操作之后,确定的入选者仍可能不是真实入选者。
    解决方案是自动分配。自动分配可降低确定入选体验的成本和开销。自动分配会监控所有体验的目标量度性能,并按比例将更多新参加者发送到高性能体验。同时,也会保留足够的流量来探索其他体验。即使活动仍在运行,您也可以看到该测试对结果带来的好处:优化与学习并行进行。
    自动分配会逐渐将访客移到入选体验,而无需您等到活动结束才确定入选者。您可以更快地从提升度中受益,因为原本将被发送到不太成功的体验的活动参加者现在会看到潜在的入选体验。
    使用自动分配功能时,Target 会在活动页面的顶部显示一个标记,在活动达到最低转化次数,且具有足够的置信度之前,该标记会一直指示“还没有入选者”。然后,Target 会通过在活动页面顶部显示一个徽章来确定入选体验。
    有关更多信息,请参阅 自动分配
  • Target 样本量计算器: ​如果您选择使用手动 A/B 测试而不是自动分配,则 Target 样本量计算器可帮助您确定测试取得成功所需的样本量。手动A/B测试是固定水平测试,因此计算器非常有用。 对“自动分配”活动使用计算器是可选的,因为“自动分配”将为您声明一个入选方。 该计算器粗略估计了所需的样本大小。 继续阅读可了解有关如何使用计算器的更多信息。

Adobe Target 样本量计算器

Before setting up your A/B test, access the Adobe Target sample size calculator .
在进行任何 A/B 测试之前,确定足够的样本量(访客数量)非常重要,这样可以确定在对结果进行评估之前测试需要运行多长时间。如果只是监控测试直至达到统计意义,则会导致置信区间被大大低估,从而使测试不可靠。此结果的依据是,如果检测到具有统计意义的结果,则停止测试并确定入选者。但是,如果结果不具有统计意义,则允许测试继续。此过程非常容易产生正面的结果,这会增加误报率,并因此扭曲测试的有效显著性水平。
这样导致的结果可能是出现大量误报,从而导致实施的是在长期运行中无法交付预计提升度的选件。较低的提升度已是一个不令人满意的结果,但更严重的后果是,随着时间的推移,无法准确预测提升度会削弱组织对测试的信任度。
本文将讨论确定样本量时必须权衡的因素,并介绍用于估算足够样本量的电子表格计算器。在开始进行任何 A/B 测试之前,使用样本量计算器(上面提供的链接)计算样本量可确保您始终运行符合统计标准的高质量 A/B 测试。
有五个用户定义的参数可以对 A/B 测试进行定义。这些参数是相互关联的,因此,当已确定其中的四个参数时,便可以计算出第五个参数:
  • 统计意义
  • 统计功效
  • 能够可靠检测到的最小提升度
  • 基准线转化率
  • 访客数量
对于 A/B 测试,由分析人员设置统计意义、统计功效、能够可靠检测到的最小提升度和基准线转化率,然后根据这些数字计算所需的访客数量。本文将讨论这些元素,并提供如何针对特定测试确定这些元素的指导原则。
下图说明了 A/B 测试可能出现的四种结果:
最好不要出现误报或漏报。但是,统计测试无法保证这一点。始终存在这种可能的情况:观察到的趋势并不代表潜在的转化率。例如,在某个测试中,要看投掷硬币时是正面的可能性更大还是反面的可能性更大,即使使用了公平的硬币,也有可能在 10 次投掷中获得 10 个正面朝上的偶然性结果。统计意义和功效可帮助我们量化误报和漏报率,并使我们能够在给定测试中将它们保持在合理水平。

统计意义

测试的显著性水平可确定出现以下情况的可能性大小:测试报告两种不同选件之间的转化率存在显著差异,但实际上并不存在真正的差异。此种情况被称为误报或 I 类错误。显著性水平是用户指定的阈值,是在误报和必须包含在测试中的访客数量之间的容差做出的一种权衡。
在 A/B 测试中,最开始假设两种选件均具有相同的转化率。然后根据这个假设计算观察到的结果的概率。如果此概率(p 值)小于某个预定义的阈值(显著性水平),则 Target 的结论是初始假设(两个选件均具有相同的转化率)是不正确的,因此 A 和 B 在给定的显著性水平上存在具有统计意义的差异。
A/B 测试中常用的显著性水平是 5%,这与 95% 的置信水平相对应(置信度 = 100% - 显著性水平)。95% 的置信水平意味着每次进行测试时,即使选件之间实际没有差异,也有 5% 的概率检测到具有统计意义的提升度。
下表总结了对置信水平的一般性解释:
置信水平
解释
< 90%
没有证据表明转化率存在差异
90-95%
没有充分的证据表明转化率存在差异
95-99%
有比较充分的证据表明转化率存在差异
99-99.9%
具有可靠的证据表明转化率存在差异
+99.9%
具有强有力的证据表明转化率存在差异
建议始终使用 95% 或更高的置信水平。
最好使用尽可能高的置信水平,这样测试会减少产生的误报数量。然而,置信水平越高,所需的访客数量就越多,从而增加测试所需的时间。此外,置信水平的提高会导致统计功效下降。

统计功效

A/B 测试的统计功效是指检测到转化率之间存在一定量级实际差异的概率。由于转化事件具有随机性,因此可能存在这样的偶然性:即使两个选件之间的转化率存在实际差异,也不会发现具有统计意义的显著差异。这被称为漏报或 II 类错误。
统计功效往往会被忽略,因为与统计意义相比,统计功效并不是进行 A/B 测试所必需的。然而,如果忽略统计功效,则会因为样本量太小,而导致测试不能检测到不同选件转化率之间的实际差异。这会使测试更易于产生误报的结果。
最好设置较高的统计功效,这样测试识别到转化率之间实际差异的可能性较高,并减少漏报的产生。但是,提高检测任何给定提升度的统计功效都需要大量的访客,这会增加测试所需的时间。
统计功效的常用值为 80%,这意味着测试有 80% 的概率可以检测到与能够可靠检测到的最小提升度相等的差异。该测试检测到更小提升度的概率较低,而检测到更大提升度的概率较高。

能够可靠检测到的最小提升度

大多数组织都想要测量转化率中的最小可能差异,因为即使只是小幅提升也值得实施。但是,如果您希望 A/B 测试有较高的概率能够检测到非常小的提升,则所需的必须包含在测试中的访客数量也将非常大。其原因在于,如果转化率之间的差异较小,则估算转化率的准确度必须较高才能识别此差异,而这需要大量的访客。因此应根据业务需求,在检测到较小提升度和花费更长时间运行测试这两者之间进行权衡,来确定能够可靠检测到的最小提升度。
例如,假设两个选件(A 和 B)分别具有 10% 和 15% 的真正转化率。如果每个选件向 100 位访客显示,则由于转化的随机性,有 95% 的概率可观察到选件 A 的转化率范围为 4% 到 16%,观察到选件 B 的转化率范围为 8% 至 22%。这些范围在统计学中被称为置信区间。它们表示对估算转化率准确度的置信度。样本量越大(访客越多),您就可以越确信估算转化率的准确度。
下图显示了这些概率的分布情况。
由于两个范围之间的叠加部分较大,因此测试无法确定转化率是否有差异。因此,这个包含 100 位访客的测试无法区分这两种选件。但是,如果我们向 5,000 位访客展示选件,那么有 95% 的概率可观察到转化率范围分别为 9% 到 11% 和 14% 到 16%。
在这种情况下,测试结果就不太可能会导致错误结论,因此包含 5,000 名访客的测试可以区分这两种选件。包含 5,000 名访客的测试的置信区间约为 +/- 1%。这意味着测试可以检测到约为 1% 的差异。因此,如果选件的实际转化率为 10% 和 10.5%,而不是 10% 和 15%,则需要更多的访客。

基准线转化率

基准线转化率是指控制选件(选件 A)的转化率。通常,您根据以前的体验已对选件的转化程度有所了解。如果情况并非如此,例如,因为这是一个新的选件或创意,则可以让测试运行一天左右,以便粗略估算可在样本量计算中使用的基准线转化率。

估算样本量

要在长时间运行测试的机会成本与产生误报和漏报的风险之间达到平衡,是一件非常困难的事。显然,您不想做出错误的决定,但因遵守过于严格或苛刻的测试标准而陷于困扰也是不可取的。作为一般指导原则,建议您使用 95% 的置信水平和 80% 的统计功效。
样本量计算器(上面提供的链接)需要您确定统计意义(建议:95%)和统计功效(建议:80%)。在输入基准线转化率和所有选件的每日流量之后,电子表格会输出检测到 1%、2%、5%、10%、15% 和 20% 提升度所需的访客数量,检测到这些提升度的概率等于为该测试指定的功效。电子表格还允许用户输入自定义的能够可靠检测到的最小提升度。此外,电子表格会根据用户输入的流量级别输出测试所需的周数。所需的周数将四舍五入到最接近的整周,以避免出现影响结果的周内效应。
在测试中可以确定的最小提升度和所需的访客数量之间存在一个权衡问题。下图显示了随着访客数量增加,收益大幅递减(该数据对基准线(控制)转化率为 5% 时有效)。在将最初的几位访客添加到测试中时,能够可靠检测到的最小提升度大大增加,但之后需要越来越多的访客来改进测试。该图表有助于在运行测试所需的时间(由所需访客数量和网站流量决定)与测试能够可靠检测到的最小提升度之间找到充分的权衡。
在此示例中,您可能会认为在 100 次测试中有 80 次能够检测到 5%(相当于替代选件具有 (100%+5%) 5% = 5.25% 的转化率)的提升度便已足够,因此您需要每个选件的样本量为 100,000 位访客。如果该网站每天有 20,000 位访客,且您正在测试两个选件,则允许测试运行的时间应该为 2 100,000/20,000 = 10 天,然后才能确定替代选件是否在统计上显著优于控制选件。再次建议将所需的时间始终四舍五入至最接近的整周,以避免出现周内效应。因此在本例中,在评估结果之前,测试将会运行两周。

“每次访问带来的收入”量度

将“每次访问带来的收入”(RPV) 用作量度时,会增加额外的方差来源,因为 RPV 是每个订单带来的收入和转化率的乘积(RPV = 收入 / 访客量 =(每个订单带来的收入 * 订单量)/ 访客量 = 每个订单带来的收入 *(访客量 * CTR)/ 访客量 = 每个订单带来的收入 * CTR),每个都有自己的方差。可以使用数学模型直接估算转化率的方差,但每个订单收入的方差特定于该营销活动。因此,可以借鉴过去营销活动中的此方差,或者运行 A/B 测试几天来估算收入的方差。方差是根据 CSV 下载文件中找到的销售额总和、销售额总和的平方和访客数量的值计算得出的。确定方差后,请使用电子表格计算完成测试所需的时间。
样本量计算器(上文提供了链接)可帮助您配置 RPV 量度。打开计算器时,您会看到一个标记为 RPV 量度的选项卡。使用计算器的 RPV 版本时,您需要以下信息:
  • 控制选件的访客数量
  • 控制选件的总收入
    请确保勾选了“极端订单”筛选器。
  • 控制选件的收入平方和
    请确保勾选了“极端订单”筛选器。
一般来说,使用 RPV 作为量度需要增加 20-30% 的时间来达到与测量提升度水平相同的统计置信水平,因为 RPV 在每次转化都会有不同订单大小而带来的额外方差。当您在直接转化率和 RPV 之间进行选择,以谁为量度作为最终业务决策的基础时,这应该是您考虑的一个注意事项。

对多个选件的比较进行校正

每次比较两个选件时,获得误报(即:即使转化率没有差异,也观察到具有统计意义的显著差异)的概率等于显著性水平。例如,如果有五个选件 A/B/C/D/E,A 是控制选件,且已经完成了四组比较(控制选件与 B,控制选件与 C,控制选件与 D,控制选件与 E);那么即使当置信水平为 95% 时,由于 Pr(至少一个误报)= 1 - Pr(无误报)= 1 - 0.95 = 18.5%,误报的概率也有 18.5%。在这种情况下,误报的定义为:报告的控制选件优于替代选件,或者报告的替代选件优于控制选件,但实际上它们之间没有区别。

结论

通过使用自动分配活动,Target 可在两个或更多体验中标识一个入选者,并在测试继续运行和学习期间,自动为入选者重新分配更多流量以提高转化。自动分配简化了实现转化目标的过程,同时又免去了估算工作。
通过使用本文介绍的样本量计算器(上文提供了链接),并让测试根据该计算器建议的时间运行,您可以确保始终进行高质量的 A/B 测试,这些测试符合误报和漏报率,而您确定此误报和漏报率对于特定的测试已足够。这可确保您的测试具有一致性并能够可靠地检测到您要寻找的提升。