A/Bn 测试中的统计计算

本文记录了在手动A/Bn测试中使用的详细统计计算 Adobe Target. 提供了以下内容的定义 转化率, 转化率的置信区间, 提升, 提升度的置信区间、和 置信度.

NOTE
本文中的信息取代了​ 用于 A/B 测试的 Adobe Target 计算 pdf 文件,以前可在此站点上下载。

显示 转化率, 平均提升度和置信区间、和 置信度 A/B测试活动的日志。

平均性能

下节将说明上图中使用的计算。

转化率和每位访客带来的收入(RPV)促销活动

下图显示 转化率, 转化率的置信区间,以及的数量 转化 在 Target 报告。 例如,第一行显示对于体验A: 转化率 为25.81%,使用 置信区间 ±7.7%,转化率为32次。 考虑到有124位访客查看了此体验,则相当于32/124 = 25.81%。

{width="25%"}

转换率或 平均值μν,代表每个体验 ν 在实验中,被定义为量度总和相对于分配给该量度的单位数的比率, Nν

{width="125px"}

这里,

  • Y 是每个单位的量度值 i,已分配给给定体验 ν.

  • 单位总和 i 取决于计数方法的选择。

    • 如果 访客 使用作为计数方法,每个单位都是独特访客,定义为活动生命周期中的独特参与者。
    • 如果 访问 使用作为计数方法,每个单位都是唯一访问,其定义为 Target 会话(具有唯一 sessionId)。 当 sessionId 如果发生更改,或访客达到转化步骤,则会计为新访问。
    • 如果 活动展示次数 用作计数方法,每个单位都是一个唯一的展示次数,定义为每次访客加载活动的任何页面时。

平均值的置信区间/转化率

转换率的置信区间被直观地定义为与基础数据一致的可能转换率的范围。

运行试验时,给定体验的转化率为 预估 “真实”转化率的10%。 为量化此估计中的不确定因素, Target 使用置信区间。 Target 始终报告95%的置信区间,这意味着最终,计算的95%置信区间将包括体验的真实转化率。

转化率的95%置信区间 μν 定义为值的范围:

{width="30%"}

其中平均值的标准误差定义为

{width="75px"}

当使用样本标准差的无偏估计时:

{width="200px"}

如果促销活动是转化率促销活动(即,转化量度是二进制的),则标准错误将减少为:

{width="150px"}

提升度

下图显示 提升 和 提升度的置信区间 在 Target 报告。 数字表示提升度范围的平均值,箭头反映提升度是正还是负。 箭头以灰色显示,直到置信度超过95%。 置信度超过阈值后,箭头会根据提升度为正值或负值显示为绿色或红色。

{width="35%"}

体验之间的提升 ν ​和控制体验 ν0 是转化率中的相对“增量”,其定义如下

{width="15%"}

倘个别兑换率定义见上文。 更简单地说,

Lift(Experience N) = (Performance_Experience_N - Performance_Control)/ Performance_Control

如果控制体验的转化率 ν0 为0,没有电梯。

Confidence Interval of Lift

中的箱形图 平均提升度和置信区间 列表示平均值和95% 提升度的置信区间. 当给定非控制体验的置信区间与控制体验的置信区间存在任何重叠时,箱形图呈灰色。 当给定体验的置信区间范围高于或低于控制体验的置信区间时,箱形图呈绿色或红色。

体验之间提升的标准误差 ν ​和控制体验 ν0 定义为:

metric-mean {width="35%"}

那么提升度的95%置信区间为:

{width="40%"}

此计算使用“Delta”方法,并对此进行了说明 详情请参阅本文档

置信度

最后一列显示了 Target 报告。 在空假设为真的情况下,体验的置信度是获得极端结果的概率(用百分比表示),就像观察到的结果一样。 就p值而言,显示的置信度为 1 - p值. 直觉上,较高的置信度意味着控制体验和非控制体验具有相等转化率的可能性较小。

在 Target,双尾 韦尔奇t检验 将在测试体验和控制体验之间执行,以测试测试手段和控制体验是否相同。 因为通常我们不知道两组样本大小和方差是否相同,在进行实验之前, Target 利用这种方法,如果发送到每个体验的流量百分比不相等,则不会假定每个体验的方差相等。 因此,韦尔奇的t检验被选作学生的t检验。

为进行Welch的t检验,首先计算t统计量和自由度,然后进行双尾t检验以生成p值。 最后,根据p值计算置信度。

t-statistic定义为任意两个独立随机变量均值的差值, νν0,除以标准误差之差:

{width="100px"}

位置 μvμv0 是手段 νν0 分别用标准误差法和标准误差法求得PSD与PSD μvμv0 由以下人员提供:

{width="150px"}

位置 σ2vσ2v0 是两个体验之间的差异 νν0 分别,和 NvNv0 的样本大小 νν0 的量度。

对于Welch的t检验,自由度计算如下:

{width="180px"}

和自由度 νν0 定义为:

{width="100px"}

{width="100px"}

然后p值可以从尾部的区域计算 t-distribution:

{width="20%"}

最后,还报告了 Target 定义为:

{width="20%"}

脱机执行计算

下载的 CSV 报表仅包含原始数据,而不包含计算量度,如 A/B 测试中使用的每位访客带来的收入、提升度或置信度。

要计算这些统计量,请下载 Target 完全置信度计算器 用于输入活动值的Excel文件。

recommendation-more-help
3d9ad939-5908-4b30-aac1-a4ad253cd654