A/Bn 测试中的统计计算

Last update: Mon Aug 14 2023 00:00:00 GMT+0000 (Coordinated Universal Time)

主题：
Reports

本文记录了在手动A/Bn测试中使用的详细统计计算 Adobe Target. 提供了以下内容的定义转化率，转化率的置信区间，提升，提升度的置信区间、和置信度.

NOTE

本文中的信息取代了 用于 A/B 测试的 Adobe Target 计算 pdf 文件，以前可在此站点上下载。

显示转化率，平均提升度和置信区间、和置信度 A/B测试活动的日志。

平均性能

下节将说明上图中使用的计算。

转化率和每位访客带来的收入(RPV)促销活动

下图显示转化率，转化率的置信区间，以及的数量转化在 Target 报告。例如，第一行显示对于体验A：转化率为25.81%，使用置信区间 ±7.7%，转化率为32次。考虑到有124位访客查看了此体验，则相当于32/124 = 25.81%。

{width="25%"}

转换率或 平均值， μ_ν，代表每个体验 ν 在实验中，被定义为量度总和相对于分配给该量度的单位数的比率， N_ν：

{width="125px"}

这里，

Y_iν 是每个单位的量度值 i，已分配给给定体验 ν.
单位总和 i 取决于计数方法的选择。
- 如果访客使用作为计数方法，每个单位都是独特访客，定义为活动生命周期中的独特参与者。
- 如果访问使用作为计数方法，每个单位都是唯一访问，其定义为 Target 会话(具有唯一 sessionId)。当 sessionId 如果发生更改，或访客达到转化步骤，则会计为新访问。
- 如果 活动展示次数 用作计数方法，每个单位都是一个唯一的展示次数，定义为每次访客加载活动的任何页面时。

平均值的置信区间/转化率

转换率的置信区间被直观地定义为与基础数据一致的可能转换率的范围。

运行试验时，给定体验的转化率为预估 “真实”转化率的10%。为量化此估计中的不确定因素， Target 使用置信区间。 Target 始终报告95%的置信区间，这意味着最终，计算的95%置信区间将包括体验的真实转化率。

转化率的95%置信区间 μ_ν 定义为值的范围：

{width="30%"}

其中平均值的标准误差定义为

{width="75px"}

当使用样本标准差的无偏估计时：

{width="200px"}

如果促销活动是转化率促销活动（即，转化量度是二进制的），则标准错误将减少为：

{width="150px"}

提升度

下图显示提升和提升度的置信区间在 Target 报告。数字表示提升度范围的平均值，箭头反映提升度是正还是负。箭头以灰色显示，直到置信度超过95%。置信度超过阈值后，箭头会根据提升度为正值或负值显示为绿色或红色。

{width="35%"}

体验之间的提升 ν 和控制体验 ν₀ 是转化率中的相对“增量”，其定义如下

{width="15%"}

倘个别兑换率定义见上文。更简单地说，

Lift(Experience N) = (Performance_Experience_N - Performance_Control)/ Performance_Control

如果控制体验的转化率 ν₀ 为0，没有电梯。

Confidence Interval of Lift

中的箱形图平均提升度和置信区间列表示平均值和95% 提升度的置信区间. 当给定非控制体验的置信区间与控制体验的置信区间存在任何重叠时，箱形图呈灰色。当给定体验的置信区间范围高于或低于控制体验的置信区间时，箱形图呈绿色或红色。

体验之间提升的标准误差 ν 和控制体验 ν₀ 定义为：

metric-mean {width="35%"}

那么提升度的95%置信区间为：

{width="40%"}

此计算使用“Delta”方法，并对此进行了说明详情请参阅本文档

置信度

最后一列显示了 Target 报告。在空假设为真的情况下，体验的置信度是获得极端结果的概率（用百分比表示），就像观察到的结果一样。就p值而言，显示的置信度为 1 - p值. 直觉上，较高的置信度意味着控制体验和非控制体验具有相等转化率的可能性较小。

在 Target，双尾 韦尔奇t检验 将在测试体验和控制体验之间执行，以测试测试手段和控制体验是否相同。因为通常我们不知道两组样本大小和方差是否相同，在进行实验之前， Target 利用这种方法，如果发送到每个体验的流量百分比不相等，则不会假定每个体验的方差相等。因此，韦尔奇的t检验被选作学生的t检验。

为进行Welch的t检验，首先计算t统计量和自由度，然后进行双尾t检验以生成p值。最后，根据p值计算置信度。

此 t-statistic定义为任意两个独立随机变量均值的差值， ν 和 ν₀，除以标准误差之差：

{width="100px"}