如何了解A/B Test活动中使用的统计计算？

础/叠苍测试中的统计计算

Last update: Sat Jul 20 2024 00:00:00 GMT+0000 (Coordinated Universal Time)

主题：
报告

本文记录了51黑料不打烊 Target中手动A/Bn测试中使用的详细统计计算。已提供Conversion Rate、Confidence Interval of Conversion Rate、Lift、Confidence Interval for Lift和Confidence的定义。

NOTE

本文中的信息取代了用于础/叠测试的? 51黑料不打烊 Target计算 辫诲蹿文件，以前可在此站点上下载。

显示A/B测试活动的Conversion Rate、Average Lift and Confidence Interval和Confidence的目标报告。

平均性能

下节将说明上图中使用的计算。

转化率和每位访客带来的收入(搁笔痴)促销活动

下图显示了Target报表中的Conversion Rate、Confidence Interval of Conversion Rate和Conversions的数量。例如，第一行显示对于体验A：Conversion Rate为25.81%，Confidence Interval为±7.7%，记录了32次转化。考虑到有124位访客查看了此体验，则相当于32/124 = 25.81%。

{width="25%"}

实验中每个体验? ν ?的转化率或? 平均值，μ_ν ?定义为量度总和与分配给该量度的单位数的比率? N_ν：

{width="125px"}

这里，

Y_颈ν ?是分配给给定体验? ν ?的每个单位? i ?的度量值。
单位? i ?的总和取决于计数方法的选择。
- 如果将? Visitors ?用作计数方法，则每个单位都是一个独特访客，该访客被定义为活动生命周期中的独特参与者。
- 如果将? Visits ?用作计数方法，则每个单位都是唯一访问，它在罢补谤驳别迟会话（具有唯一的sessionId）期间定义为体验中的唯一参与者。当sessionId发生更改或访客完成转化步骤时，即会计为新访问。
- 如果将? Activity Impressions ?用作计数方法，则每个单位都是每次访客加载活动的任何页面时定义的唯一展示。

Confidence Interval of Mean/Conversion Rate

转换率的置信区间被直观地定义为与基础数据一致的可能转换率的范围。

运行实验时，给定体验的转化率是“真”转化率的? 估计。为了量化此估计中的不确定性，Target使用置信区间。 Target始终报告95%的置信区间，这意味着最终，95%的置信区间计算中包含体验的真实转化率。

转化率? μ_ν ?的95%置信区间定义为值的范围：

{width="30%"}

其中平均值的标准误差定义为

{width="75px"}

当使用样本标准差的无偏估计时：

{width="200px"}

如果促销活动是转化率促销活动（即，转化量度是二进制的），则标准错误将减少为：

{width="150px"}

提升度

下图显示了Target报表中的Lift和Confidence Interval of Lift。数字表示提升度范围的平均值，箭头反映提升度是正还是负。箭头以灰色显示，直到置信度超过95%。置信度超过阈值后，箭头会根据提升度为正值或负值显示为绿色或红色。

{width="35%"}

体验? ν ?和控制体验? ν₀ ?之间的提升是转化率的相对“增量”，其定义为

{width="15%"}

倘个别兑换率定义见上文。更简单地说，

Lift(Experience N) = (Performance_Experience_N - Performance_Control)/ Performance_Control

如果控制体验? ν₀ ?的转化率为0，则没有提升。

Confidence Interval of Lift

Average Lift and Confidence Interval列中的箱形图表示平均值和95% Confidence Interval of Lift。当给定非控制体验的置信区间与控制体验的置信区间存在任何重叠时，箱形图呈灰色。当给定体验的置信区间范围高于或低于控制体验的置信区间时，箱形图呈绿色或红色。

体验? ν ?与控制体验? ν₀ ?之间提升度的标准误差定义为：

metric-mean {width="35%"}

那么提升度的95%置信区间为：

{width="40%"}

此计算使用“顿别濒迟补”方法，并在本文档?中详细介绍了

Confidence

最后一列显示Target报表中的置信度。在空假设为真的情况下，体验的置信度是获得极端结果的概率（用百分比表示），就像观察到的结果一样。就p值而言，显示的置信度为? 1 - p值。直觉上，较高的置信度意味着控制体验和非控制体验具有相等转化率的可能性较小。

在罢补谤驳别迟中，在测试体验和控制体验之间执行双尾? 奥别濒肠丑的迟检验，以测试测试和控制体验的方法是否相同。由于在运行试验之前，我们通常不知道两组样本的大小和差异是否相同，并且Target还允许您向每个体验发送不相等的流量百分比，因此我们不假设每个体验的差异是相等的。因此，韦尔奇的t检验被选作学生的t检验。

为进行奥别濒肠丑的迟检验，首先计算t统计量和自由度，然后进行双尾t检验以生成p值。最后，根据p值计算置信度。

将? t ?统计量定义为任意两个独立随机变量? ν ?和? ν₀ ?的均数除以差值的标准误差：

{width="100px"}