Evidently 是如何计算结果的 - Amazon CloudWatch

Evidently 是如何计算结果的

重要

终止支持通知:2025 年 10 月 16 日,AWS 将停止对 CloudWatch Evidently 的支持。2025 年 10 月 16 日之后,您将无法再访问 Evidently 控制台或 Evidently 资源。

您可以使用 Amazon CloudWatch Evidently A/B 测试作为数据驱动型决策的工具。在 A/B 测试中,用户被随机分配到对照组(也称为默认变体)或其中一个治疗组(也称为测试变体)。例如,对照组中的用户体验网站、服务或应用程序的方式可能与实验开始之前相同。同时,治疗组中的用户可能会体验到某种变化。

CloudWatch Evidently 在一项实验中最多支持五种不同的变体。Evidently 将流量随机分配给这些变体。这样,您可以跟踪每个组的业务指标(例如收入)和绩效指标(例如延迟)。Evidently 可执行以下操作:

  • 将治疗组与对照组进行比较。(例如,比较在新的结账流程下收入是增加还是减少。)

  • 表明治疗组和对照组之间观察到的差异是否为显著。为此,Evidently 提供了两种方法:频率论显著性水平贝叶斯概率

为什么要使用频率论方法和贝叶斯方法?

假设某个病例的治疗组与对照组相比没有效果,或者某个病例的治疗组与对照组效果相同(A/A 测试)。您仍然可以在数据中观察到治疗组和对照组之间存在细微差异。这是因为测试参加者由有限的用户样本组成,占网站、服务或应用程序所有用户的一小部分。通过频率论显著性水平和贝叶斯概率可以了解观察到的差异是显著的还是偶然的。

Evidently 考虑以下因素来确定观察到的差异是否显著:

  • 差异有多大

  • 测试中有多少样本

  • 数据是如何分布的

Evidently 中的频率论分析

Evidently 使用顺序测试,这样可以避免常见的窥视问题,该问题是频率论统计方法中的一个常见陷阱。窥视是一种查看正在进行的 A/B 测试的结果的做法,其目的是停止测试并根据观察到的结果做出决定。有关顺序测试的更多信息,请参阅 Howard 等撰写的 时间均匀、非参数、非渐近置信序列 [《Ann. Statist.》(统计学年鉴)第 49 卷第 2 期,1055-1080 页,2021 年]。

因为 Evidently 的结果在任何时候都是有效的(随时有效结果),您可以在实验过程中窥视结果,且仍然可以得出合理的结论。这样可以降低一些实验成本,因为如果实验结果已具有显著性,则可以在计划时间之前提前停止实验。

Evidently 可生成随时有效的显著性水平,并为目标指标中测试变体与默认变体之间的差异生成随时有效的 95% 置信区间。实验结果中的 Result(结果)列表示测试变体表现,可以为以下各项之一:

  • Inconclusive(不确定)– 显著性水平低于 95%

  • Better(更好)– 显著性水平为 95% 或以上,并且满足以下条件之一:

    • 95% 置信区间的下限高于零,指标应增加

    • 95% 置信区间的上限低于零,指标应减小

  • Worse(更差)– 显著性水平为 95% 或以上,出现以下情况之一:

    • 95% 置信区间的上限高于零,指标应增加

    • 95% 置信区间的下限低于零,指标应减小

  • Best(最好)– 除默认变体外,该实验还有两个或多个测试变体,并且满足以下条件:

    • 该变体符合 Better(更好)名称条件

    • 满足以下条件:

      • 95% 置信区间的下限高于所有其他变体的 95% 置信区间的上限,指标应增加

      • 95% 置信区间的上限低于所有其他变体的 95% 置信区间的下限,指标应减小

Evidently 中的贝叶斯分析

使用贝叶斯分析,您可以计算出测试变体中的均值大于或小于默认变体中的均值的概率。Evidently 使用共轭先验对目标指标的均值进行贝叶斯推断。使用共轭先验,Evidently 可以更高效地推断出贝叶斯分析所需的后验分布。

Evidently 要等到实验结束日期才计算贝叶斯分析的结果。结果页显示以下内容:

  • 增加的概率 – 测试变体中指标的均值比默认变体中的均值至少大 3% 的概率

  • 减小的概率 – 测试变体中指标的均值比默认变体中的均值至少小 3% 的概率

  • 不变概率 – 测试变体中指标的均值在默认变体中的均值的 ±3% 内的概率

Result(结果)列表示变体性能,可以是以下各项之一:

  • Better(更好)– 增加概率至少为 90%,指标应增加,或者减小概率至少为 90%,指标应减小

  • Worse(更差)– 减小概率至少为 90%,指标应增加,或者增加概率至少为 90%,指标应减小