Evidently 如何計算結果 - Amazon CloudWatch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Evidently 如何計算結果

您可以使用 Amazon CloudWatch 顯而易見的 A/B 測試作為資料驅動決策的工具。在 A/B 測試中,使用者被隨機指派給對照組 (也稱為預設變化) 或其中一個實驗組 (也稱為測試變化)。例如,對照組中的使用者可能會以實驗開始前的相同方式來體驗網站、服務或應用程式。同時,實驗組中的使用者可能會遇到變化。

CloudWatch 顯然,在實驗中支持多達五種不同的變化。Evidently 隨機將流量指派給這些變化。如此一來,您就可以追蹤每個群組的業務指標 (例如收入) 和效能指標 (例如延遲)。Evidently 會執行以下動作:

  • 將實驗組與對照組進行比較。(例如,比較收入是隨著新的結帳程序增加還是減少。)

  • 指出在實驗組和對照組之間觀察到的差異是否顯著。為此,Evidently 提供了兩種方法:頻率論顯著程度貝葉斯概率

為什麼要使用頻率論和貝葉斯方法?

考慮實驗組與對照組相比沒有效果的情況,或者實驗組與對照組相同的情況 (A/A 測試)。您仍然會在資料中觀察到實驗組和對照組之間的微小差異。這是因為測試參與者由有限的使用者樣本組成,佔了網站、服務或應用程式所有使用者的一小部分。頻率論顯著程度和貝葉斯概率能夠讓人們了解,觀察到的差異是顯著還是由於概率所致。

Evidently 會考慮以下幾點,以判斷觀察到的差異是否顯著:

  • 差異有多大

  • 有多少樣本參與了測試

  • 資料的分佈方式

Evidently 中的頻率論分析

Evidently 使用循序測試,這避免了一般的偷看問題,也就是頻率論統計的常見陷阱。偷看是指檢查進行中的 A/B 測試結果,以便停止測試,並根據所觀察結果進行決策的做法。如需有關循序測試的詳細資訊,請參閱 Howard 等人編撰的 Time-uniform, nonparametric, nonasymptotic confidence sequences (時間均勻、無母數、非漸近的信賴序列) (Ann. Statist. 49 (2) 1055 - 1080, 2021)。

因為 Evidently 的結果隨時都有效 (隨時有效的結果),您可以在實驗過程中偷看結果,並仍然得出合理的結論。這可以降低一些實驗成本,因為如果結果已相當顯著,您可以在排定的時間前停止實驗。

Evidently 會針對目標指標中測試變化和預設變化之間的差異,產生隨時有效的顯著程度以及隨時有效的 95% 信賴區間。實驗結果中的 Result (結果) 一欄指示測試變化效能,可為下列其中之一:

  • Inconclusive (不確定):顯著程度低於 95%

  • Better (較佳):顯著程度為 95% 或更高,且下列其中一項為真:

    • 95% 信賴區間的下限大於零,且指標應增加

    • 95% 信賴區間的上限小於零,且指標應減少

  • Worse (更糟):顯著程度為 95% 或更高,且下列其中一項為真:

    • 95% 信賴區間的上限大於零,且指標應增加

    • 95% 信賴區間的下限小於零,且指標應減少

  • Best (最佳):除了預設變化之外,該實驗還具有兩個以上測試變化,並且滿足以下條件:

    • 該變化符合 Better (較佳) 指定的資格

    • 下列其中一個條件為真:

      • 95% 信賴區間下限高於所有其他變化的 95% 信賴區間上限,且指標應增加

      • 95% 信賴區間的上限低於所有其他變化的 95% 信賴區間的下限,且指標應減少

Evidently 中的貝葉斯分析

您可以使用貝葉斯分析,計算測試變化中的平均值大於或小於預設變化中平均值的機率。Evidently 透過使用共軛先驗,對目標指標的平均值執行貝葉斯推論。使用共軛先驗,Evidently 可以更高效地推斷貝葉斯分析所需的後驗分佈。

Evidently 會等待直到實驗的結束日期來計算貝葉斯分析的結果。結果頁面會顯示下列資訊:

  • 增加的機率:測試變化中指標平均值比預設變化中的平均值大至少 3% 的機率

  • 減少的機率:測試變化中指標平均值比預設變化中的平均值小至少 3% 的概率

  • 未變更的機率:測試變化中指標平均值在預設變化中平均值的 ±3% 以內的機率

Result (結果) 一欄指出變化的效能,而且可為下列其中之一:

  • Better (較佳):增加的機率至少為 90%,且指標應增加,或者減少的機率至少為 90%,且指標應減少

  • Worse (更糟):減少的機率至少為 90%,且指標應增加,或者增加的機率至少為 90%,且指標應減少