召回差異 (RD) - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

召回差異 (RD)

召回差異 (RD) 指標是有利構面 a 和不利構面 d 之間模型的召回差異。這些召回中的任何差異都是一種潛在的偏差形式。召回是真陽性率 (TPR),其測量模型多久正確預測應該得到一個正值結果的情況。如果所有 y=1 情況都正確預測為該構面的 y'=1,那麼召回對於構面來說是完美的。當模型最小化稱為第二型錯誤的偽陰性時,召回更大。例如,模型會正確偵測到兩個不同組(構面 ad)中有多少人符合貸款資格? 如果貸給構面 a 的召回率很高,但貸給構面 d 的召回率低,則差異提供了對屬於構面 d 組的偏差指標。

構面 ad 的召回率差異的公式:

        RD = TPa/(TPa + FNa) - TPd/(TPd + FNd) = TPRa - TPRd

其中:

  • TPa 是構面 a 預測的真陽性。

  • FNa 是構面 a 預測的偽陰性。

  • TPd 是構面 d 預測的真陽性。

  • FNd 是構面 d 預測的偽陰性。

  • TPRa = TPa/(TPa + FNa) 是構面 a 的召回,或其真陽性率。

  • TPRd = TPd/(TPd + FNd) 是構面 d 的召回,或其真陽性率。

例如,請考慮下列構面 ad 的混淆矩陣。

混淆矩陣針對有利構面 a
類別 a 預測 實際結果 0 實際結果 1 總計
0 20 5 25
1 10 65 75
總計 30 70 100
混淆矩陣針對不利構面 d
類別 d 預測 實際結果 0 實際結果 1 總計
0 18 7 25
1 5 20 25
總計 23 27 50

召回差異的值是 RD = 65/70 - 20/27 = 0.93 - 0.74 = 0.19,這顯示對構面 d 的偏差。

二進位和多類別分類的構面 ad 之間的召回差異值範圍是 [-1, +1]。此指標不適用於連續性標籤的情況。

  • 當構面 a 的召回率高於構面 d 時,會獲得正值。這表明模型在構面 a 找到更多真陽性,而不是構面 d,此為一種偏差形式。

  • 接近零的值顯示正在比較構面的召回類似。這表明模型在這兩個構面中發現大約相同數目的真陽性,並且沒有偏差。

  • 當構面 d 的召回率高於構面a 時,會獲得負值。這表明模型在構面 d 找到更多真陽性,而不是構面 a,此為一種偏差形式。