預測標籤中正值比例的差異 (DPPL) - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

預測標籤中正值比例的差異 (DPPL)

預測標籤 中正值比例的差異 (DPPL) 指標決定模型是否針對每個構面預測差別結果。其被定義為構面 a 正值預測的比例 (y’ = 1) 與構面 d 的正值預測 (y’ = 1) 的比例之間的差異。例如,如果模型預測將放貸給 60% 的中年人群 (構面 a) 和 50% 的其他年齡組 (構面 d),則可能會偏向構面 d。在此範例中,您必須判斷 10% 的差異是否是案例的重要偏差。

比較標籤比例 (DPL) 的差異,這是一種訓練前偏差的度量標準,DPPL 是訓練後偏差的衡量標準,評估訓練後最初是否存在於資料集變更中的正面比例偏差。如果 DPPL 大於 DPL,則訓練後的正比例偏差會增加。如果 DPPL 小於 DPL,則模型在訓練後不會以正比例增加偏差。將 DPL 與 DPPL 進行比較並不保證模型會降低所有尺寸的偏差。例如,在考慮其他度量 (例如反事實翻轉測試 (FT)準確度差異 (AD)) 時,模型可能仍會有偏差。如需有關偏差偵測的詳細資訊,請參閱部落格文章了解 Amazon SageMaker Criven 如何協助偵測偏差。如需有關 DPL 標籤比例的差異 的更多資訊,請參閱。

DPPL 的公式為:

        DPPL = q'a - q'd

其中:

  • q'a = n'a(1)/na 是得到值 1 正值結果的構面 a 預測比例。在我們的例子中,預計獲得貸款核准的中年構面的比例。這裡 n'a(1) 代表面 a 的項目數目,其得值 1 和的正值預測結果,且 na 是構面 a 的項目數目。

  • q'd = n'd(1)/nd 是得到值 1 正值結果的構面 d 預測比例。在我們的例子中,老年人和年輕人的構面預計將獲得貸款核准。這裡 n'd(1) 代表構面 d 的項目數目,其得到一個正值預測結果。且 nd 是構面 d 的項目數目。

如果 DPPL 足夠接近 0,這表示已經達成了訓練後的人口統計奇偶性

對於二進位和多類別構面標籤,標準化 DPL 值的範圍在間隔 [-1, 1] 內。對於連續性標籤,值隨間隔 (-∞, +∞) 而變化。

  • 正 DPPL 值顯示構面 a 與構面 d 相比,具有較高的預測正結果比例。

    這被稱為正偏差

  • DPPL 接近零的值顯示構面 ad 間預測正值更相等的結果比例,值為零顯示完美的人口統計奇偶性。

  • 負 DPPL 值顯示構面 d 與構面 a 相比,具有較高的預測正結果的比例。這被稱為負偏差