預測標籤中正值比例的差異 (DPPL)

預測標籤中正值比例的差異 (DPPL) 指標決定模型是否針對每個構面預測差別結果。其被定義為構面 a 正值預測的比例 (y’ = 1) 與構面 d 的正值預測 (y’ = 1) 的比例之間的差異。例如，如果模型預測將放貸給 60％的中年人群 (構面 a) 和 50％的其他年齡組 (構面 d)，則可能會偏向構面 d。在此範例中，您必須判斷 10% 的差異是否是案例的重要偏差。

標籤比例 (DPL) 的差異比較，這是訓練前偏差的測量，而 DPPL 是訓練後偏差的測量，會評估訓練後資料集中最初存在的正比例偏差是否變更。如果 DPPL 大於 DPL，則正比例的偏差會在訓練後增加。如果 DPPL 小於 DPL，則模型在訓練後不會增加正數比例的偏差。比較 DPL 與 DPPL 並不保證模型會減少所有維度的偏差。例如，在考慮反事實翻轉測試 (FT)或等其他指標時，模型可能仍會有偏差準確度差異 (AD)。如需偏差偵測的詳細資訊，請參閱部落格文章了解 Amazon SageMaker Clarify 如何協助偵測偏差。如需 DPL 的詳細資訊標籤比例的差異，請參閱。

DPPL 的公式為：

DPPL = q'_a - q'_d

其中：

q'_a = n'_a⁽¹⁾/n_a 是得到值 1 正值結果的構面 a 預測比例。在我們的例子中，預計獲得貸款核准的中年構面的比例。這裡 n'_a⁽¹⁾ 代表面 a 的項目數目，其得值 1 和的正值預測結果，且 n_a 是構面 a 的項目數目。
q'_d = n'_d⁽¹⁾/n_d 是得到值 1 正值結果的構面 d 預測比例。在我們的例子中，老年人和年輕人的構面預計將獲得貸款核准。這裡 n'_d⁽¹⁾ 代表構面 d 的項目數目，其得到一個正值預測結果。且 n_d 是構面 d 的項目數目。

如果 DPPL 足夠接近 0，這表示已經達成了訓練後的人口統計奇偶性。

對於二進位和多類別構面標籤，標準化 DPL 值的範圍在間隔 [-1, 1] 內。對於連續性標籤，值隨間隔 (-∞, +∞) 而變化。

正 DPPL 值顯示構面 a 與構面 d 相比，具有較高的預測正結果比例。

這被稱為正偏差。
DPPL 接近零的值顯示構面 a 和 d 間預測正值更相等的結果比例，值為零顯示完美的人口統計奇偶性。
負 DPPL 值顯示構面 d 與構面 a 相比，具有較高的預測正結果的比例。這被稱為負偏差。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

訓練後資料和模型偏差指標

差別影響 (DI)