標籤比例的差異 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

標籤比例的差異

標籤比例的散度 (DPL) 會將觀察結果與構面 d 的正值標籤的比例,以及訓練資料集中構面 a 正值標籤的觀察結果的比例進行比較。例如,您可以使用它來比較中年人 (構面 a) 和其他年齡組別 (構面 d) 核准用於金融貸款的比例。機器學習模型會嘗試盡可能模擬訓練資料決策。因此,在 DPL 較高的資料集上訓練的機器學習模型可能會在未來的預測中反映出相同的不平衡。

標籤比例差異的公式如下:

        DPL = (qa - qd)

其中:

  • qa = na(1)/na 是具有觀察標籤值為 1 的構面 a 的比例。例如,獲得貸款核准的中年人口的比例。這裡 na(1) 代表構面的項目數量 a,其得到正值結果和 na 是構面 a 的項目數量。

  • qd = nd(1)/nd 是具有觀察標籤值為 1 的構面 d 的比例。例如,中年人口以外誰獲得貸款核准的比例。這裡 nd(1) 代表得到一個正值的結果的構面 d 項目數量和 n d 是構面 d 的項目數量。

如果 DPL 足夠接近 0,那麼我們說人口平等性已經實現了。

對於二進位和多範疇構面標籤,DPL 值會在間隔範圍內 (-1, 1)。對於連續型標籤,我們設定一個閾值將標籤折疊為二進位。

  • 正 DPL 值表示構面 a 與構面 d 相比,具有較高的正值結果比例。

  • DPL 的值接近零表示多構面和零值之間的正值結果更相等比例,表示完美的人口統計同位。

  • 負 DPL 值表示,與構面 a 相比,構面 d 具有較高的正值結果比例。

高散量 DPL 是否有問題因情況而異。在有問題的情況下,高散量 DPL 可能是資料中潛在問題的訊號。例如,具有高 DPL 的資料集可能反映出對基於年齡的人口群體的歷史偏差或偏差,而這些偏差對模型來說是不可取的。