予測ラベルにおける正の比率の差 (DPPL)

予測ラベルにおける正の比率の差 (DPPL) メトリクスは、モデルがファセットごとに異なる結果を予測するかどうかを決定します。これは、ファセット a の正の予測の比率 (y' = 1) とファセット d の正の予測の比率 (y' = 1) の差として定義されます。例えば、モデル予測が中高年グループ (ファセット a) の 60% と他の年齢グループ (ファセット d) の 50% にローンを許可する場合、ファセット d に対しバイアスされている可能性があります。この例では、バイアスのケースに対して 10% の差が重要かどうかを判断する必要があります。

トレーニング前バイアスの尺度であるラベルの比率の差 (DPL) とトレーニング後バイアスの尺度である DPPL を比較して、トレーニング後にデータセットに最初に存在する正の割合のバイアスが変化するかどうかを評価します。DPPL が DPL より大きい場合、正の割合のバイアスはトレーニング後に増加します。DPPL が DPL よりも小さい場合、モデルはトレーニング後に正の割合でバイアスを増やさなかった。DPL と DPPL を比較しても、モデルがすべてのディメンションに沿ったバイアスを減らすとは限りません。例えば、反事実フリップテスト (FT)やなどの他のメトリクスを考慮すると、モデルにバイアスがかかる場合があります精度差 (AD)。バイアス検出の詳細については、ブログ記事「Amazon SageMaker Clarify がバイアスの検出にどのように役立つかを学ぶ」を参照してください。DPL の詳細については、ラベルの比率の差 (DPL)「」を参照してください。

DPPL の計算式は次のとおりです。

DPPL = q'_a - q'_d

コードの説明は以下のとおりです。

q'_a = n'_a⁽¹⁾/n_a は、値 1 の正の結果を得るファセット a の予測される割合です。この例では、ローンが許可されると予測される中高年ファセットの割合です。ここで、n'_a⁽¹⁾ は、値 1 の正の予測結果を得るファセット a のメンバー数を表し、n_a は、ファセット a のメンバー数を表します。
q'_d = n'_d⁽¹⁾/n_d は、値 1 の正の結果を得るファセット d の予測される割合です。この例では、高齢者と若年者のファセットがローンを許可されると予測しています。ここで、n'_d⁽¹⁾ は、正の予測結果を得るファセット d のメンバー数を表し、n_d は、ファセット d のメンバー数を表します。

DPPL が 0 に十分近い場合、トレーニング後の属性パリティが達成されたことを意味します。

バイナリおよびマルチカテゴリファセットラベルの場合、正規化された DPL 値は間隔 [-1, 1] の範囲にあります。連続ラベルの場合、値は間隔 (-∞, +∞) で変化します。

正の DPPL 値は、ファセット a が、ファセット d と比較して予測される正の結果の割合が高いことを示します。

これは、正のバイアスと呼ばれます。
ゼロに近い DPPL の値は、ファセット a および d 間で予測される正の結果の割合がより均等であることを示し、ゼロの値は、完全な属性パリティを示します。
負の DPPL 値は、ファセット d が、ファセット a と比較して予測される正の結果の割合が高いことを示します。これは、負のバイアスと呼ばれます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

トレーニング後のデータとモデルのバイアスを測定する

異種影響 (DI)