翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
予測ラベルにおける正の比率の差 (DPPL)
予測ラベルにおける正の比率の差 (DPPL) メトリクスは、モデルがファセットごとに異なる結果を予測するかどうかを決定します。これは、ファセット a の正の予測の比率 (y' = 1) とファセット d の正の予測の比率 (y' = 1) の差として定義されます。例えば、モデル予測が中高年グループ (ファセット a) の 60% と他の年齢グループ (ファセット d) の 50% にローンを許可する場合、ファセット d に対しバイアスされている可能性があります。この例では、バイアスのケースに対して 10% の差が重要かどうかを判断する必要があります。
トレーニング前バイアスの尺度であるラベルの割合の差 (DPL) とトレーニング後バイアスの尺度である DPPL の差を比較すると、データセットに最初から存在する正の割合のバイアスがトレーニング後に変化するかを評価できます。DPPL が DPL より大きい場合、トレーニング後に正の割合のバイアスが増加していることになります。DPPL が DPL よりも小さい場合、モデルはトレーニング後に正の割合でバイアスが増加しなかったことになります。DPL と DPPL を比較しても、モデルがあらゆるディメンションでバイアスを低減するとは限りません。例えば、反事実フリップテスト (FT) や 精度差 (AD) など、別のメトリクスを考慮すると、モデルにバイアスがかかる可能性があります。バイアス検出の詳細については、ブログ記事「Learn how Amazon SageMaker Clarify helps detect bias
DPPL 式は以下のとおりです。
DPPL = q'a - q'd
コードの説明は以下のとおりです。
-
q'a = n'a(1)/na は、値 1 の正の結果を得るファセット a の予測される割合です。この例では、ローンが許可されると予測される中高年ファセットの割合です。ここで、n'a(1) は、値 1 の正の予測結果を得るファセット a のメンバー数を表し、na は、ファセット a のメンバー数を表します。
-
q'd = n'd(1)/nd は、値 1 の正の結果を得るファセット d の予測される割合です。この例では、高齢者と若年者のファセットがローンを許可されると予測しています。ここで、n'd(1) は、正の予測結果を得るファセット d のメンバー数を表し、nd は、ファセット d のメンバー数を表します。
DPPL が 0 に十分近い場合、トレーニング後の属性パリティが達成されたことを意味します。
バイナリおよびマルチカテゴリファセットラベルの場合、正規化された DPL 値は間隔 [-1, 1] の範囲にあります。連続ラベルの場合、値は間隔 (-∞, +∞) で変化します。
-
正の DPPL 値は、ファセット a が、ファセット d と比較して予測される正の結果の割合が高いことを示します。
これは、正のバイアスと呼ばれます。
-
ゼロに近い DPPL の値は、ファセット a および d 間で予測される正の結果の割合がより均等であることを示し、ゼロの値は、完全な属性パリティを示します。
-
負の DPPL 値は、ファセット d が、ファセット a と比較して予測される正の結果の割合が高いことを示します。これは、負のバイアスと呼ばれます。