ラベルの比率の差 (DPL) - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ラベルの比率の差 (DPL)

ラベルの比率の差 (DPL) は、トレーニングデータセット内のファセット d の正のラベルを持つ観測結果の比率と、ファセット a の正のラベルを持つ観測結果の比率を比較します。例えば、これを使用して、金融ローンの承認を得た中高年者 (ファセット a) と他の年齢層 (ファセット d) の比率を比較できます。機械学習モデルは、トレーニングデータの決定をできるだけ忠実に模倣しようとします。そのため、DPL が高いデータセットでトレーニングされた機械学習モデルは、将来の予測で同じ不均衡を反映する可能性があります。

ラベルの比率の差の計算式は次のとおりです。

        DPL = (qa - qd)

実行する条件は以下のとおりです。

  • qa = na(1)/na は、観測されたラベル値が 1 であるファセット a の比率です。例えば、ローンの承認を得る中高年の属性の割合です。ここで、na(1) は、正の結果を得るファセット a のメンバー数を表し、na は、ファセット a のメンバー数を表します。

  • qd = nd(1)/nd は、観測されたラベル値が 1 であるファセット d の比率です。例えば、ローンの承認を得る中高年の属性以外の人たちの割合です。ここで、nd(1) は、正の結果を得るファセット d のメンバー数を表し、nd は、ファセット d のメンバー数を表します。

DPL が 0 に十分近い場合、属性パリティが達成されたと言えます。

バイナリおよびマルチカテゴリファセットラベルの場合、DPL 値は間隔 (-1, 1) の範囲にあります。連続ラベルの場合、ラベルをバイナリに折りたたむためのしきい値を設定します。

  • 正の DPL 値は、ファセット a がファセット d と比較して正の結果の割合が高いことを示します。

  • ゼロに近い DPL の値は、ファセット間の正の結果の割合がより均等であることを示し、ゼロの値は、完全な属性パリティを示します。

  • 負の DPL 値は、ファセット d がファセット a と比較して正の結果の割合が高いことを示します。

DPL の大きさに問題があるかどうかは、状況によって異なります。問題がある場合、大きな DPL は、データ内の根本的な問題の徴候である可能性があります。例えば、DPL が高いデータセットは、モデルが学習するのに望ましくない年齢ベースの属性グループに対する過去のバイアスや偏見を反映している可能性があります。