トレーニング前のバイアスを測定する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トレーニング前のバイアスを測定する

機械学習モデルでのバイアスの測定は、バイアスを軽減するための最初のステップです。バイアスの測定は、それぞれ異なる公平性の概念に対応しています。公平性の単純な概念を考慮するだけでも、さまざまなコンテキストで適用可能な多様な測定につながります。例えば、年齢に関する公平性を考慮し、簡単にするために、中高年グループとそれ以外の年齢グループを、ファセットと呼ばれる関連する 2 つの属性とします。融資の機械学習モデルの場合、中小企業向けローンを両方の同数の属性に発行する必要がある場合があります。または、求人応募者を処理する際に、各属性を同数ずつ採用したい場合があります。ただし、このアプローチでは、両方の属性が同数ずつ求人に応募してくることが前提となるため、応募者の人数を条件付けした方がよい場合があります。さらに、応募者が同数かどうかではなく、対象となる応募者が同数かどうかを考慮した方がよい場合もあります。つまり、公平性は、両方の年齢属性における対象となる応募者の合格率が同等であること、応募者の不合格率が同等であること、またはその両方と見なすことができます。関心のある属性について、データの比率が異なるデータセットを使用することがあります。この不均衡により、選択したバイアス測定が融合される可能性があります。どちらのファセットを選択するかにより、モデルがより正確になる可能性があります。したがって、アプリケーションや状況に概念的にふさわしいバイアスメトリクスを選択する必要があります。

次の表記法を使用してバイアスメトリクスを説明します。ここでは二項分類の概念モデルについて説明します。この概念モデルでは、事象が、そのサンプル空間に正 (値 1) と負 (値 0) という 2 つの可能な結果のみでラベル付けされます。このフレームワークは通常、簡単な方法でマルチカテゴリ分類に拡張したり、必要に応じて連続的に数値化された結果を含むケースに拡張したりできます。二項分類の場合、正と負のラベルは、有利なファセット a と不利なファセット d の raw データセットに記録された結果に割り当てられます。これらのラベル y は、観測ラベルと呼ばれ、機械学習ライフサイクルのトレーニングまたは推論段階で機械学習モデルによって割り当てられる予測ラベル y' とは区別されます。これらのラベルは、それぞれのファセットの結果の確率分布 Pa(y) と Pd(y) を定義するために使用されます。

  • ラベル:

    • y は、トレーニングデータセット内のイベント結果の n 個の観測ラベルを表します。

    • y' は、データセットにある n 個の観察ラベルに対し、トレーニングされたモデルが予測したラベルを表します。

  • 結果:

    • アプリケーションの承認など、サンプルの正の結果 (値 1)。

      • n(1) は、正の結果 (承認) の観測ラベルの数です。

      • n'(1) は、正の結果 (承認) の予測ラベルの数です。

    • アプリケーションの拒否など、サンプルの負の結果 (値 0)。

      • n(0) は、負の結果 (拒否) の観測ラベルの数です。

      • n'(0) は、負の結果 (拒否) の予測ラベルの数です。

  • ファセット値:

    • ファセット a - バイアスが有利になる属性を定義する特徴値。

      • na は、有利なファセット値の観測ラベルの数: na = na(1) + na(0) ファセット値 a の正と負の観測ラベルの合計。

      • n'a は、有利なファセット値の予測ラベルの数: n'a = n'a(1) + n'a(0) ファセット値 a の正と負の予測結果ラベルの合計。n'a = na であることに注意してください。

    • ファセット d - バイアスが不利になる属性を定義する特徴値。

      • nd は、不利なファセット値の観測ラベルの数: nd = nd(1) + nd(0) ファセット値 d の正と負の観測ラベルの合計。

      • n'd は、不利なファセット値の予測ラベルの数: n'd = n'd(1) + n'd(0) ファセット値 d の正と負の予測ラベルの合計。n'd = nd であることに注意してください。

  • ラベル付けされたファセットデータの結果の確率分布:

    • Pa(y) は、ファセット a の観測ラベルの確率分布です。バイナリラベル付きデータの場合、この分布は、総数に対する正の結果でラベル付けされたファセット a のサンプル数の比率 Pa(y1) = na(1)/ na と、総数に対する負の結果のサンプル数の比率 Pa(y0) = na(0)/ na で与えられます。

    • Pd(y) は、ファセット d の観測ラベルの確率分布です。バイナリラベル付きデータの場合、この分布は、総数に対する正の結果でラベル付けされたファセット d のサンプル数Pd(y1) = nd(1)/ nd と、総数に対する負の結果のサンプル数の比率Pd(y0) = nd(0)/ nd で与えられます。

属性格差でバイアスされたデータでトレーニングされたモデルは、そのバイアスを学習し、さらに助長させる可能性があります。リソースを消費してモデルをトレーニングする前にデータのバイアスを特定するために、 SageMaker Clarify はトレーニング前に raw データセットで計算できるデータバイアスメトリクスを提供します。トレーニング前のすべてのメトリクスは、モデルの出力に依存しないため、どのモデルにも有効です。最初のバイアスメトリクスは、ファセットの不均衡を調べますが、結果は調べません。アプリケーションの必要に応じて、トレーニングデータの量が異なるファセット間でどの程度代表的であるかを決定します。残りのバイアスメトリクスは、データ内のファセット a と d について、さまざまな方法で結果ラベルの分布を比較します。負の値の範囲にあるメトリクスは、負のバイアスを検出できます。次の表に、クイックガイダンス用のチートシートと、トレーニング前のバイアスメトリクスへのリンクを示します。

トレーニング前のバイアスメトリクス

バイアスメトリクス 説明 質問例 メトリクス値の解釈
クラス不均衡 (CI) 異なるファセット値間のメンバー数の不均衡を測定します。

中高年ファセット以外の属性に十分なデータがないため、年齢ベースのバイアスがある可能性がありますか。

正規化された範囲: [-1,+1]

解釈:

  • 正の値は、ファセット a のデータセットに、より多くのトレーニングサンプルがあることを示します。

  • ゼロに近い値は、ファセットがデータセットのトレーニングサンプル数でバランスがとれていることを示します。

  • 負の値は、ファセット d のデータセットに、より多くのトレーニングサンプルがあることを示します。

ラベルの割合の差 (DPL) 異なるファセット値間の正の結果の不均衡を測定します。 データ内のファセット値の偏ったラベル付けが原因で、機械学習予測に年齢ベースのバイアスが生じる可能性はありますか。

正規化されたバイナリおよびマルチカテゴリファセットラベルの範囲: [-1,+1]

連続ラベルの範囲: (-∞, +∞)

解釈:

  • 正の値は、ファセット a の正の結果の割合が高いことを示します。

  • ゼロに近い値は、ファセット間の正の結果の割合がより均等であることを示します。

  • 負の値は、ファセット d の正の結果の割合が高いことを示します。

カルバックライブラー情報量 (KL) 異なるファセットの結果分布がエントロピー的に互いにどの程度離れているかを測定します。 異なる属性グループのローン申請結果の分布はどのように異なりますか。

バイナリ、マルチカテゴリ、連続の範囲: [0, +∞)

解釈:

  • ゼロに近い値は、ラベルが同様に分布していることを示します。

  • 正の値は、ラベル分布の発散を示し、正の値が大きいほど発散が大きくなります。

ジェンセンシャノン情報量 (JS) 異なるファセットの結果分布がエントロピー的に互いにどの程度離れているかを測定します。 異なる属性グループのローン申請結果の分布はどのように異なりますか。

バイナリ、マルチカテゴリ、連続の範囲: [0, +∞)

解釈:

  • ゼロに近い値は、ラベルが同様に分布していることを示します。

  • 正の値は、ラベル分布の発散を示し、正の値が大きいほど発散が大きくなります。

Lp-norm (LP) データセット内の異なるファセットに関連する結果の個別の属性分布間の p- ノルム差を測定します。 異なる属性のローン申請結果の分布はどのように異なりますか。

バイナリ、マルチカテゴリ、連続の範囲: [0, +∞)

解釈:

  • ゼロに近い値は、ラベルが同様に分布していることを示します。

  • 正の値は、ラベル分布の発散を示し、正の値が大きいほど発散が大きくなります。

合計変動距離 (TVD) データセット内の異なるファセットに関連する結果の個別の属性分布間の L1- ノルム差の半分を測定します。 異なる属性のローン申請結果の分布はどのように異なりますか。

バイナリ、マルチカテゴリ、連続結果の範囲: [0, +∞)

  • ゼロに近い値は、ラベルが同様に分布していることを示します。

  • 正の値は、ラベル分布の発散を示し、正の値が大きいほど発散が大きくなります。

コルモゴロフスミルノフ (KS) データセット内の異なるファセットについて、分布の結果間で最大発散を測定します。 属性グループによる最大の格差を示しているのは、どの大学の志願結果ですか。 バイナリ、マルチカテゴリ、連続結果の KS 値の範囲: [0,+1]
  • ゼロに近い値は、すべての結果カテゴリのファセット間にラベルが均等に分布していることを示します。

  • 1 に近い値は、1 つのカテゴリのラベルがすべて 1 つのファセットにあるため、非常に不均衡であることを示します。

  • 断続的な値は、ラベルの最大不均衡の相対的な程度を示します。

条件付き属性格差 (CDD) 異なるファセット間の結果の格差を、全体としてだけでなく、サブグループごとに測定します。 一部のグループでは、大学入試結果の不合格の割合が合格の割合よりも大きいですか。

の範囲CDD: [-1, +1]

  • 正の値は、ファセット d が合格より不合格の方が多い結果を示します。

  • ゼロに近い値は、平均して属性格差がないことを示します。

  • 負の値は、ファセット a が合格より不合格の方が多い結果を示します。

バイアスメトリクスの詳細については、「金融における機械学習の公平性の測定」を参照してください。