本番稼働中のモデルのバイアスドリフトをモニタリングする

Amazon SageMaker Clarify バイアスモニタリングは、データサイエンティストと ML エンジニアがバイアスの予測を定期的にモニタリングするのに役立ちます。モデルがモニタリングされると、 SageMaker Studio でエクスポート可能なレポートやグラフを表示し、特定のしきい値を超えるバイアスが検出された場合に通知を受け取る CloudWatch ように Amazon のアラートを設定できます。トレーニングデータがデプロイ中にモデルに表示されるデータ (つまり、ライブデータ) と異なる場合、デプロイされた機械学習モデルではバイアスが発生または悪化するおそれがあります。ライブデータの分布におけるこのような変化は、一時的 (原因が短期間の現実世界の出来事である場合など) または永続的である場合があります。いずれの場合も、変化を検出することが重要です。例えば、モデルトレーニングに使用された住宅ローン利率が現在の現実世界の住宅ローン利率と異なる場合、住宅価格を予測するためのモデルの出力にバイアスが生じる可能性があります。Model Monitor のバイアス検出機能を使用すると、が特定のしきい値を超えるバイアス SageMaker を検出すると、 SageMaker Studio および Amazon CloudWatch アラートを通じて表示できるメトリクスが自動的に生成されます。

一般に、 train-and-deploy フェーズ中にのみバイアスを測定するだけでは不十分かもしれません。モデルのデプロイ後、デプロイされたモデルが参照するデータ (つまり、ライブデータ) の分布がトレーニングデータセット内のデータ分布と異なる場合があるためです。この変化により、時間の経過とともにモデルにバイアスが生じる可能性があります。ライブデータの分布における変化は、一時的 (原因がホリデーシーズンなどの短期間の行動による場合など) または永続的である場合があります。いずれの場合も、これらの変化を検出し、必要に応じてバイアスを減らすための措置を講じることが重要です。

これらの変更を検出するために、 SageMaker Clarify はデプロイされたモデルのバイアスメトリクスを継続的にモニタリングし、メトリクスがしきい値を超えた場合に自動アラートを生成する機能を提供します。DPPL バイアスメトリクスを例として考えてみます。値の許容範囲を指定します (A=(a_min, a_max))。DPPL がデプロイメント中に収まっている必要がある差は (-0.1, 0.1) などです。この範囲から逸脱した場合はバイアスの検出アラートが発生します。 SageMaker Clarify では、これらのチェックを定期的に実行できます。

例えば、チェックの頻度を 2 日に設定できます。つまり、 SageMaker Clarify は 2 日間の期間中に収集されたデータに対して DPPL メトリクスを計算します。この例では、D_win はモデルが過去 2 日間の期間中に処理したデータです。DPPL 値 b_win が D_win で計算された許容範囲 A から外れた場合、アラートが発行されます。b_win が A から外れているかどうかをチェックするこのアプローチ手法は、ノイズが多くなる場合があります。D_win がごく少数のサンプルで構成され、ライブデータの分布を表していない場合などです。サンプルサイズが小さいと、D_win に基づいて計算されたバイアス b_win があまり堅牢な推定ではない可能性があります。実は、非常に高い (または低い) b_win の値は純粋に偶然で観測されたのかもしれません。観測データ D から導き出された結論_winが統計的に有意であることを確認するために、 SageMaker Clarify は信頼区間を使用します。具体的には、通常のブートストラップ間隔メソッドを使用して間隔 C=(c ,c _max) を構築し_min、完全なライブデータに対して計算された真のバイアス値が確率の高い C に含まれると SageMaker Clarify が確信できるようにします。ここで、信頼区間 C が許容範囲 A と重複する場合、 SageMaker Clarify はそれを「ライブデータディストリビューションのバイアスメトリクス値が許容範囲内にある可能性が高い」と解釈します。C と A が結合していない場合、 SageMaker Clarify はバイアスメトリクスが A にないと確信し、アラートを発行します。

Model Monitor のサンプルノートブック

Amazon SageMaker Clarify には、リアルタイムエンドポイントの推論データをキャプチャし、進化するバイアスをモニタリングするベースラインを作成し、結果を検査する方法を示す次のサンプルノートブックが用意されています。

バイアスドリフトと特徴量属性ドリフトのモニタリング Amazon SageMaker Clarify — Amazon SageMaker Model Monitor を使用して、バイアスドリフトと特徴量属性ドリフトを経時的にモニタリングします。

このノートブックは Amazon SageMaker Studio でのみ実行することが検証されています。Amazon SageMaker Studio でノートブックを開く方法の手順が必要な場合は、「」を参照してくださいAmazon SageMaker Studio Classic ノートブックを作成または開く。カーネルの選択を求めるメッセージが表示されたら、[Python 3 (Data Science)] (Python 3 (データサイエンス)) を選択します。次のトピックでは、最後の 2 つのステップの要点が説明されています。サンプルノートブックのコードサンプルも含まれています。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

モデル品質メトリクスと Amazon CloudWatch モニタリング

バイアスドリフトのベースラインを作成する