データ品質

データ品質モニタリング機能は、本番稼働中の機械学習 (ML) モデルを自動的にモニタリングし、データ品質の問題が発生したときに通知します。本番稼働中の ML モデルは、実際のデータを予測する必要があります。こうしたデータは、ほとんどのトレーニングデータセットとは異なり、慎重に厳選されていません。本番稼働中にモデルが受け取るデータの統計的性質が、トレーニングに使用されたベースラインデータの性質からドリフトすると、モデルの予測精度が低下していきます。Amazon SageMaker Model Monitor では、ルールを使用してデータのドリフトを検出し、発生時に警告します。データ品質を監視するには、次のステップを実行します。

データキャプチャを有効にします。データキャプチャは、リアルタイム推論エンドポイントまたはバッチ変換ジョブからの推論の入出力をキャプチャするか、データを Amazon S3 に保存します。詳細については、「データキャプチャ」を参照してください。
ベースラインを作成します。このステップでは、指定した入力データセットを分析するベースラインジョブを実行します。このベースラインは、Apache Spark に構築されたオープンソースライブラリである Deequ を使用して、各特徴のベースラインスキーマの制約と統計を計算します。このライブラリは、大規模なデータセットのデータ品質を測定するために使用されます。詳細については、「ベースラインの作成」を参照してください。
データ品質モニタリングジョブを定義し、スケジュールします。データ品質モニタリングジョブの具体的な情報とコードサンプルについては、「データ品質モニタリングジョブのスケジューリング」を参照してください。モニタリングジョブのスケジュールに関する一般的な情報については、「モニタリングジョブのスケジューリング」を参照してください。
- オプションで、前処理スクリプトと後処理スクリプトを使用して、データ品質分析から得られたデータを変換します。詳細については、「前処理と後処理」を参照してください。
データ品質メトリクスを表示します。詳細については、「統計のスキーマ (statistics.json ファイル)」を参照してください。
データ品質モニタリングを Amazon CloudWatch と統合します。詳細については、「CloudWatch メトリクス」を参照してください。
モニタリングジョブの結果を解釈します。詳細については、「結果の解釈」を参照してください。
SageMaker Studio でデータ品質モニタリングを有効にして結果を視覚化するには、リアルタイムエンドポイントを使用します。詳細については、「Amazon SageMaker Studio でリアルタイムエンドポイントの結果を視覚化する」を参照してください。

注記

Model Monitor は、表形式のデータのみに基づいてモデルメトリクスと統計を計算します。例えば、イメージを入力として受け取り、そのイメージに基づいてラベルを出力するイメージ分類モデルも引き続きモニタリングできます。Model Monitor は、入力ではなく出力のメトリクスと統計を計算できます。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

バッチ変換ジョブからデータをキャプチャする

ベースラインの作成