評価アラート - Amazon Machine Learning

Amazon Machine Learning サービスの更新や、その新しいユーザーの受け入れは行っていません。このドキュメントは既存のユーザー向けに提供されていますが、更新は終了しています。詳細については、「Amazon Machine Learning とは」を参照してください。

評価アラート

Amazon ML は、モデルを正しく評価したかどうかを検証するための洞察を与えます。評価でいずれかの検証基準が満たされない場合、Amazon ML コンソールは、違反した検証基準を次のように表示することによって警告します。

  • 保有データで ML モデルの評価が行われました

    Amazon ML はトレーニングと評価に同じデータソースを使用する場合に警告します。Amazon ML を使用してデータを分割する場合は、この検証基準を満たします。Amazon ML を使用してデータを分割しない場合は、トレーニングデータソース以外のデータソースで ML モデルを評価していることを確認します。

  • 予測モデルの評価に十分なデータが使用されました

    Amazon ML は、評価データの観測数/レコード数がトレーニングデータソースの観測数の 10% 未満である場合に警告します。モデルを適切に評価するには、十分に大きなデータサンプルを提供することが重要です。この基準は、使用しているデータが少なすぎるかどうかをチェックし、知らせます。ML モデルを評価するために必要なデータの量は主観的です。ここでは、より良い基準がない場合に 10% が一時的なものとして選択されています。

  • 一致したスキーマ

    Amazon ML はトレーニングと評価のデータソースのスキーマが同じでない場合に警告します。評価データソースに存在しない特定の属性がある場合、または追加の属性がある場合、Amazon ML はこのアラートを表示します。

  • 評価ファイルのすべてのレコードが予測モデルパフォーマンスの評価に使用されました

    評価のために提供されたすべてのレコードがモデルを評価するために実際に使用されたかどうかを知ることは重要です。評価データソースの一部のレコードが無効で、精度メトリクス計算に含まれていない場合、Amazon ML は警告を表示します。例えば、評価データソースの観測値の一部にターゲット変数がない場合、Amazon ML は、これらの観測値に対する ML モデルの予測が正しいかどうかをチェックできません。この場合、不足しているターゲット値を持つレコードは無効と見なされます。

  • ターゲット変数の分布

    Amazon ML はトレーニングと評価のデータソースからターゲット属性の分布を表示するので、ターゲットが両方のデータソースで同様に分布しているかどうかを確認できます。モデルが、評価データ上のターゲット分布とは異なるターゲット分布のあるトレーニングデータでトレーニングされた場合、非常に異なる統計を持つデータに関して計算されているので、評価の質が損なわれる可能性があります。トレーニングおよび評価データソースでデータが同じように分布していて、予測を作成するときにモデルが直面するデータにできる限りデータセットを似せるのが最善です。

    このアラートがトリガーされる場合は、ランダムスプリット戦略を使用して、データをトレーニングおよび評価データソースに分割してみてください。まれに、データをランダムに分割してもターゲット分布の違いについてこの警告が誤って出されることがあります。Amazon ML は、おおまかなデータ統計を使用してデータの分布を評価していて、このアラートを誤ってトリガーすることがあります。