モデルのパフォーマンスを評価する

フォーカスモード

モデルのパフォーマンスを評価する - Amazon SageMaker AI

カテゴリ予測モデルの評価数値予測モデルの評価時系列予測モデルの評価画像予測モデルの評価テキスト予測モデルの評価

Amazon SageMaker Canvas には、さまざまなタイプのモデルの概要とスコアリング情報が表示されます。モデルのスコアは、予測を行う際のモデルの精度を判断するのに役立ちます。スコアに関するその他のインサイトは、実際の値と予測値の違いを定量化するのに役立ちます。

モデルの分析結果を表示するには、次の手順に従います。

SageMaker Canvas アプリケーションを開きます。
左側のナビゲーションペインで [自分のモデル] を選択します。
構築したモデルを選択します。
ナビゲーションペインで、[分析] タブを選択します。
[分析] タブには、モデルの概要とスコアリング情報が表示されます。

以下のセクションでは、モデルタイプに応じてスコアリングを評価する方法について説明します。

カテゴリ予測モデルの評価

[概要] タブには、各列の列の影響が表示されます。[列の影響] は、ある列が他の列と比較して、予測を行う上でどれだけの重みを持っているかを示すパーセンテージスコアです。列の影響が 25% である場合、Canvas はその列の予測に 25% の重みを付け、その他の列には 75% の重みを付けます。

次のスクリーンショットは、モデルの [精度] スコアと、モデルの構築時に最適化のメトリクスとして選択する [最適化メトリクス] を示しています。このケースの [最適化メトリクス] は [精度] です。モデルの新しいバージョンを構築する場合は、別の最適化メトリクスを指定できます。

Canvas の [分析] タブの精度スコアと最適化メトリクスのスクリーンショット。

カテゴリ予測モデルの [スコアリング] タブでは、すべての予測を視覚化できます。線分はページの左から伸びており、モデルによって行われたすべての予測を示します。ページの中央では、線分が垂直セグメントに収束し、1 つのカテゴリに対する各予測の比率を示します。予測されたカテゴリから、線分は実際のカテゴリに分岐します。予測されたカテゴリから実際のカテゴリまでの各線分をたどれば、予測の正確さを視覚的に把握できます。

以下の図は、[3+ カテゴリ予測] モデルの [スコアリング] セクションの例です。

[高度なメトリクス] タブを表示して、高度なメトリクス、誤差の密度プロット、混同行列など、モデルのパフォーマンスに関する詳細情報を確認することもできます。[高度なメトリクス] タブの詳細については、「分析で高度なメトリクスを使用する」を参照してください。

数値予測モデルの評価

次のスクリーンショットは、[概要] タブのモデルの [RMSE] スコアを示しています (この場合は [最適化メトリクス])。[最適化メトリクス] は、モデルを構築する際の最適化のために選択するメトリクスです。モデルの新しいバージョンを構築する場合は、別の最適化メトリクスを指定できます。

Canvas の [分析] タブの RMSE 最適化メトリクスのスクリーンショット。

数値予測の [スコアリング] タブには、予測に使用されたデータに対するモデルの予測値を示す線が表示されます。数値予測の値は、多くの場合、RMSE (二乗平均平方根誤差) の +/- 値になります。多くの場合、モデルが予測する値は RMSE の範囲内の値になります。線分の周りの紫色の帯の幅は、RMSE の範囲を示します。多くの場合、予測値は範囲内に収まります。

以下の画像は、数値予測の [スコアリング] セクションを示しています。

時系列予測モデルの評価

時系列予測モデルの [分析] ページでは、モデルのメトリクスの概要を確認できます。各メトリクスにカーソルを合わせると、詳細が表示されます。または、「分析で高度なメトリクスを使用する」を参照して各メトリクスに関する詳細情報を確認することもできます。

[列の影響] セクションでは、各列のスコアを確認できます。[列の影響] は、ある列が他の列と比較して、予測を行う上でどれだけの重みを持っているかを示すパーセンテージスコアです。列の影響が 25% である場合、Canvas はその列の予測に 25% の重みを付け、その他の列には 75% の重みを付けます。

次のスクリーンショットは、モデルの時系列メトリクススコアと、モデルの構築時に最適化のメトリクスとして選択する [最適化メトリクス] を示しています。このケースの [最適化メトリクス] は RMSE です。モデルの新しいバージョンを構築する場合は、別の最適化メトリクスを指定できます。これらのメトリクススコアはバックテスト結果から取得されます。結果は [アーティファクト] タブでダウンロードできます。

[アーティファクト] タブでは、モデルのパフォーマンスをより深く掘り下げ、反復するために使用できるいくつかの主要なリソースにアクセスできます。

シャッフルされたトレーニングと検証の分割 – このセクションには、データセットがトレーニングと検証のセットに分割されたときに生成されたアーティファクトへのリンクが含まれているため、データ分布と潜在的なバイアスを確認できます。
バックテスト結果 – このセクションには、モデルの精度メトリクスと評価データを生成するために使用される検証データセットの予測値へのリンクが含まれています。
精度メトリクス – このセクションには、二乗平均平方根誤差 (RMSE) など、モデルのパフォーマンスを評価する高度なメトリクスが一覧表示されます。各メトリクスの詳細については、「時系列予測のメトリクス」を参照してください。
説明可能性レポート – このセクションは、説明可能性レポートをダウンロードするためのリンクを提供します。このレポートは、モデルの意思決定プロセスと入力列の相対的な重要度に関するインサイトを提供します。このレポートは、潜在的な改善分野を特定するのに役立ちます。

[分析] ページでは、[ダウンロード] ボタンを選択して、バックテスト結果、精度メトリクス、説明可能性レポートのアーティファクトをローカルマシンに直接ダウンロードすることもできます。

画像予測モデルの評価

[概要] タブには、[ラベルごとのパフォーマンス] が表示され、各ラベルで予測された画像の全体的な精度スコアがわかります。ラベルを選択すると、そのラベルの [正しく予測された] 画像や [正しく予測されなかった] 画像など、より具体的な詳細を確認できます。

[ヒートマップ] トグルをオンにすると、各画像のヒートマップが表示されます。ヒートマップには、モデルが予測を行う際に最も影響の大きい関心領域が表示されます。ヒートマップの詳細と、ヒートマップを使用してモデルを改善する方法については、[ヒートマップ] トグルの横にある [詳細] アイコンを選択してください。

単一ラベルの画像予測モデルの [スコアリング] タブには、モデルが予測したラベルと、実際のラベルとの比較が表示されます。一度に最大 10 件を選択できます。視覚化内のラベルを変更するには、ラベルドロップダウンメニューを選択して、ラベルを選択または選択解除します。

[モデル精度のインサイト] セクションの [スコアの表示対象] ドロップダウンメニューを選択すると、精度が最も高い、または最も低い 3 つのラベルなど、個々のラベルまたはラベルグループのインサイトを表示することもできます。

次のスクリーンショットは、単一ラベルの画像予測モデルの [スコアリング] 情報を示しています。

マルチカテゴリテキスト予測モデルの [スコアリング] ページの実際のラベルと予測されたラベル。

テキスト予測モデルの評価

[概要] タブには、[ラベルごとのパフォーマンス] が表示され、各ラベルで予測されたテキストの全体的な精度スコアがわかります。ラベルを選択すると、そのラベルの [正しく予測された] テキストや [正しく予測されなかった] テキストなど、より具体的な詳細を確認できます。

マルチカテゴリテキスト予測モデルの [スコアリング] タブには、モデルが予測したラベルと、実際のラベルとの比較が表示されます。

[モデル精度のインサイト] セクションには、[最も頻度の高いカテゴリ] が表示されます。これにより、モデルが最も頻繁に予測したカテゴリと、それらの予測の精度がわかります。モデルが [ポジティブ] のラベルを 99% 正確に予測できれば、そのモデルはテキスト内のポジティブなセンチメントを予測するのに十分優れていると言えます。

次のスクリーンショットは、マルチカテゴリテキスト予測モデルの [スコアリング] 情報を示しています。

単一ラベル画像予測モデルの [スコアリング] ページの実際のラベルと予測されたラベル。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

モデル評価

分析で高度なメトリクスを使用する

次のトピック

分析で高度なメトリクスを使用する

前のトピック:

モデル評価

ヘルプが必要ですか?

このページの内容

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません

モデルのパフォーマンスを評価する

カテゴリ予測モデルの評価

数値予測モデルの評価

時系列予測モデルの評価

画像予測モデルの評価

テキスト予測モデルの評価

次のトピック

前のトピック:

ヘルプが必要ですか?

このページの内容

Related resources

このページは役に立ちましたか?

Related resources

Canvas の [分析] タブの精度スコアと最適化メトリクスのスクリーンショット。

3+ カテゴリ予測モデルの [スコアリング]] タブのスクリーンショット。

Canvas の [分析] タブの RMSE 最適化メトリクスのスクリーンショット。

数値予測モデルの [スコアリング]] タブのスクリーンショット。

Canvas の [分析] タブの RMSE 最適化メトリクスのスクリーンショット。

マルチカテゴリテキスト予測モデルの [スコアリング] ページの実際のラベルと予測されたラベル。

単一ラベル画像予測モデルの [スコアリング] ページの実際のラベルと予測されたラベル。