モデルを評価するための指標 - Rekognition

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

モデルを評価するための指標

モデルのトレーニングが完了すると、Amazon Rekognition カスタムラベルはモデルのパフォーマンスを評価するために使用できるモデルのテストから多数のメトリクスを返します。このトピックでは、利用可能な測定基準と、トレーニングされたモデルがうまく機能しているかどうかを判断する方法について説明します。

Amazon Rekognition Custom Labels コンソールには、トレーニング結果の概要と各ラベルのメトリックスとして、次のメトリックスが表示されます。

私たちが提供する各指標は、Machine Learning モデルのパフォーマンスを評価するために一般的に使用される指標です。Amazon Rekognition Custom Labels は、テストデータセット全体のテスト結果のメトリックスと、各カスタムラベルのメトリクスを返します。テストデータセットの各画像について、トレーニングしたカスタムモデルのパフォーマンスを確認することもできます。詳細については、「評価指標へのアクセス (コンソール)」を参照してください。

モデルのパフォーマンスの評価

テスト中、Amazon Rekognition Custom Labels はテスト画像にカスタムラベルが含まれているかどうかを予測します。信頼度スコアは、モデルの予測の確実性を定量化する値です。

カスタムラベルの信頼スコアが閾値を超える場合、モデル出力にはこのラベルが含まれます。予測は、以下の方法で分類できます。

  • 真のポジティブ— Amazon Rekognition カスタムラベルモデルは、テストイメージ内のカスタムラベルの存在を正しく予測します。つまり、予測ラベルはその画像の「グラウンドトゥルース」ラベルでもあります。たとえば、Amazon Rekognition Custom Labels は、画像にサッカーボールが含まれている場合にサッカーボールのラベルを正しく返します。

  • 誤検出機能— Amazon Rekognition Custom Labelsモデルが、テスト画像内のカスタムラベルの存在を誤って予測します。つまり、予測ラベルは画像のグラウンドトゥルースラベルではありません。たとえば、Amazon Rekognition Custom Labels はサッカーボールのラベルを返しますが、その画像のグラウンドトゥルースにはサッカーボールのラベルはありません。

  • 誤陰性— Amazon Rekognition Custom Labels モデルでは、画像にカスタムラベルがあるとは予測しませんが、その画像の「根拠」にはこのラベルが含まれます。たとえば、Amazon Rekognition Custom Labels は、サッカーボールを含む画像の「サッカーボール」カスタムラベルを返しません。

  • 真陰性— Amazon Rekognition カスタムラベルモデルは、カスタムラベルがテスト画像に存在しないことを正しく予測します。たとえば、Amazon Rekognition Custom Labels では、サッカーボールが含まれていない画像のサッカーボールラベルは返されません。

コンソールでは、テストデータセットの各画像の真陽性、偽陽性、偽陰性の値にアクセスできます。詳細については、「評価指標へのアクセス (コンソール)」を参照してください。

これらの予測結果は、各ラベルの次の指標の計算や、テストセット全体の集計に使用されます。同じ定義がバウンディングボックスレベルでのモデルによる予測にも当てはまりますが、すべてのメトリクスは各テスト画像の各バウンディングボックス(予測またはグラウンドトゥルース値)で計算されるという違いがあります。

ユニオン (IoU) 上の交差点と物体検知

ユニオンの交点 (IoU) は、2 つのオブジェクトのバウンディングボックスが結合された領域で重なり合うパーセンテージを測定します。範囲は 0 (最も低いオーバーラップ) から 1 (完全なオーバーラップ) です。テスト中、グラウンドトゥルースバウンディングボックスと予測バウンディングボックスのIoUが少なくとも0.5であれば、予測されたバウンディングボックスは正しいです。

想定しきい値

Amazon Rekognition カスタムラベルは、カスタムラベルごとに想定されるしきい値 (0-1) を自動的に計算します。カスタムラベルに想定される閾値を設定することはできません。-想定しきい値各ラベルの値は、それを超えると予測が真陽性または偽陽性としてカウントされます。テストデータセットに基づいて設定されます。想定される閾値は、モデルトレーニング中にテストデータセットで達成された最高F1スコアに基づいて計算されます。

モデルのトレーニング結果から、ラベルの想定閾値を取得できます。詳細については、「評価指標へのアクセス (コンソール)」を参照してください。

想定される閾値を変更することは、通常、モデルの精度と再現性を向上させるために使用されます。詳細については、「Amazon Rekognition カスタムラベルモデルの改善」を参照してください。モデルがラベルに想定する閾値を設定することはできないため、以下の方法で画像を分析しても同じ結果が得られます。DetectCustomLabelsそして指定するMinConfidence入力パラメータ 詳細については、「トレーニング済みモデルを使用して画像を解析する」を参照してください。

精度

Amazon Rekognition Custom Labels は、各ラベルの精度メトリクスとテストデータセット全体の平均精度メトリクスを提供します。

precisionは、個々のラベルの想定閾値におけるすべてのモデル予測 (真陽性および偽陽性) に対する正しい予測 (真陽性) の割合です。閾値を大きくすると、モデルが行う予測が少なくなる可能性があります。ただし、一般的には、閾値が低い場合と比較して、偽陽性に対する真陽性の比率が高くなります。適合率の範囲は 0~1 です。

たとえば、ある画像にサッカーボールがあるとモデルが予測したとき、その予測はどれくらいの頻度で正しいか サッカーボールが8個と岩が5個ある画像があるとします。モデルで 9 個のサッカーボール (8 個は正しく予測され、1 個は誤検知) が予測される場合、この例の精度は 0.89 です。ただし、モデルが画像内の 13 個のサッカーボールを予測し、8 個の正しい予測値と 5 個が不正確だった場合、結果の精度は低くなります。

詳細については、「適合率と再現率」を参照してください。

リコール

Amazon Rekognition Custom Labelsは、各ラベルの平均リコールメトリックスとテストデータセット全体の平均リコールメトリクスを提供します。

リコールは、想定される閾値を正しく上回ると予測されたテストセットラベルの割合です。これは、テストセットの画像に実際にカスタムラベルが存在する場合、モデルが正しく予測できる頻度を示す指標です。再現率の範囲は 0~1 です。値が高いほど回収率が高いことを示します。

たとえば、画像にサッカーボールが8個含まれている場合、正しく検出されるボールはいくつありますか? 前述の例では、画像にサッカーボールが8個と岩が5個あり、モデルがサッカーボールのうち5個を検出した場合、再現率は0.62になります。再トレーニング後、新しいモデルが画像に存在する8個すべてを含む9個のサッカーボールを検出した場合、想起率は1.0になります。

詳細については、「適合率と再現率」を参照してください。

F1

Amazon Rekognition Custom Labels は、F1 スコアメトリクスを使用して、各ラベルの平均モデルパフォーマンスとテストデータセット全体の平均モデルパフォーマンスを測定します。

モデルのパフォーマンスは、すべてのラベルの適合率と再現率の両方を考慮した総合的な指標です。 (たとえば、F1スコアや平均精度)。モデルのパフォーマンススコアは 0~1 の値をとります。値が大きいほど、再現率と適合率の両方でモデルのパフォーマンスが高い事を意味します。具体的には、分類タスクのモデルのパフォーマンスは F1 スコアというメトリクスで測定されます。例えば、適合率が 0.9、再現率が 1.0 のモデルの場合、F1 スコアは 0.947 になります。

F1スコアの値が高い場合は、モデルが精度と再現性の両方で良好に機能していることを示します。モデルのパフォーマンスが良好でない場合、例えば、適合率が 0.30 と低いと、再現率が 1.0 と高くても F1 スコアは0.46になります。同様に、適合率が高くとも (0.95)、再現率が低い場合 (0.20)、F1 スコアは0.33 になります。どちらの場合も、F1 スコアは低く、これはモデルに問題があることを示しています。

詳細については、「F1 スコア」を参照してください。

メトリクスの使用

トレーニングした特定のモデルについて、また用途に応じて、以下のトレードオフを行うことができます精度そして想起の使用MinConfidence入力パラメータDetectCustomLabels。もっと高いところでMinConfidence価値、あなたは一般的に高くなります精度(サッカーボールの予測がより正確になる)、しかし低い想起(より多くの実際のサッカーボールは欠場します)。低いところでMinConfidence価値、あなたは高くなる想起(より多くの実際のサッカーボールが正しく予測される)、しかしそれより低い精度(サッカーボールの予測の多くは間違っているでしょう)。詳細については、「トレーニング済みモデルを使用して画像を解析する」を参照してください。

メトリクスは、必要に応じてモデルのパフォーマンスを改善するために取るべき手順についても教えてくれます。詳細については、「Amazon Rekognition カスタムラベルモデルの改善」を参照してください。

注記

DetectCustomLabels0から100までの範囲の予測を返します。これは0から1のメトリック範囲に対応します。