モデルを評価するためのメトリクス

モデルをトレーニングすると、Amazon Rekognition Custom Labels はモデルテストのメトリクスを返し、モデルのパフォーマンスを評価するために使用できます。このトピックでは、利用可能なメトリクスと、トレーニング済みのモデルが適切に機能しているかどうかを確認する方法について説明します。

Amazon Rekognition Custom Labels コンソールには、トレーニング結果の概要として、また各ラベルのメトリクスとして、以下のメトリクスが用意されています。

精度
リコール
F1

各メトリクスは、機械学習モデルのパフォーマンスを評価するために一般的に使用されるメトリクスです。Amazon Rekognition Custom Labels は、テストデータセット全体におけるテスト結果のメトリクスと、各カスタムラベルのメトリクスを返します。また、テストデータセット内の各イメージについて、トレーニング済みのカスタムモデルのパフォーマンスを確認することもできます。詳細については、「評価メトリクスへのアクセス (コンソール)」を参照してください。

モデルパフォーマンスの評価

テスト中、Amazon Rekognition Custom Labels はテストイメージにカスタムラベルが含まれているかどうかを予測します。信頼スコアは、モデルの予測の確実性を定量化する値です。

カスタムラベルの信頼スコアがしきい値を超えると、モデル出力にこのラベルが含められます。予測は以下の方法で分類できます。

真陽性 - Amazon Rekognition Custom Labels モデルは、テストイメージ内のカスタムラベルの存在を正しく予測します。予測されたラベルは、そのイメージの「グラウンドトゥルース」ラベルでもあります。例えば、Amazon Rekognition Custom Labels は、イメージにサッカーボールが含まれている場合、サッカーボールラベルを正しく返します。
偽陽性 - Amazon Rekognition Custom Labels モデルは、テストイメージ内のカスタムラベルの存在を正しく予測します。予測されたラベルは、そのイメージの「グラウンドトゥルース」ラベルではありません。例えば、Amazon Rekognition Custom Labels はサッカーボールラベルを返しますが、そのイメージのグラウンドトゥルースにはサッカーボールラベルがありません。
偽陰性 - Amazon Rekognition Custom Labels モデルは、イメージにカスタムラベルが存在することを予測しませんが、そのイメージの「グラウンドトゥルース」にはこのラベルが含まれています。例えば、Amazon Rekognition Custom Labels では、サッカーボールを含むイメージの「サッカーボール」カスタムラベルは返されません。
真陰性 - Amazon Rekognition Custom Labels モデルは、テストイメージ内にカスタムラベルがないことを正しく予測します。例えば、Amazon Rekognition Custom Labels では、サッカーボールを含まないイメージの「サッカーボール」ラベルは返されません。

コンソールでは、テストデータセット内の各イメージの真陽性、偽陽性、偽陰性の値にアクセスできます。詳細については、「評価メトリクスへのアクセス (コンソール)」を参照してください。

これらの予測結果を使用して、各ラベルの以下のメトリクスと、テストセット全体の集計値が計算されます。境界ボックスレベルでのモデルによる予測にも同じ定義が当てはまりますが、すべてのメトリクスは各テストイメージの各境界ボックス (予測またはグラウンドトゥルース) で計算されるという違いがあります。

インターセクションオーバーユニオン (IoU) とオブジェクト検出

インターセクションオーバーユニオン (IoU) は、2 つのオブジェクト境界ボックスが結合された領域で重なり合う割合を測定します。範囲は 0 (最小のオーバーラップ) から 1 (完全なオーバーラップ) です。テスト中、グラウンドトゥルース境界ボックスと予測境界ボックスの IoU が 0.5 以上であれば、予測境界ボックスは正確です。

想定しきい値

Amazon Rekognition Custom Labels は、各カスタムラベルの想定しきい値 (0～1) を自動的に計算します。カスタムラベルに想定しきい値を設定することはできません。各ラベルの想定しきい値は、それを超えると予測が真陽性または偽陽性としてカウントされる値です。テストデータセットに基づいて設定されます。想定しきい値は、モデルトレーニング中にテストデータセットで達成された最高の F1 スコアに基づいて計算されます。

ラベルの想定しきい値は、モデルのトレーニング結果から取得できます。詳細については、「評価メトリクスへのアクセス (コンソール)」を参照してください。

通常、想定しきい値は、モデルの適合率と再現率を向上させるために変更します。詳細については、「Amazon Rekognition Custom Labels モデルの改善」を参照してください。モデルの想定しきい値をラベルに設定することはできないため、DetectCustomLabels のイメージを分析し MinConfidence 入力パラメータを指定しても、同じ結果が得られます。詳細については、「トレーニングされたモデルによるイメージの分析」を参照してください。

精度

Amazon Rekognition Custom Labels には、各ラベルの適合率メトリクスとテストデータセット全体の平均適合率メトリクスが用意されています。

適合率は、それぞれのラベルの推定しきい値における、すべてのモデル予測 (真陽性および偽陽性) に対する正しい予測 (真陽性) の割合です。しきい値が上がると、モデルによる予測の数が少なくなる可能性があります。ただし、一般的には、しきい値が高い場合はしきい値が低い場合よりも、偽陽性に対する真陽性の比率が高くなります。適合率で指定できる値の範囲は 0～1 で、値が大きいほど精度は高くなります。

例えば、あるイメージにサッカーボールがあるとモデルが予測したとき、その予測が正しい頻度はどれほどでしょうか。サッカーボールが 8 個、岩が 5 個あるイメージがあるとします。モデルが 9 個のサッカーボールを予測する場合、8 個は正しく予測されて 1 個は偽陽性であり、この例の適合率は 0.89 です。ただし、モデルがイメージ内で 13 個のサッカーボールがあると予測すると、8 個の予測が正しく 5 個が不正確となり、結果として適合率は低くなります。

詳細については、「適合率と再現率」を参照してください。

リコール

Amazon Rekognition Custom Labels には、各ラベルの平均リコールメトリクスとテストデータセット全体の平均再現率メトリクスが表示されます。

再現率は、テストセットラベルのうち、想定しきい値を上回ると正しく予測されたものの割合です。これは、テストセットのイメージに実際にカスタムラベルが存在する場合、モデルが正しく予測できる頻度を示す指標です。再現率の範囲は 0～1 です。値が大きいほど、再現率は高くなります。

例えば、イメージ内にサッカーボールが 8 個含まれている場合、正しく検出されるのは何個ですか。この例では、イメージ内にサッカーボールが 8 個と岩が 5 個あり、モデルが 5 個のサッカーボールを検出した場合、再現率値は 0.62 になります。もう一度トレーニングした後、新しいモデルがイメージ内に含まれる 8 個すべてを含む 9 個のサッカーボールを検出する場合、再現率値は 1.0 になります。

詳細については、「適合率と再現率」を参照してください。

F1

Amazon Rekognition Custom Labels は、F1 スコアメトリクスを使用して、各ラベルの平均モデルパフォーマンスとテストデータセット全体の平均モデルパフォーマンスを測定します。

モデルパフォーマンスは、すべてのラベルの適合率と再現率の両方を考慮した総合的な指標です (F1 スコアや平均精度など)。モデルのパフォーマンススコアは 0～1 の値をとります。値が大きいほど、再現率と適合率の両方でモデルのパフォーマンスが高い事を意味します。具体的には、分類タスクのモデルパフォーマンスは通常 F1 スコアで測定されます。そのスコアでは、仮定されたしきい値での適合率スコアと再現率スコアを組み合わせた手法を用います。例えば、適合率が 0.9、再現率が 1.0 のモデルの場合、F1 スコアは 0.947 になります。

F1 スコアの値が高いということは、適合率と再現率の両面でモデルのパフォーマンスが良好であることを示しています。モデルのパフォーマンスが良好でない場合、例えば、適合率が 0.30 と低いと、再現率が 1.0 と高くても F1 スコアは0.46になります。同様に、適合率が高くて (0.95) 再現率が低い場合 (0.20)、F1 スコアは 0.33 になります。どちらの場合も、F1 スコアは低く、モデルに問題があることを示しています。

詳細については、「F1 スコア」を参照してください。

メトリクスの使用

トレーニングした特定のモデルや用途によっては、DetectCustomLabels のために MinConfidence 入力パラメータを使用すると、適合率と再現率のバランスを取ることができます。MinConfidence 値を大きくすると、一般的に適合率は高くなり (サッカーボールの予測がより正確になり)、再現率は低くなります (実際のサッカーボールを見逃す回数が多くなります)。MinConfidence の値が小さいほど再現率は高くなりますが (実際のサッカーボールがより正確に予測される)、適合率は低くなります (予測の多くが誤っていることになります)。詳細については、「トレーニングされたモデルによるイメージの分析」を参照してください。

この指標は、必要に応じてモデルのパフォーマンスを改善するために取るべきステップについても教えてくれます。詳細については、「Amazon Rekognition Custom Labels モデルの改善」を参照してください。

注記

DetectCustomLabels は 0～100 の範囲の予測を返します。これらは 0～1 のメトリクス範囲に対応します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

トレーニング済みモデルの改善

評価メトリクスへのアクセス (コンソール)