カスタム分類子メトリクス - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

カスタム分類子メトリクス

Amazon Comprehend には、カスタム分類子のパフォーマンスを推定するのに役立つメトリクスが用意されています。Amazon Comprehend は、分類子調教ジョブのテストデータを使用してメトリクスを計算します。メトリクスは調教中のモデルのパフォーマンスを正確に表しているため、類似データを分類する際のモデルのパフォーマンスに近い値になります。

などの API オペレーションDescribeDocumentClassifierを使用して、カスタム分類子のメトリクスを取得します。

注記

基礎となるプレシジョン、リコール、F1 スコアのメトリクスについて詳しくは、「メトリクス:精度、再現率、FScore」を参照してください。これらのメトリクスはクラスレベルで定義されます。Amazon Comprehend は、以下で説明するように、マクロ平均化によりこれらのメトリクスをテストセット P、R、F1 に結合します。

メトリクス

Amazon Comprehend は以下のメトリクスをサポートしています。

分類子のメトリクスを表示するには、コンソールの分類子の詳細ページを開きます。

カスタム分類子メトリクス

正解率

精度は、テストデータに含まれるラベルのうち、モデルが正確に予測したラベルの割合を示します。精度を計算するには、テスト文書内の正確に予測されたラベル数を、テスト文書内のラベルの総数で割ります。

実際のラベル 予測ラベル 正確/不正確

1

1

正確

0

1

不正確

2

3

不正確

3

3

正確

2

2

正確

1

1

正確

3

3

正確

精度は、正確な予測数を全体のテストサンプル数で割った値 = 5/7 = 0.714、つまり 71.4% です。

精度 (マクロ精度)

精度は、テストデータにおける分類結果の有用性の尺度です。正確に分類された文書の数を、そのクラスの分類総数で割ったものとして定義されます。精度が高いということは、分類子が無関係な結果よりもかなり関連性の高い結果を返したということです。

Precisionこの指標はマクロ精度とも呼ばれます。

次の例は、テストセットの精度結果を示しています。

ラベル サンプルサイズ ラベル精度

Label_1

400

0.75

Label_2

300

0.80

Label_3

30000

0.90

Label_4

20

0.50

Label_5

10

0.40

したがって、モデルの精度 (マクロ精度) 指標は次のようになります。

Macro Precision = (0.75 + 0.80 + 0.90 + 0.50 + 0.40)/5 = 0.67

リコール (マクロリコール)

これは、テキストに含まれる正しいカテゴリのうち、モデルが予測できる正しいカテゴリの割合を示します。この指標は、使用可能なすべてのラベルのリコールスコアを平均して算出されます。リコールは、分類子の結果がテストデータにどの程度完全であるかを示す尺度です。

リコール率が高いということは、分類子が関連する結果のほとんどを返したことを意味します。

Recall 指標はマクロリコールとも呼ばれます。

次の例は、テストセットのリコール結果を示しています。

ラベル サンプルサイズ ラベルリコール

Label_1

400

0.70

Label_2

300

0.70

Label_3

30000

0.98

Label_4

20

0.80

Label_5

10

0.10

したがって、モデルのリコール (マクロリコール) 指標は次のようになります。

Macro Recall = (0.70 + 0.70 + 0.98 + 0.80 + 0.10)/5 = 0.656

F1 スコア (マクロ F1 スコア)

F1 スコアは PrecisionRecall の値から算出されます。分類子全体の精度を測定します。最高スコアは 1 で、最低スコアは 0 です。

Amazon Comprehend はマクロ F1 スコアを計算します。これはラベルの F1 スコアの加重されていない平均です。次のテストセットを例に取ります。

ラベル サンプルサイズ ラベル F1 スコア

Label_1

400

0.724

Label_2

300

0.824

Label_3

30000

0.94

Label_4

20

0.62

Label_5

10

0.16

モデルの F1 スコア (マクロ F1 スコア) は次のように計算されます。

Macro F1 Score = (0.724 + 0.824 + 0.94 + 0.62 + 0.16)/5 = 0.6536

ハミングロス

予測違いのラベルの割合。ラベル総数に対する不正確なラベルの割合とも見なされます。0 に近いほど良いスコアです。

マイクロ精度

オリジナル:

精度指標と似ていますが、マイクロ精度はすべての精度スコアを足した総合スコアに基づく点が異なります。

マイクロリコール

リコール指標と似ていますが、マイクロリコールはすべてのリコールスコアを足した総合スコアに基づく点が異なります。

マイクロ F1 スコア

Micro F1 スコアは、マイクロ精度指標とマイクロリコール指標を組み合わせたものです。

カスタム分類子のパフォーマンス向上

指標から分類ジョブ中にカスタム分類子がどのように機能するかについての洞察が得られます。指標が低い場合、分類モデルは使用事例に合わない可能性があります。分類子パフォーマンスを改善するには、幾つか方法があります。

  1. 調教データには、カテゴリを明確に分ける具体的な例を指定してください。たとえば、カテゴリを表すために固有の単語や文を使用する文書を用意します。

  2. 調教データで、表示頻度が低いラベルについては、さらにデータを追加します。

  3. カテゴリ内の偏りを減らすようにしてください。文書の数がデータ内の最大ラベルに最小ラベルの 10 倍以上ある場合は、最小ラベルの文書数を増やしてみてください。表現率の高いクラスと低いクラスのスキュー比を最大で 10:1 に減らしてください。また、表現数の多いクラスから入力文書を削除してみることもできます。