自訂分類器指標 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自訂分類器指標

Amazon Comprehend 提供的指標可協助您估算自訂分類器的效能。Amazon Comprehend 會使用分類器訓練任務的測試資料來計算指標。指標可準確地表示模型在訓練期間的效能,因此它們會對類似資料進行分類的模型效能近似。

使用 API 操作,例DescribeDocumentClassifier如檢索自定義分類器的指標。

注意

如需瞭解基礎精確度、召回和 F1 評分量度,請參閱量度:精確度、召回和 fScore。這些測量結果是在類別層次定義。Amazon Comprehend 使用巨集平均法將這些指標合併到測試集 P、R 和 F1 中,如下所述。

指標

Amazon Comprehend 支援下列指標:

若要檢視「分類器」的測量結果,請在主控台中開啟「分類器詳細資訊」頁面。

自訂分類器指標

準確性

準確度指示來自模型準確預測的測試資料中的標籤百分比。為了計算準確性,請將測試文件中準確預測標籤的數量除以測試文件中的標籤總數。

例如

實際標籤 預測標籤 準確/不正確

1

1

準確

0

1

不正確

2

3

不正確

3

3

準確

2

2

準確

1

1

準確

3

3

準確

準確度包括準確預測的數量除以整體測試樣本的數量 = 5/7 = 0.714 或 71.4%

精確度(宏觀精度)

精度是對測試數據中分類器結果的有用性的衡量標準。它被定義為正確分類的文檔數量,除以班級的分類總數。高精度意味著分類器返回的結果顯著比不相關的結果更加相關。

Precision量度也稱為「巨集精確度」。

下列範例顯示測試集的精確度結果。

標籤 樣本大小 標籤精度

商標貼紙 _1

400

0.75

標籤貼紙 _2

300

0.80

標籤貼紙 _3

30000

0.90 版

標籤貼紙 _4

20

0.50

標籤型 _5

10

0.40

因此,模型的精確度 (巨集精確度) 公制為:

Macro Precision = (0.75 + 0.80 + 0.90 + 0.50 + 0.40)/5 = 0.67

召回(宏調用)

這表示模型可以預測的文字中正確類別的百分比。此指標來自所有可用標籤的召回分數的平均值。召回是測試數據分類器結果的完整程度。

高召回意味著分類器返回了大部分相關結果。

Recall量度也稱為「巨集回復」。

下列範例顯示測試集的回收結果。

標籤 樣本大小 標籤召回

商標貼紙 _1

400

0.70

標籤貼紙 _2

300

0.70

標籤貼紙 _3

30000

0.98

標籤貼紙 _4

20

0.80

標籤型 _5

10

0.10

因此,模型的召回 (巨集回復) 量度為:

Macro Recall = (0.70 + 0.70 + 0.98 + 0.80 + 0.10)/5 = 0.656

F1 得分(宏 F1 得分)

F1 分數衍生自PrecisionRecall值。它測量分類器的整體精度。最高分為 1,最低分數為 0。

Amazon Comprehend 計算宏 F1 得分。這是 F1 分數標籤的未加權平均值。使用以下測試集作為示例:

標籤 樣本大小 F1 得分标签

商標貼紙 _1

400

0.724

標籤貼紙 _2

300

0.824

標籤貼紙 _3

30000

0.94

標籤貼紙 _4

20

0.62

標籤型 _5

10

0.16

模型的 F1 分數 (巨集 F1 分數) 的計算方式如下:

Macro F1 Score = (0.724 + 0.824 + 0.94 + 0.62 + 0.16)/5 = 0.6536

汉明损失

不正確預測的標籤分數。與標籤總數相比,也被視為不正確標籤的分數。分數接近於零更好。

微精密

原件:

與精確度度量類似,不同之處在於微精確度是以所有精確度分數加在一起的整體得分為基礎。

微召回

與召回指標類似,不同之處在於微回收是基於所有召回分數加在一起的總分數。

微型 F1 比分

微型 F1 分數是「微型精確度」和「微型召回」指標的組合。

提高自定義分類器的性能

這些指標可讓您深入瞭解自訂分類器在分類工作期間的效能。如果指標很低,則分類模型可能對您的使用案例無效。您有幾個選項可以提高分類器性能:

  1. 在訓練資料中,提供定義明確分隔品類的具體範例。例如,提供使用唯一字詞/句子來表示類別的文件。

  2. 在訓練資料中為代表不足的標籤新增更多資料。

  3. 嘗試減少類別中的歪斜。如果資料中最大的標籤在最小標籤中的文件是文件的 10 倍以上,請嘗試增加最小標籤的文件數量。確保在高度代表和最少代表的類之間將偏斜比減少到最多 10:1。您也可以嘗試從高度表示的類中刪除輸入文檔。