適用於文字分類的資料集格式和目標指標 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

適用於文字分類的資料集格式和目標指標

在本節中,我們將了解用於文字分類的資料集可用格式,以及用來評估機器學習模型候選項目預測品質的指標。使用 MetricDatum 類型陣列指定針對候選項目計算的指標。

資料集格式

Autopilot 支援格式化為CSV檔案或 Parquet 檔案的表格式資料。對於表格式資料,每一欄包含具有特定資料類型的功能,而每一列都包含一個觀察。這兩種檔案格式的屬性有著很大的差異。

  • CSV (comma-separated-values) 是一種以資料列為基礎的檔案格式,可將資料存放在人類可讀純文字中,因為資料交換受到各種應用程式支援,因此是常見的資料交換選擇。

  • Parquet 是一種基於列的文件格式,其中資料存放和處理比基於行的文件格式更有效。這使它們成為解決大數據問題的更好選擇。

欄接受的資料類型包含數值、分類、文字。

Autopilot 支援在多達數百個 的大型資料集上建置機器學習模型GBs。如需輸入資料集的預設資源限制以及如何增加這些限制的詳細資訊,請參閱 Amazon SageMaker Autopilot 配額

目標指標

下列清單包含目前可用來衡量文字分類模型效能的指標名稱。

Accuracy

正確分類項目的數量與 (正確和不正確) 的分類項目總數的比率。準確性衡量預測的類別值與實際值的接近程度。準確性指標的值在零 (0) 和一 (1) 之間變化。值 1 表示完美的準確性,0 表示完美的不準確性。