適用於文字分類的資料集格式和目標指標

在本節中，我們將了解用於文字分類的資料集可用格式，以及用來評估機器學習模型候選項目預測品質的指標。針對候選項目計算的指標是使用 MetricDatum 類型的陣列來予以指定。

資料集格式

Autopilot 支援格式化為 CSV 檔案或 Parquet 檔案的表格式資料。對於表格式資料，每一欄包含具有特定資料類型的功能，而每一列都包含一個觀察。這兩種檔案格式的屬性有著很大的差異。

欄接受的資料類型包含數值、分類、文字。

Autopilot 支援在高達數百個 GB 的大型資料集上建置機器學習模型。如需有關輸入資料集的預設資源限制以及如何增加這些限制的詳細資訊，請參閱 Amazon SageMaker Autopilot 配額。

下列清單包含目前可用來衡量文字分類模型效能的指標名稱。

Accuracy: 正確分類項目的數量與 (正確和不正確) 的分類項目總數的比率。準確性衡量預測的類別值與實際值的接近程度。準確性指標的值在零 (0) 和一 (1) 之間變化。值 1 表示完美的準確性，0 表示完美的不準確性。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

使用 AutoML API 建立文字分類任務

部署 Autopilot 模型以進行預測