テキスト分類のデータセット形式と目標メトリクス

このセクションでは、テキスト分類に使用されるデータセットに利用可能な形式と、機械学習モデル候補の予測品質を評価するために使用されるメトリクスについて説明します。候補に対して計算されるメトリクスは、MetricDate タイプの配列を使用して指定します。

データセット形式

Autopilot は、CSV ファイルまたは Parquet ファイルとしてフォーマットされた表形式のデータをサポートしています。表形式のデータでは、各列に特定のデータ型の特徴が入り、各行に観測値が入ります。これら 2 つのファイル形式のプロパティは大きく異なります。

CSV (カンマ区切り値) は、データを人間が読めるプレーンテキストで格納する行ベースのファイル形式で、幅広いアプリケーションでサポートされているため、データ交換に一般的に採用されています。
Parquet は、列ベースのファイル形式で、行ベースのファイル形式よりも効率的にデータを格納および処理します。このため、ビッグデータの問題にはより適したオプションです。

列に使用できるデータタイプには、数値、カテゴリ、テキストがあります。

Autopilot は、最大数百 GB に達する大規模データセットでの機械学習モデルの構築をサポートしています。入力データセットに対するデフォルトのリソース制限と、これらの制限を引き上げる方法の詳細については、「Amazon SageMaker Autopilot のクォータ」を参照してください。

次のリストには、テキスト分類モデルのパフォーマンスを測定するために現在利用可能なメトリクスの名前が含まれています。

Accuracy: 正しく分類された項目の数の、(正しく、および誤って) 分類された項目の総数に対する比率。精度は、予測されたクラス値が実際の値にどれだけ近いかを測定します。精度メトリクスの値は 0～1 の間で変化します。値 1 は完全な精度を示し、0 は完全な不正確さを示します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

AutoML API を使用してテキスト分類ジョブを作成する

予測用の Autopilot モデルをデプロイする