テキスト分類のデータセット形式と目標メトリクス - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

テキスト分類のデータセット形式と目標メトリクス

このセクションでは、テキスト分類に使用されるデータセットに利用可能な形式と、機械学習モデル候補の予測品質を評価するために使用されるメトリクスについて説明します。候補について計算されるメトリックは、MetricDatumさまざまなタイプの配列を使用して指定されます。

データセット形式

Autopilot は、CSV ファイルまたは Parquet ファイルとしてフォーマットされた表形式のデータをサポートしています。表形式のデータでは、各列に特定のデータ型の特徴が入り、各行に観測値が入ります。これら 2 つのファイル形式のプロパティは大きく異なります。

  • CSV (comma-separated-values) は、人間が読めるプレーンテキストでデータを格納する行ベースのファイル形式です。幅広いアプリケーションでサポートされているため、データ交換によく使われています。

  • Parquet は、列ベースのファイル形式で、行ベースのファイル形式よりも効率的にデータを格納および処理します。このため、ビッグデータの問題にはより適したオプションです。

列に使用できるデータタイプには、数値、カテゴリ、テキストがあります。

Autopilot は、最大数百 GB に達する大規模データセットでの機械学習モデルの構築をサポートしています。入力データセットのデフォルトリソース制限とそれを増やす方法の詳細については、「Amazon SageMaker Autopilot クォータ」を参照してください。

目標メトリクス

次のリストには、テキスト分類モデルのパフォーマンスを測定するために現在利用可能なメトリクスの名前が含まれています。

Accuracy

正しく分類された項目の数の、(正しく、および誤って) 分類された項目の総数に対する比率。精度は、予測されたクラス値が実際の値にどれだけ近いかを測定します。精度メトリクスの値は 0~1 の間で変化します。値 1 は完全な精度を示し、0 は完全な不正確さを示します。