API を使用してテキスト分類用の AutoML ジョブを作成する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

API を使用してテキスト分類用の AutoML ジョブを作成する

以下の手順は、API Reference SageMaker を使用してテキスト分類問題タイプのパイロット実験として Amazon SageMaker Autopilot ジョブを作成する方法を示しています。

注記

テキストや画像の分類、時系列予測、大規模言語モデルの微調整などのタスクは、AutoML REST APIのバージョン2でのみ利用できます。選択した言語が Python の場合は、Amazon SageMaker Python SDK の AutoMLv2 オブジェクトを直接参照できますAWS SDK for Python (Boto3)

便利なユーザーインターフェイスを好むユーザーは、Amazon SageMaker Canvas を使用して事前トレーニング済みのモデルやジェネレーティブ AI 基盤モデルにアクセスしたり、特定のテキスト、画像分類、予測ニーズ、またはジェネレーティブ AI に合わせたカスタムモデルを作成したりできます。

Amazon Autopilot またはでサポートされている任意の言語で CreateAutoMLJobV2API アクションを呼び出すことで、オートパイロットのテキスト分類テストをプログラムで作成できます。 SageMaker AWS CLI

この API アクションが選択した言語の関数にどのように変換されるかについては、「CreateAutoMLJobV2」の「関連項目」セクションを参照して SDK を選択してください。例として、Python ユーザーの場合は、「 AWS SDK for Python (Boto3)」の「create_auto_ml_job_v2 のすべてのリクエスト構文」を参照してください。

以下は、テキスト分類に使用される CreateAutoMLJobV2 API アクションの必須およびオプションの入力リクエストパラメータをまとめたものです。

必須パラメータ

CreateAutoMLJobV2 を呼び出してテキスト分類用の Autopilot 実験を作成するには、次の値を指定する必要があります。

その他のすべてのパラメータは省略可能です。

任意指定のパラメータ

次のセクションでは、テキスト分類 AutoML ジョブに渡すことができるいくつかのオプションパラメータについて詳しく説明します。

独自の検証データセットとカスタムデータの分割比率を指定することも、Autopilot にデータセットを自動的に分割させることもできます。

AutoMLJobChannel各オブジェクト (必須パラメーター AutoML を参照JobInputDataConfig) にはがありChannelTypetrainingvalidation機械学習モデルを構築する際のデータの使い方を指定する値のいずれかに設定できます。

少なくとも 1 つのデータソースを指定する必要があり、最大 2 つのデータソースを指定できます。1 つはトレーニングデータ用、もう 1 つは検証データ用です。データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。

データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。

  • データソースが 1 つのみである場合、ChannelType はデフォルトで training に設定され、この値を持つ必要があります。

    • AutoMLDataSplitConfigValidationFraction 値を設定しないと、このソースのデータの 0.2 (20%) がデフォルトで検証に使用されます。

    • ValidationFraction を 0 から 1 の間の値に設定すると、データセットは指定した値に基づいて分割されます。この値は、検証に使用されるデータセットの割合を指定します。

  • データソースが 2 つである場合は、AutoMLJobChannel オブジェクトの 1 つの ChannelTypetraining (デフォルト値) に設定する必要があります。他のデータソースの ChannelTypevalidation に設定する必要があります。2 つのデータソースは、同じ形式 (CSV または Parquet) と同じスキーマを持つ必要があります。この場合、ValidationFraction の値を設定してはいけません。各ソースのすべてのデータがトレーニングまたは検証に使用されるためです。この値を設定すると、エラーが発生します。

AutoML ジョブの最適なモデル候補の自動デプロイを有効にするには、AutoML ジョブリクエストに ModelDeployConfig を含めます。これにより、 SageMaker 最適なモデルをエンドポイントにデプロイできます。カスタマイズできる設定は以下のとおりです。