翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
API を使用してテキスト分類用の AutoML ジョブを作成する
注記
テキストや画像の分類、時系列予測、大規模言語モデルの微調整などのタスクは、AutoML REST APIのバージョン2でのみ利用できます。選択した言語が Python の場合は、Amazon SageMaker Python SDK の AutoMLv2 オブジェクトを直接参照できます
便利なユーザーインターフェイスを好むユーザーは、Amazon SageMaker Canvas を使用して事前トレーニング済みのモデルやジェネレーティブ AI 基盤モデルにアクセスしたり、特定のテキスト、画像分類、予測ニーズ、またはジェネレーティブ AI に合わせたカスタムモデルを作成したりできます。
Amazon Autopilot またはでサポートされている任意の言語で CreateAutoMLJobV2
API アクションを呼び出すことで、オートパイロットのテキスト分類テストをプログラムで作成できます。 SageMaker AWS CLI
この API アクションが選択した言語の関数にどのように変換されるかについては、「CreateAutoMLJobV2
」の「関連項目」セクションを参照して SDK を選択してください。例として、Python ユーザーの場合は、「 AWS SDK for Python (Boto3)」の「create_auto_ml_job_v2
のすべてのリクエスト構文」を参照してください。
以下は、テキスト分類に使用される CreateAutoMLJobV2
API アクションの必須およびオプションの入力リクエストパラメータをまとめたものです。
必須パラメータ
CreateAutoMLJobV2
を呼び出してテキスト分類用の Autopilot 実験を作成するには、次の値を指定する必要があります。
-
ジョブの名前を指定する
AutoMLJobName
。 -
データソースを指定するための
AutoMLJobInputDataConfig
のうち、少なくとも 1 つのAutoMLJobChannel
。 -
AutoML ジョブのアーティファクトを保存する Amazon S3 出力パスを指定する
OutputDataConfig
。 -
データへのアクセスに使用されるロールの ARN を指定する
RoleArn
。
その他のすべてのパラメータは省略可能です。
任意指定のパラメータ
次のセクションでは、テキスト分類 AutoML ジョブに渡すことができるいくつかのオプションパラメータについて詳しく説明します。
独自の検証データセットとカスタムデータの分割比率を指定することも、Autopilot にデータセットを自動的に分割させることもできます。
AutoMLJobChannel
各オブジェクト (必須パラメーター AutoML を参照JobInputDataConfig) にはがありChannelType
、training
validation
機械学習モデルを構築する際のデータの使い方を指定する値のいずれかに設定できます。
少なくとも 1 つのデータソースを指定する必要があり、最大 2 つのデータソースを指定できます。1 つはトレーニングデータ用、もう 1 つは検証データ用です。データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。
データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。
-
データソースが 1 つのみである場合、
ChannelType
はデフォルトでtraining
に設定され、この値を持つ必要があります。-
AutoMLDataSplitConfig
のValidationFraction
値を設定しないと、このソースのデータの 0.2 (20%) がデフォルトで検証に使用されます。 -
ValidationFraction
を 0 から 1 の間の値に設定すると、データセットは指定した値に基づいて分割されます。この値は、検証に使用されるデータセットの割合を指定します。
-
-
データソースが 2 つである場合は、
AutoMLJobChannel
オブジェクトの 1 つのChannelType
をtraining
(デフォルト値) に設定する必要があります。他のデータソースのChannelType
はvalidation
に設定する必要があります。2 つのデータソースは、同じ形式 (CSV または Parquet) と同じスキーマを持つ必要があります。この場合、ValidationFraction
の値を設定してはいけません。各ソースのすべてのデータがトレーニングまたは検証に使用されるためです。この値を設定すると、エラーが発生します。
AutoML ジョブの最適なモデル候補の自動デプロイを有効にするには、AutoML ジョブリクエストに ModelDeployConfig
を含めます。これにより、 SageMaker 最適なモデルをエンドポイントにデプロイできます。カスタマイズできる設定は以下のとおりです。
-
Autopilot にエンドポイント名を生成させるには、
AutoGenerateEndpointName
をTrue
に設定します。 -
エンドポイントに独自の名前を指定するには、
AutoGenerateEndpointName to
を設定します。False
and provide a name of your choice in EndpointName