必須パラメータ任意指定のパラメータ CreateAutoMLJob を CreateAutoMLJobV2 に移行する

AutoML API を使用して表形式データのリグレッションジョブまたは分類ジョブを作成する

Autopilot または AWS CLIがサポートする任意の言語で CreateAutoMLJobV2 API アクションを呼び出すことで、表形式データの Autopilot リグレッションジョブまたは分類ジョブをプログラムで作成できます。CreateAutoMLJobV2 API アクションの必須およびオプションの入力リクエストパラメータを以下に示します。このアクションの以前のバージョン CreateAutoMLJob に関する代替情報もあります。ただし、CreateAutoMLJobV2 を使用することをお勧めします。

この API アクションが選択した言語の関数にどのように変換されるかについては、「CreateAutoMLJobV2」の「関連項目」セクションを参照して SDK を選択してください。例として、Python ユーザーの場合は、 AWS SDK for Python (Boto3)の create_auto_ml_job_v2 の完全なリクエスト構文を参照してください。

注記

CreateAutoMLJobV2 と DescribeAutoMLJobV2 は CreateAutomlJob と DescribeAutomlJob の新しいバージョンで、下位互換性があります。

CreateAutoMLJobV2 の使用をお勧めします。CreateAutoMLJobV2 は以前のバージョンの CreateAutoMLJob と同じ表形式の問題タイプだけでなく、画像やテキストの分類、時系列予測などの表形式以外の問題タイプも管理できます。

少なくとも、表形式のデータに対するすべての実験には、実験名、入力データおよび出力データの場所、および予測するターゲットデータの指定が必要です。オプションで、解決する問題のタイプ (リグレッション、分類、多クラス分類) を指定したり、モデリング戦略 (スタックアンサンブルまたはハイパーパラメータ最適化) を選択したり、Autopilot ジョブがデータをトレーニングするために使用するアルゴリズムのリストを選択したりすることもできます。

実験後は、トライアルを比較して、各モデルの前処理ステップ、アルゴリズム、ハイパーパラメータ範囲の詳細を詳しく調べることができます。また、説明可能性のレポートやパフォーマンスのレポートをダウンロードすることもできます。提供されたノートブックを使用して、自動データ探索の結果や候補となるモデル定義を確認します。

CreateAutoMLJob を CreateAutoMLJobV2 に移行する方法に関するガイドラインについては、「CreateAutoMLJob を CreateAutoMLJobV2 に移行する」を参照してください。

必須パラメータ

その他のすべてのパラメータは省略可能です。

任意指定のパラメータ

次のセクションでは、表形式データを使用する場合に CreateAutoMLJobV2 API アクションに渡すことができるいくつかのオプションパラメータの詳細を説明します。このアクションの以前のバージョン CreateAutoMLJob に関する代替情報もあります。ただし、CreateAutoMLJobV2 を使用することをお勧めします。

表形式データの場合、モデル候補をトレーニングするためにデータに対して実行される一連のアルゴリズムは、モデリング戦略 (ENSEMBLINGまたはHYPERPARAMETER_TUNING) によって異なります。以下では、このトレーニングモードの設定方法について詳しく説明します。

空白 (またはnull) のままにすると、Mode はデータセットのサイズに基づいて推測されます。

Autopilot のスタックアンサンブルとハイパーパラメータ最適化のトレーニング方法については、「トレーニングモードとアルゴリズムのサポート」を参照してください。

特徴量の選択

Autopilot には、特徴量の選択や特徴量の抽出を含む自動データ前処理ステップがあります。ただし、トレーニングに使用する特徴量は FeatureSpecificatioS3Uri 属性を使用して手動で指定できます。

選択した特徴量は、次の形式の JSON ファイルに含まれている必要があります。


{ "FeatureAttributeNames":["col1", "col2", ...] }

["col1", "col2", ...] にリストされている値は大文字と小文字が区別されます。これらは、入力データ内の列名のサブセットである一意の値を含む文字列のリストである必要があります。

注記

特徴量として提供される列のリストには、対象列を含めることはできません。

アルゴリズムの選択

デフォルトでは、Autopilot ジョブはデータセットにあらかじめ定義されたアルゴリズムのリストを実行して、モデル候補をトレーニングします。アルゴリズムのリストは、ジョブが使用するトレーニングモード (ENSEMBLINGまたはHYPERPARAMETER_TUNING) によって異なります。

デフォルトで選択されているアルゴリズムのサブセットを指定できます。

トレーニング Mode ごとに使用できるアルゴリズムのリストについては、「AutoMLAlgorithms」を参照してください。各アルゴリズムの詳細については、「トレーニングモードとアルゴリズムのサポート」を参照してください。

独自の検証データセットとカスタムデータ分割率を指定することも、Autopilot にデータセットを自動的に分割させることもできます。

CreateAutoMLJobV2

各 AutoMLJobChannel オブジェクト (必須パラメータ「AutoMLJobInputDataConfig」を参照) には ChannelType があり、training 値または validation 値に設定することで、機械学習モデルを構築するときにデータをどのように使用するかを指定できます。少なくとも 1 つのデータソースを指定する必要があり、最大 2 つのデータソースを指定できます。1 つはトレーニングデータ用、もう 1 つは検証データ用です。

データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。

データソースが 1 つのみである場合、ChannelType はデフォルトで training に設定され、この値を持つ必要があります。
- AutoMLDataSplitConfig の ValidationFraction 値を設定しないと、このソースのデータの 0.2 (20%) がデフォルトで検証に使用されます。
- ValidationFraction を 0 から 1 の間の値に設定すると、データセットは指定した値に基づいて分割されます。この値は、検証に使用されるデータセットの割合を指定します。
データソースが 2 つである場合は、AutoMLJobChannel オブジェクトの 1 つの ChannelType を training (デフォルト値) に設定する必要があります。他のデータソースの ChannelType は validation に設定する必要があります。2 つのデータソースは、同じ形式 (CSV または Parquet) と同じスキーマを持つ必要があります。この場合、ValidationFraction の値を設定してはいけません。各ソースのすべてのデータがトレーニングまたは検証に使用されるためです。この値を設定すると、エラーが発生します。

CreateAutoMLJob

各 AutoMLChannel オブジェクト (必須パラメータ InputDataConfig を参照) には ChannelType があり、training 値または validation 値に指定することで、機械学習モデルを構築するときにデータをどのように使用するかを指定できます。少なくとも 1 つのデータソースを指定する必要があり、最大 2 つのデータソースを指定できます。1 つはトレーニングデータ用、もう 1 つは検証データ用です。

データをトレーニングデータセットと検証データセットに分割する方法は、データソースが 1 つか 2 つかによって異なります。

データソースが 1 つのみである場合、ChannelType はデフォルトで training に設定され、この値を持つ必要があります。
- AutoMLDataSplitConfig の ValidationFraction 値を設定しないと、このソースのデータの 0.2 (20%) がデフォルトで検証に使用されます。
- ValidationFraction を 0 から 1 の間の値に設定すると、データセットは指定した値に基づいて分割されます。この値は、検証に使用されるデータセットの割合を指定します。
データソースが 2 つである場合は、AutoMLChannel オブジェクトの 1 つの ChannelType を training (デフォルト値) に設定する必要があります。他のデータソースの ChannelType は validation に設定する必要があります。2 つのデータソースは、同じ形式 (CSV または Parquet) と同じスキーマを持つ必要があります。この場合、ValidationFraction の値を設定してはいけません。各ソースのすべてのデータがトレーニングまたは検証に使用されるためです。この値を設定すると、エラーが発生します。

Autopilot の分割と相互検証について詳しくは、「Autopilot での交差検証」を参照してください。

注記

場合によっては、Autopilot は十分な信頼度で ProblemType を推論できません。その場合、ジョブを成功させるために値を指定する必要があります。

表形式のデータセットにサンプルの重み列を追加し、それを AutoML ジョブに渡して、トレーニングと評価中にデータセットの行に重み付けをするように要求できます。

サンプルの重みのサポートは、アンサンブルモードでのみ使用できます。ウェイトは負でない数値でなければなりません。無効な重み値または重み値がないデータポイントは除外されます。使用可能な目標メトリクスの詳細については、「Autopilot 加重メトリクス」を参照してください。

大規模なデータセットを処理するために追加のコンピューティングリソースが必要なときに、Amazon EMR Serverless で自動的にリモートジョブを開始するように AutoML ジョブ V2 を設定できます。必要に応じて EMR Serverless にシームレスに移行することで、AutoML ジョブは、ユーザーが手動で介入することなく、最初にプロビジョニングされたリソースを超えるデータセットを処理できます。EMR Serverless は、表形式および時系列の問題タイプで使用できます。5 GB を超える表形式のデータセットには、このオプションを設定することをお勧めします。

AutoML ジョブ V2 が大規模なデータセットに対して EMR Serverless に自動的に移行できるようにするには、ExecutionRoleARN フィールドを含む EmrServerlessComputeConfig オブジェクトを、AutoML ジョブ V2 入力リクエストの AutoMLComputeConfig に指定する必要があります。

ExecutionRoleARN は、EMR Serverless ジョブを実行するために必要なアクセス許可を AutoML ジョブ V2 に付与する IAM ロールの ARN です。

このロールには、次の信頼関係が必要です。

以下を行うアクセス許可を付与します。

EMR Serverless アプリケーションを作成、一覧表示、更新する。
EMR Serverless アプリケーションでのジョブの実行を開始、一覧表示、取得、またはキャンセルする。
EMR Serverless リソースにタグを付ける。
実行のために IAM ロールを EMR Serverless サービスに渡す。

iam:PassRole アクセス許可を付与することで、AutoML ジョブ V2 は一時的に EMRServerlessRuntimeRole-* ロールを引き受け、EMR Serverless サービスに渡すことができます。これらは、EMR Serverless ジョブ実行環境が、データアクセス用の Amazon S3、ログ記録用の CloudWatch、 AWS Glue データカタログへのアクセス、ワークロード要件に基づく他のサービスなど、ランタイムに必要な他の AWS サービスとリソースにアクセスするために使用する IAM ロールです。

このロールのアクセス許可の詳細については、「Amazon EMR Serverless のジョブランタイムロール」を参照してください。

提供されている JSON ドキュメントで定義された IAM ポリシーでは、これらのアクセス許可が付与されます。


{
    "Version": "2012-10-17",
    "Statement": [{
+            "Sid": "EMRServerlessCreateApplicationOperation",
+            "Effect": "Allow",
+            "Action": "emr-serverless:CreateApplication",
+            "Resource": "arn:aws:emr-serverless:*:*:/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "EMRServerlessListApplicationOperation",
+            "Effect": "Allow",
+            "Action": "emr-serverless:ListApplications",
+            "Resource": "arn:aws:emr-serverless:*:*:/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "EMRServerlessApplicationOperations",
+            "Effect": "Allow",
+            "Action": [
+                "emr-serverless:UpdateApplication",
+                "emr-serverless:GetApplication"
+            ],
+            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "EMRServerlessStartJobRunOperation",
+            "Effect": "Allow",
+            "Action": "emr-serverless:StartJobRun",
+            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "EMRServerlessListJobRunOperation",
+            "Effect": "Allow",
+            "Action": "emr-serverless:ListJobRuns",
+            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "EMRServerlessJobRunOperations",
+            "Effect": "Allow",
+            "Action": [
+                "emr-serverless:GetJobRun",
+                "emr-serverless:CancelJobRun"
+            ],
+            "Resource": "arn:aws:emr-serverless:*:*:/applications/*/jobruns/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "EMRServerlessTagResourceOperation",
+            "Effect": "Allow",
+            "Action": "emr-serverless:TagResource",
+            "Resource": "arn:aws:emr-serverless:*:*:/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "IAMPassOperationForEMRServerless",
+            "Effect": "Allow",
+            "Action": "iam:PassRole",
+            "Resource": "arn:aws:iam::*:role/EMRServerlessRuntimeRole-*",
+            "Condition": {
+                "StringEquals": {
+                    "iam:PassedToService": "emr-serverless.amazonaws.com",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
         }
    ]
}

CreateAutoMLJob を CreateAutoMLJobV2 に移行する

CreateAutoMLJob のユーザーは CreateAutoMLJobV2 に移行することをお勧めします。

このセクションでは、CreateAutomLJob と CreateAutomlJobV2 の入力パラメータの違いを説明します。また、2 つのバージョン間の入力リクエストのオブジェクトと属性の位置、名前、構造の変化に焦点を当てて説明します。

バージョン間で変更されていないリクエスト属性。


{
   "AutoMLJobName": "string",
   "AutoMLJobObjective": { 
      "MetricName": "string"
   },
   "ModelDeployConfig": { 
      "AutoGenerateEndpointName": boolean,
      "EndpointName": "string"
   },
   "OutputDataConfig": { 
      "KmsKeyId": "string",
      "S3OutputPath": "string"
   },
   "RoleArn": "string",
   "Tags": [ 
      { 
         "Key": "string",
         "Value": "string"
      }
   ]
}

バージョン間で位置と構造が変更されたリクエスト属性。

次の属性の位置が変更されました。DataSplitConfig、Security Config、CompletionCriteria、Mode、FeatureSpecificationS3Uri、SampleWeightAttributeName、TargetAttributeName。

次の属性は、バージョン間で位置と構造が変更されました。

次の JSON は、AutoMLCandidateGenerationConfig 型の AutoMLJobConfig.CandidateGenerationConfig が、V2 で CandidateGenerationConfig 型の AutoMLProblemTypeConfig.TabularJobConfig.CandidateGenerationConfig にどのように移行したかを示しています。

名前と構造が変更されたリクエスト属性。

次の JSON は、InputDataConfig (AutoMLChannel の配列) が V2 で AutoMLJobInputDataConfig (AutoMLJobChannel の配列) にどのように変更されたかを示しています。属性 SampleWeightAttributeName および TargetAttributeName が InputDataConfig から AutoMLProblemTypeConfig に移動されることに注意してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

SageMaker Autopilot

データセットの形式と問題タイプ