Paramètres requis Paramètres facultatifs Migrer de a CreateAuto MLJob vers la CreateAuto MLJob V2

Créez des tâches de régression ou de classification pour les données tabulaires à l'aide de l'API AutoML

Vous pouvez créer une tâche de régression ou de classification Autopilot pour les données tabulaires par programmation en appelant l'action CreateAutoMLJobV2API dans n'importe quel langage pris en charge par Autopilot ou le. AWS CLI Vous trouverez ci-dessous un ensemble de paramètres de demande d'entrée obligatoires ou facultatifs pour l'action d'API CreateAutoMLJobV2. Vous pouvez trouver les informations alternatives pour la version précédente de cette action, CreateAutoMLJob. Toutefois, nous vous recommandons d'utiliser CreateAutoMLJobV2.

Pour plus d'informations sur la façon dont cette action d'API se traduit par une fonction dans le langage de votre choix, consultez la section Voir aussi de CreateAutoMLJobV2 et choisissez un kit SDK. À titre d'exemple, pour les utilisateurs de Python, consultez la syntaxe complète des demandes de create_auto_ml_job_v2 dans le kit AWS SDK pour Python (Boto3).

Note

CreateAutoMLJobLes versions DescribeAutoMLJobV2 et V2 sont de nouvelles versions de CreateAutoMLJobet DescribeAutoMLJoboffrent une rétrocompatibilité.

Nous vous recommandons d'utiliser CreateAutoMLJobV2. CreateAutoMLJobV2 peut gérer des types de problèmes tabulaires identiques à ceux de sa version précédente CreateAutoMLJob, ainsi que des types de problèmes non tabulaires, tels que la classification d'image ou de texte, et les prédictions de séries temporelles.

Au minimum, toutes les expériences sur des données tabulaires nécessitent de spécifier le nom de l'expérience, de fournir des emplacements pour les données d'entrée et de sortie, et de spécifier les données cibles à prévoir. Vous pouvez également éventuellement spécifier le type de problème que vous souhaitez résoudre (régression, classification, classification multiclasse), choisir votre stratégie de modélisation (ensembles empilés ou optimisation des hyperparamètres), sélectionner la liste des algorithmes utilisés par la tâche de pilote automatique pour entraîner les données, etc.

Une fois l'expérience exécutée, vous pouvez comparer les essais et étudier en détail les étapes de prétraitement, les algorithmes et les plages d'hyperparamètres de chaque modèle. Vous avez également la possibilité de télécharger leurs rapports d'explicabilité et de performance. Utilisez les blocs-notes fournis pour voir les résultats de l'exploration automatique des données ou les définitions de modèles candidats.

Trouvez les instructions indiquant comment migrer CreateAutoMLJob vers CreateAutoMLJobV2 dans Migrer de a CreateAuto MLJob vers la CreateAuto MLJob V2.

Paramètres requis

CreateAutoMLJobV2

Lorsque vous appelez CreateAutoMLJobV2 pour créer une expérience Autopilot pour des données tabulaires, vous devez fournir les valeurs suivantes :

Un paramètre AutoMLJobName pour spécifier le nom de votre tâche.
Au moins un paramètre AutoMLJobChannel dans AutoMLJobInputDataConfig pour spécifier votre source de données.
À la fois une métrique AutoMLJobObjective et le type de problème d'apprentissage supervisé que vous avez choisi (classification binaire, classification multi-classes, régression) dans AutoMLProblemTypeConfig, ou aucun des deux. Pour les données tabulaires, vous devez choisir TabularJobConfig comme type de AutoMLProblemTypeConfig. Vous définissez le problème d'apprentissage supervisé dans l'attribut ProblemType de TabularJobConfig.
Un élément OutputDataConfig pour spécifier le chemin de sortie Amazon S3 pour stocker les artefacts de votre tâche AutoML.
Un élément RoleArn pour spécifier l'ARN du rôle utilisé pour accéder à vos données.

CreateAutoMLJob

Lorsque vous appelez CreateAutoMLJob pour créer une expérience AutoML, vous devez fournir les quatre valeurs suivantes :

Un paramètre AutoMLJobName pour spécifier le nom de votre tâche.
Au moins un paramètre AutoMLChannel dans InputDataConfig pour spécifier votre source de données.
Un élément OutputDataConfig pour spécifier le chemin de sortie Amazon S3 pour stocker les artefacts de votre tâche AutoML.
Un élément RoleArn pour spécifier l'ARN du rôle utilisé pour accéder à vos données.

Tous les autres paramètres sont facultatifs.

Paramètres facultatifs

Les sections suivantes fournissent des détails sur certains paramètres facultatifs que vous pouvez transmettre à votre action d'API CreateAutoMLJobV2 lorsque vous utilisez des données tabulaires. Vous pouvez trouver les informations alternatives pour la version précédente de cette action, CreateAutoMLJob. Toutefois, nous vous recommandons d'utiliser CreateAutoMLJobV2.

Pour les données tabulaires, l'ensemble d'algorithmes exécutés sur vos données pour entraîner vos modèles candidats dépend de votre stratégie de modélisation (ENSEMBLING ou HYPERPARAMETER_TUNING). Vous trouverez ci-dessous des informations sur la façon de définir ce mode d'entraînement.

Si vous laissez le champ vide (ou null), le Mode est déduit en fonction de la taille de votre jeu de données.

Pour plus d'informations sur les méthodes d'entraînement d'Autopilot par ensembles empilés et par optimisation des hyperparamètres, consultez Modes d'entraînement et prise en charge des algorithmes

Sélection des fonctionnalités

Autopilot fournit des étapes de prétraitement automatique des données, notamment la sélection et l'extraction des fonctionnalités. Toutefois, vous pouvez fournir manuellement les fonctionnalités à utiliser lors de l'entraînement avec l'attribut FeatureSpecificatioS3Uri.

Les fonctionnalités sélectionnées doivent être contenues dans un fichier JSON au format suivant :


{ "FeatureAttributeNames":["col1", "col2", ...] }

Les valeurs répertoriées dans ["col1", "col2", ...] ne sont pas sensibles à la casse. Il doit s'agir d'une liste de chaînes contenant des valeurs uniques qui sont des sous-ensembles des noms de colonnes dans les données d'entrée.

Note

La liste des colonnes fournies en tant que fonctionnalités ne peut pas inclure la colonne cible.

Sélection des algorithmes

Par défaut, votre tâche Autopilot exécute une liste prédéfinie d'algorithmes sur votre jeu de données afin d'entraîner les modèles candidats. La liste des algorithmes dépend du mode d'entraînement (ENSEMBLING ou HYPERPARAMETER_TUNING) utilisé par la tâche.

Vous pouvez fournir un sous-ensemble de la sélection par défaut d'algorithmes.

Pour obtenir la liste des algorithmes disponibles par Mode d'entraînement, consultez AutoMLAlgorithms. Pour plus d'informations sur chaque algorithme, consultez Modes d'entraînement et prise en charge des algorithmes.

Vous pouvez fournir votre propre jeu de données de validation et un rapport de répartition des données personnalisé, ou laisser Autopilot répartir automatiquement le jeu de données.

CreateAutoMLJobV2

Chaque AutoMLJobChannelobjet (voir le paramètre obligatoire Auto MLJob InputDataConfig) possède unChannelType, qui peut être défini sur l'une training ou l'autre des validation valeurs spécifiant la manière dont les données doivent être utilisées lors de la création d'un modèle d'apprentissage automatique. Au moins une source de données doit être fournie et deux sources de données maximum sont autorisées : une pour les données d'entraînement et l'autre pour les données de validation.

Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données.

Si vous n'avez qu'une source de données, ChannelType est défini sur training par défaut et doit avoir cette valeur.
- Si la valeur ValidationFraction de AutoMLDataSplitConfig n'est pas définie, 0,2 (20 %) des données de cette source sont utilisées pour la validation par défaut.
- Si ValidationFraction est défini sur une valeur comprise entre 0 et 1, le jeu de données est divisé en fonction de la valeur spécifiée, où la valeur spécifie la fraction du jeu de données utilisé pour la validation.
Si vous disposez de deux sources de données, le ChannelType de l'un des objets AutoMLJobChannel doit être défini sur training (valeur par défaut). Le ChannelType de l'autre source de données doit être défini sur validation. Les deux sources de données doivent avoir le même format, CSV ou Parquet, et le même schéma. Vous ne devez pas définir la valeur de ValidationFraction dans ce cas, car toutes les données de chaque source sont utilisées à des fins d'entraînement ou de validation. La définition de cette valeur provoque une erreur.

CreateAutoMLJob

Chaque AutoMLChannelobjet (voir le paramètre requis InputDataConfig) possède unChannelType, qui peut être défini sur l'une training ou l'autre des validation valeurs spécifiant la manière dont les données doivent être utilisées lors de la création d'un modèle d'apprentissage automatique. Au moins une source de données doit être fournie et deux sources de données maximum sont autorisées : une pour les données d'entraînement et l'autre pour les données de validation.

Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données.

Si vous n'avez qu'une source de données, ChannelType est défini sur training par défaut et doit avoir cette valeur.
- Si la valeur ValidationFraction de AutoMLDataSplitConfig n'est pas définie, 0,2 (20 %) des données de cette source sont utilisées pour la validation par défaut.
- Si ValidationFraction est défini sur une valeur comprise entre 0 et 1, le jeu de données est divisé en fonction de la valeur spécifiée, où la valeur spécifie la fraction du jeu de données utilisé pour la validation.
Si vous disposez de deux sources de données, le ChannelType de l'un des objets AutoMLChannel doit être défini sur training (valeur par défaut). Le ChannelType de l'autre source de données doit être défini sur validation. Les deux sources de données doivent avoir le même format, CSV ou Parquet, et le même schéma. Vous ne devez pas définir la valeur de ValidationFraction dans ce cas, car toutes les données de chaque source sont utilisées à des fins d'entraînement ou de validation. La définition de cette valeur provoque une erreur.

Pour en savoir plus sur la répartition et la validation croisée dans Autopilot, consultez Validation croisée dans Autopilot.

Note

Dans certains cas, lorsque Autopilot ne peut pas inférer le ProblemType avec une fiabilité suffisante, vous devez fournir cette valeur pour que la tâche réussisse.

Vous pouvez ajouter une colonne de poids d'échantillons à votre jeu de données tabulaire, puis la transmettre à votre tâche AutoML pour demander à ce que les lignes du jeu de données soient pondérées pendant l'entraînement et l'évaluation.

La prise en charge des poids d'échantillons est disponible en mode ensembliste uniquement. Vos poids doivent être numériques et non négatifs. Les points de données sans valeur de poids ou avec une valeur de poids non valide sont exclus. Pour plus d'informations sur les métriques d'objectif disponibles, consultez Métriques pondérées Autopilot.

Vous pouvez configurer votre tâche AutoML V2 pour lancer automatiquement une tâche distante sur Amazon EMR Serverless lorsque des ressources de calcul supplémentaires sont nécessaires pour traiter des ensembles de données volumineux. Grâce à une transition fluide vers EMR Serverless lorsque cela est nécessaire, la tâche AutoML peut gérer des ensembles de données qui, autrement, dépasseraient les ressources initialement allouées, sans aucune intervention manuelle de votre part. EMR Serverless est disponible pour les types de problèmes tabulaires et chronologiques. Nous recommandons de configurer cette option pour les ensembles de données tabulaires de plus de 5 Go.

Pour permettre à votre tâche AutoML V2 de passer automatiquement à EMR Serverless pour les grands ensembles de données, vous devez fournir un EmrServerlessComputeConfig objet, comprenant un ExecutionRoleARN champ, à la demande d'entrée de AutoMLComputeConfig la tâche AutoML V2.

ExecutionRoleARNIl s'agit de l'ARN du rôle IAM octroyant à la tâche AutoML V2 les autorisations nécessaires pour exécuter des tâches EMR sans serveur.

Ce rôle doit avoir la relation de confiance suivante :

Et accordez les autorisations pour :

Créez, listez et mettez à jour des applications EMR sans serveur.
Démarrer, répertorier, obtenir ou annuler des tâches exécutées sur une application EMR sans serveur.
Étiquetez les ressources EMR Serverless.
Transmettez un rôle IAM au service EMR Serverless pour exécution.

En accordant l'iam:PassRoleautorisation, la tâche AutoML V2 peut assumer temporairement le EMRServerlessRuntimeRole-* rôle et le transmettre au service EMR Serverless. Il s'agit des rôles IAM utilisés par les environnements d'exécution de tâches EMR sans serveur pour accéder à AWS d'autres services et ressources nécessaires pendant l'exécution, tels qu'Amazon S3 pour l'accès aux données, pour la journalisation CloudWatch , l'accès au catalogue de données ou à AWS Glue d'autres services en fonction de vos exigences en matière de charge de travail.

Consultez la section Job runtime roles for Amazon EMR Serverless pour plus de détails sur les autorisations associées à ces rôles.

La politique IAM définie dans le document JSON fourni accorde les autorisations suivantes :


{
    "Version": "2012-10-17",
    "Statement": [{
+            "Sid": "EMRServerlessCreateApplicationOperation",
+            "Effect": "Allow",
+            "Action": "emr-serverless:CreateApplication",
+            "Resource": "arn:aws:emr-serverless:*:*:/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "EMRServerlessListApplicationOperation",
+            "Effect": "Allow",
+            "Action": "emr-serverless:ListApplications",
+            "Resource": "arn:aws:emr-serverless:*:*:/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "EMRServerlessApplicationOperations",
+            "Effect": "Allow",
+            "Action": [
+                "emr-serverless:UpdateApplication",
+                "emr-serverless:GetApplication"
+            ],
+            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "EMRServerlessStartJobRunOperation",
+            "Effect": "Allow",
+            "Action": "emr-serverless:StartJobRun",
+            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "EMRServerlessListJobRunOperation",
+            "Effect": "Allow",
+            "Action": "emr-serverless:ListJobRuns",
+            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "EMRServerlessJobRunOperations",
+            "Effect": "Allow",
+            "Action": [
+                "emr-serverless:GetJobRun",
+                "emr-serverless:CancelJobRun"
+            ],
+            "Resource": "arn:aws:emr-serverless:*:*:/applications/*/jobruns/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "EMRServerlessTagResourceOperation",
+            "Effect": "Allow",
+            "Action": "emr-serverless:TagResource",
+            "Resource": "arn:aws:emr-serverless:*:*:/*",
+            "Condition": {
+                "StringEquals": {
+                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
+        },
+        {
+            "Sid": "IAMPassOperationForEMRServerless",
+            "Effect": "Allow",
+            "Action": "iam:PassRole",
+            "Resource": "arn:aws:iam::*:role/EMRServerlessRuntimeRole-*",
+            "Condition": {
+                "StringEquals": {
+                    "iam:PassedToService": "emr-serverless.amazonaws.com",
+                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
+                }
+            }
         }
    ]
}

Migrer de a CreateAuto MLJob vers la CreateAuto MLJob V2

Nous recommandons aux utilisateurs de l'action CreateAutoMLJob de migrer vers l'action CreateAutoMLJobV2.

Cette section explique les différences entre les paramètres d'entrée CreateAutoMLJobet CreateAutoMLJobV2 en mettant en évidence les changements de position, de nom ou de structure des objets et des attributs de la demande d'entrée entre les deux versions.

Attributs de demande qui n'ont pas changé entre les versions.


{
   "AutoMLJobName": "string",
   "AutoMLJobObjective": { 
      "MetricName": "string"
   },
   "ModelDeployConfig": { 
      "AutoGenerateEndpointName": boolean,
      "EndpointName": "string"
   },
   "OutputDataConfig": { 
      "KmsKeyId": "string",
      "S3OutputPath": "string"
   },
   "RoleArn": "string",
   "Tags": [ 
      { 
         "Key": "string",
         "Value": "string"
      }
   ]
}

Attributs de demande qui ont changé de position et de structure entre les versions.

Les attributs suivants ont changé de position : DataSplitConfig, Security Config, CompletionCriteria, Mode, FeatureSpecificationS3Uri, SampleWeightAttributeName, TargetAttributeName.

Les attributs suivants ont changé de position et de structure entre les versions.

Le JSON suivant illustre le mode Auto MLJob Config. CandidateGenerationConfigde type Auto MLCandidate GenerationConfig déplacé vers Auto MLProblemTypeConfig. TabularJobConfig. CandidateGenerationConfigde type CandidateGenerationConfigV2.

Attributs de demande dont le nom et la structure ont changé.

Le JSON suivant illustre comment InputDataConfig(un tableau de Auto MLChannel) est devenu Auto MLJob InputDataConfig (un tableau de MLJobcanaux automatiques) dans la version V2. Notez que les attributs SampleWeightAttributeName et TargetAttributeName sortent de InputDataConfig et sont placés dans AutoMLProblemTypeConfig.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

SageMaker Pilote automatique

Format des jeux de données et types de problèmes