Entraînement d'un modèle dans Amazon SageMaker - Amazon SageMaker

Entraînement d'un modèle dans Amazon SageMaker

Le diagramme suivant illustre l'entraînement et le déploiement d'un modèle avec Amazon SageMaker :

La zone désignée SageMaker met en évidence les deux composantes de SageMaker : l'entraînement et le déploiement du modèle.

Pour entraîner un modèle dans SageMaker, vous créez une tâche d'entraînement. La tâche d'entraînement comprend les informations suivantes :

  • L'URL du compartiment Amazon Simple Storage Service (Amazon S3) dans lequel vous avez stocké les données d'entraînement.

  • Les ressources de calcul que SageMaker doit utiliser pour entraîner le modèle. Les ressources de calcul sont des instances de calcul ML gérées par SageMaker.

  • L'URL du compartiment S3 où vous souhaitez stocker la sortie de la tâche.

  • Le chemin d'accès Amazon Elastic Container Registry dans lequel le code d'entraînement est stocké. Pour plus d'informations, consultez Chemins de registre Docker et exemple de code.

Pour l'algorithme d'entraînement, vous disposez des options suivantes :

Une fois que vous avez créé la tâche d'entraînement, SageMaker lance les instances de calcul ML et utilise le code d'entraînement et le jeu de données d'entraînement pour entraîner le modèle. Il enregistre les artefacts de modèle résultants et d'autres sorties dans le compartiment S3 que vous avez spécifié à cet effet.

Vous pouvez créer une tâche d'entraînement avec la console ou l'API SageMaker. Pour plus d'informations sur la création d'une tâche d'entraînement avec l'API, consultez l'API CreateTrainingJob.

Lorsque vous créez une tâche d'entraînement avec l'API, SageMaker réplique le jeu de données dans son intégralité sur les instances de calcul ML par défaut. Pour que SageMaker réplique un sous-ensemble des données sur chaque instance de calcul ML, vous devez définir le champ S3DataDistributionType sur ShardedByS3Key. Vous pouvez définir ce champ à l'aide du kit SDK de bas niveau. Pour plus d’informations, consultez S3DataDistributionType dans S3DataSource.

Important

Pour empêcher que votre conteneur d'algorithme ne lutte pour de la mémoire, nous en réservons pour les processus système critiques SageMaker sur vos instances de calcul ML. Il se peut donc que vous ne voyiez pas toute la mémoire pour ce type d'instance.