Exécuter une tâche d'entraînement distribués SageMaker avec un parallélisme des données - Amazon SageMaker

Exécuter une tâche d'entraînement distribués SageMaker avec un parallélisme des données

Les API de la bibliothèque parallèle de données distribuées de SageMaker sont conçues pour être faciles à utiliser et pour permettre une intégration homogène avec les boîtes à outils d'entraînement distribués existants.

  • Kit SDK Python SageMaker avec l'API de la bibliothèque : dans la plupart des cas, tout ce que vous devez modifier dans votre script d'entraînement, ce sont les instructions d'importation de la bibliothèque de données parallèles. Échangez ces données avec les équivalents de la bibliothèque de données parallèles SageMaker.

  • Concentrez-vous sur l'entraînement de votre modèle sans gestion de l'infrastructure — lorsque vous entraînez un modèle de deep learning avec la bibliothèque sur SageMaker, vous pouvez vous concentrer sur l'écriture de votre script d'entraînement et l'entraînement du modèle. Vous pouvez exécuter une tâche d'entraînement en utilisant les classes d'estimation fournies par le kit SDK Python de SageMaker. Les classes de l'estimateur permettent de préparer les instances ML, de charger les jeux de données à partir des ressources de données spécifiées, d'envoyer la tâche d'entraînement à l'aide de votre script d'entraînement et d'arrêter les instances une fois la tâche d'entraînement terminée.

Pour commencer, vous devez adapter les scripts d'entraînement TensorFlow ou PyTorch pour utiliser la bibliothèque. Les rubriques suivantes fournissent des instructions sur la manière de modifier votre script d'entraînement.