Modifier votre script d'entraînement à l'aide de la bibliothèque de données parallèles SageMaker - Amazon SageMaker

Modifier votre script d'entraînement à l'aide de la bibliothèque de données parallèles SageMaker

Présentation d'une modification du script

Les API de la bibliothèque de données parallèles distribuées de SageMaker (la bibliothèque) sont conçues pour faciliter l'utilisation et permettre une intégration transparente avec les boîtes à outils d'entraînement distribué existantes.

  • Kit SDK Python SageMaker avec l'API de la bibliothèque : dans la plupart des cas, la seule modification à apporter à votre script d'entraînement sont les instructions d'importation Horovod ou d'autres bibliothèques de données parallèles. Échangez ces données avec les équivalents de la bibliothèque de données parallèles SageMaker.

  • Concentrez-vous sur l'entraînement de votre modèle sans la gestion de l'infrastructure : lors de l'entraînement d'un modèle de deep learning avec la bibliothèque sur SageMaker, vous pouvez vous concentrer sur l'entraînement de votre modèle, tandis que SageMaker gère les clusters : il appelle les nœuds et crée le cluster, il accomplit l'entraînement, puis il détruit le cluster.

Pour personnaliser votre propre script d'entraînement, vous devez :

  • Fournir des scripts d'entraînement Tensorflow/Pytorch adaptés à l'utilisation de la bibliothèque. Les sections suivantes fournissent un exemple de code à cette fin.

  • Vos données d'entrée doivent être dans un compartiment S3 ou dans FSx dans la région AWS que vous utiliserez pour lancer votre tâche d'entraînement. Si vous utilisez les blocs-notes Jupyter fournis, créez une instance de bloc-notes SageMaker dans la même région que le compartiment qui contient vos données d'entrée. Pour plus d'informations sur le stockage de vos données d'entraînement, consultez la documentation sur les entrées de données SDK Python SageMaker.

Astuce

Vous pouvez envisager d'utiliser FSx au lieu d'Amazon S3 pour augmenter les performances d'entraînement. Son débit est plus élevé et sa latence inférieure à celle d'Amazon S3.

Les sections suivantes fournissent des exemples d'adaptation de la bibliothèque à vos scripts d'entraînement TensorFlow ou PyTorch. Après avoir lancé une tâche d'entraînement, vous pouvez contrôler l'utilisation du système et la performance du modèle à l'aide de Amazon SageMaker Debugger ou d'Amazon CloudWatch.