Configuration du stockage pour les SageMaker HyperPod clusters orchestrés par Amazon EKS

L'administrateur du cluster doit configurer le stockage pour que les utilisateurs de data scientists puissent gérer les données d'entrée et de sortie et stocker les points de contrôle lors de la formation sur les SageMaker HyperPod clusters.

Gestion de grands ensembles de données (données d'entrée/sortie)

Accès et gestion des données : Les data scientists travaillent souvent avec de grands ensembles de données nécessaires à la formation de modèles d'apprentissage automatique. La spécification des paramètres de stockage dans la soumission de la tâche leur permet de définir où se trouvent ces ensembles de données (par exemple, les compartiments Amazon S3, les volumes persistants dans Kubernetes) et la manière dont ils sont accessibles pendant l'exécution de la tâche.
Optimisation des performances : l'efficacité de l'accès aux données d'entrée peut avoir un impact significatif sur les performances du travail de formation. En optimisant les paramètres de stockage, les data scientists peuvent s'assurer que les données sont lues et écrites efficacement, réduisant ainsi les goulots d' I/O étranglement.

Stockage des points de contrôle

Pointage de points de contrôle pendant l'entraînement : lors de tâches de formation de longue durée, il est courant de sauvegarder des points de contrôle, c'est-à-dire des états intermédiaires du modèle. Cela permet aux data scientists de reprendre leur formation à partir d'un point précis en cas de panne, plutôt que de repartir de zéro.
Récupération des données et expérimentation : en spécifiant l'emplacement de stockage des points de contrôle, les data scientists peuvent s'assurer que ces points de contrôle sont stockés de manière sécurisée, potentiellement dans un système de stockage distribué offrant redondance et haute disponibilité. Cela est crucial pour récupérer après une interruption et pour expérimenter différentes stratégies d'entraînement.

Astuce

Pour une expérience pratique et des conseils sur la façon de configurer le stockage pour un SageMaker HyperPod cluster orchestré avec Amazon EKS, consultez les sections suivantes de l' SageMaker HyperPod atelier Amazon EKS Support in.

Configurez Amazon FSx pour Lustre sur SageMaker HyperPod
Configurer Amazon S3 en SageMaker HyperPod utilisant Mountpoint pour Amazon S3

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Génération d'un rapport

Résilience du cluster