Architecture Debugger Amazon SageMaker - Amazon SageMaker

Architecture Debugger Amazon SageMaker

Cette rubrique est une présentation générale du flux de travail Amazon SageMaker Debugger.

Debugger prend en charge la fonctionnalité de profilage pour optimiser les performances afin d'identifier les problèmes de calcul, tels que les goulets d'étranglement et la sous-utilisation du système, et pour aider à optimiser l'utilisation des ressources matérielles à grande échelle.

La fonctionnalité de débogage de Debugger, qui vise à optimiser les modèles, consiste à analyser les problèmes d'entraînement non convergents pouvant survenir, tout en minimisant les fonctions de perte à l'aide d'algorithmes d'optimisation, tels que la descente de gradient et ses variations.

Le diagramme suivant illustre l'architecture de SageMaker Debugger. Les encadrements avec des lignes en gras illustrent ce que fait Debugger pour analyser votre tâche d'entraînement.


                Présentation du fonctionnement d'Amazon SageMaker Debugger.

Debugger stocke les données suivantes de vos tâches d'entraînement dans votre compartiment Amazon S3 sécurisé :

  • System metrics (Métriques système) – Données sur l'utilisation des ressources matérielles, telles que le CPU, le GPU, la mémoire du CPU et du GPU, le réseau et les métriques d'entrée et de sortie de données (I/O).

  • Framework metrics (Métriques de cadre) – Métriques permettant de suivre chaque opération de cadre par appel ou échantillonnage, telles que les opérations de couche convolutive dans la passe en avant, les opérations de normalisation par lots dans la passe en arrière, les processus du chargeur de données entre les étapes et les opérations d'algorithme de descente de gradient pour calculer et mettre à jour la fonction de perte.

  • Output tensors (Tenseurs de sortie) – Ensembles de paramètres scalaires et de modèle qui sont constamment mis à jour pendant les passes en avant et en arrière lors de l'entraînement des modèles de ML. Les tenseurs de sortie comprennent des valeurs scalaires (précision et perte) et des matrices (pondérations, gradients, couches en entrée et couches en sortie).

    Note

    Par défaut, Debugger contrôle et débogue les tâches d'entraînement SageMaker sans paramètres spécifiques à Debugger configurés dans les estimateurs SageMaker. Debugger collecte des métriques système toutes les 500 millisecondes et des tenseurs de sortie de base (sorties scalaires telles que la perte et la précision) toutes les 500 étapes. Il exécute également la règle ProfilerReport pour analyser les métriques système et agréger le tableau de bord Studio Debugger Insights ainsi qu'un rapport de profilage. Debugger enregistre les données de sortie dans votre compartiment Amazon S3 sécurisé.

Les règles intégrées de Debugger s'exécutent sur les conteneurs de traitement, qui sont conçus pour évaluer les modèles de machine learning en traitant les données d'entraînement collectées dans votre compartiment S3 (voir Traitement des données et évaluation des modèles). Les règles intégrées sont entièrement gérées par Debugger. Vous pouvez également créer vos propres règles personnalisées pour votre modèle afin de surveiller les problèmes que vous souhaitez contrôler.

Consultez les rubriques suivantes pour connaître les bonnes pratiques permettant d'améliorer les performances de votre modèle à l'aide de SageMaker Debugger.