Debugger Insights – Présentation - Amazon SageMaker

Debugger Insights – Présentation

Sous l'onglet Overview (Présentation), vous pouvez trouver un résumé des tâches d'entraînement, un résumé de l'utilisation des ressources, les opérations gourmandes en ressources et des informations.

Résumé des tâches d'entraînement

Le Training job summary (Résumé des tâches d'entraînement) montre la durée totale d'entraînement consacrée aux différentes phases de l'entraînement : lancement, boucle d'entraînement et finalisation. Le diagramme à secteurs indique le pourcentage d'utilisation de la durée et la durée absolue consacrée aux différentes phases d'entraînement. Par exemple, vous pouvez avoir une présentation de haut niveau du temps nécessaire pour démarrer une tâche d'entraînement et vérifier si le lancement prend trop de temps en raison du téléchargement des données, laissant les GPU inactifs.


                        debugger-studio-insight-mockup

Cette section comporte les fonctions suivantes :

  • Le diagramme Training progress over time (Progrès d'entraînement au fil du temps) montre la chronologie des différentes phases d'entraînement au fil du temps. Si vous utilisez l'entraînement Spot, vous pouvez également trouver les interruptions Spot dans le diagramme chronologique.

  • Le panneau Training job details (Détails de la tâche d'entraînement) affiche les chiffres exacts des horodatages et des taux d'utilisation.

    • Start time (Heure de début) : heure exacte à laquelle la tâche d'entraînement a démarré.

    • End time (Heure de fin) : heure exacte à laquelle la tâche d'entraînement est terminée.

    • Job duration (Durée de la tâche) : durée totale d'entraînement de l'heure de début à l'heure de fin.

    • Training loop start (Début de la boucle d'entraînement) : heure exacte à laquelle la première étape de la première époque a démarré.

    • Training loop end (Fin de la boucle d'entraînement) : heure exacte à laquelle la dernière étape de la dernière époque est terminée.

    • Training loop duration (Durée de la boucle d'entraînement) : durée totale entre l'heure de début de la boucle d'entraînement et l'heure de fin de la boucle d'entraînement.

    • Initialization (Initialisation) : temps consacré à l'initialisation de la tâche d'entraînement, comme la compilation du script d'entraînement, le lancement d'instances Amazon EC2 et le téléchargement des données d'entraînement.

    • Finalization (Finalisation) : temps consacré à la finalisation de la tâche d'entraînement, comme la fin de l'entraînement du modèle, la mise à jour des artefacts du modèle et la fermeture des instances Amazon EC2.

    • Initialization (%) (Initialisation [%]) : pourcentage de temps passé sur l'initialisation par rapport à la durée totale de la tâche.

    • Training loop (%) (Boucle d'entraînement [%]) : pourcentage de temps passé sur la boucle d'entraînement par rapport à la durée totale de la tâche.

    • Finalization (%) (Finalisation [%]) : pourcentage de temps passé sur la finalisation par rapport à la durée totale de la tâche.

Synthèse d'utilisation des ressources

Ce tableau récapitulatif montre les statistiques d'utilisation des ressources matérielles du système de tous les composants (algo-n). Les métriques système incluent l'utilisation totale du CPU, l'utilisation totale du GPU, l'utilisation totale de la mémoire CPU, l'utilisation totale de la mémoire GPU, le temps d'attente total des I/O et le réseau total en octets. Le tableau affiche les valeurs minimales et maximales, ainsi que les percentiles p99, p90 et p50.


                        debugger-studio-insight-mockup

Opérations gourmandes en ressources

La section Resource intensive operations (Opérations gourmandes en ressources) fournit des résultats de profilage plus détaillés qui montrent quelles opérations de la tâche d'entraînement ont été intensives en calculs. Dans l'exemple suivant, il montre que les opérateurs de transmission vers l'arrière du réseau neuronal convolutif étaient les opérateurs les plus gourmands en ressources sur les GPU.


                        debugger-studio-insight-mockup

Informations

Dans le panneau Insights (Informations), vous pouvez trouver les problèmes d'entraînement détectés par les règles intégrées de Debugger. Vous pouvez développer chaque entrée de la liste pour trouver des informations utiles, des suggestions, une description de la règle et des critères d'initialisation de la règle.

Pour plus d'informations sur les règles intégrées de Debugger, consultez . Liste des règles intégrées du Debugger.


                        debugger-studio-insight-mockup