Surveillez l'utilisation des ressources AWS informatiques dans Amazon SageMaker Studio Classic - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Surveillez l'utilisation des ressources AWS informatiques dans Amazon SageMaker Studio Classic

Pour suivre l'utilisation des ressources informatiques dans le cadre de votre tâche de formation, utilisez les outils de surveillance proposés par Amazon SageMaker Debugger.

Pour chaque tâche de formation que vous exécutez à SageMaker l'aide du SDK SageMaker Python, Debugger collecte des mesures d'utilisation des ressources de base, telles que l'utilisation du processeur, l'utilisation du processeur graphique, l'utilisation de la mémoire du processeur graphique, le réseau et le temps d'attente des E/S toutes les 500 millisecondes. Pour consulter le tableau de bord des indicateurs d'utilisation des ressources liés à votre tâche de formation, il vous suffit d'utiliser l'interface utilisateur du SageMaker débogueur dans SageMaker Studio Experiments.

Les opérations et étapes de deep learning peuvent s'exécuter à des intervalles de quelques millisecondes. Par rapport aux CloudWatch métriques Amazon, qui collectent des métriques à intervalles d'une seconde, Debugger fournit une granularité plus fine dans les métriques d'utilisation des ressources, jusqu'à des intervalles de 100 millisecondes (0,1 seconde) afin que vous puissiez approfondir les métriques au niveau d'une opération ou d'une étape.

Si vous souhaitez modifier l'intervalle de collecte des métriques, vous pouvez ajouter un paramètre de configuration du profilage à votre lanceur de tâches d'entraînement. Par exemple, si vous utilisez le SDK SageMaker Python, vous devez transmettre le profiler_config paramètre lorsque vous créez un objet estimateur. Pour découvrir comment ajuster l'intervalle de collecte des métriques d'utilisation des ressources, consultez Modèle de code pour configurer un objet SageMaker estimateur avec les modules SageMaker Debugger Python dans le SDK Python SageMaker, puis Configuration des paramètres pour le profilage de base de l'utilisation des ressources du système.

En outre, vous pouvez ajouter des outils de détection de problèmes appelés règles de profilage intégrées fournies par SageMaker Debugger. Les règles de profilage intégrées exécutent une analyse par rapport aux métriques d'utilisation des ressources et détectent les problèmes de performances de calcul. Pour de plus amples informations, veuillez consulter Configuration des règles de profilage intégrées gérées par Amazon Debugger SageMaker . Vous pouvez recevoir les résultats de l'analyse des règles via l'interface utilisateur du SageMaker débogueur dans SageMaker Studio Experiments ou via le rapport de profilage du SageMaker débogueur. Vous pouvez également créer des règles de profilage personnalisées à l'aide du SDK SageMaker Python.

Pour en savoir plus sur les fonctionnalités de surveillance fournies par SageMaker Debugger, consultez les rubriques suivantes.