Accès aux données du profil - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Accès aux données du profil

La classe TrainingJob SMDebug lit les données à partir du compartiment S3 dans lequel les métriques système et de cadre sont enregistrées.

Pour configurer un objet TrainingJob et récupérer les fichiers d'événements de profilage d'une tâche d'entraînement

from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
Astuce

Vous devez spécifier les paramètres training_job_name et region pour vous connecter à une tâche d'entraînement. Il existe deux façons de spécifier les informations sur les tâches d'entraînement :

  • Utilisez le SDK SageMaker Python alors que l'estimateur est toujours associé à la tâche de formation.

    import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
  • Passez les chaînes directement.

    training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
Note

Par défaut, SageMaker Debugger collecte les métriques du système pour surveiller l'utilisation des ressources matérielles et les goulots d'étranglement du système. En exécutant les fonctions suivantes, vous pouvez recevoir des messages d'erreur concernant l'indisponibilité des métriques du framework. Pour récupérer les données de profilage du framework et obtenir des informations sur les opérations du cadre, vous devez en activer le profilage.

Pour récupérer une description de la tâche d'entraînement et de l'URI du compartiment S3 où les données de métriques sont enregistrées

tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()

Pour vérifier si les métriques système et de framework sont disponibles à partir de l'URI S3

tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()

Pour créer des objets de lecteur de système et de framework une fois que les données de métriques sont disponibles

system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()

Pour actualiser et récupérer les derniers fichiers d'événements d'entraînement

Les objets du lecteur ont une méthode étendue, refresh_event_file_list(), afin de récupérer les fichiers les plus récents des événements d'entraînement.

system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()