Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
La SMDebug TrainingJob
classe legge i dati dal bucket S3 in cui vengono salvate le metriche del sistema e del framework.
Per configurare un oggetto TrainingJob
e recuperare i file degli eventi di profilazione di un processo di addestramento
from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob
tj = TrainingJob(training_job_name, region)
Suggerimento
È necessario specificare i parametri training_job_name
e region
per accedere a un processo di addestramento. Ci sono due modi per specificare le informazioni sul processo di addestramento:
-
Usa SageMaker Python SDK mentre lo estimatore è ancora collegato al processo di formazione.
import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
-
Passa le stringhe direttamente.
training_job_name="
your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS
" region="us-west-2
"
Nota
Per impostazione predefinita, SageMaker Debugger raccoglie le metriche di sistema per monitorare l'utilizzo delle risorse hardware e i colli di bottiglia del sistema. Eseguendo le seguenti funzioni, potresti ricevere messaggi di errore relativi all'indisponibilità dei parametri del framework. Per recuperare i dati di profilazione del framework e ottenere informazioni dettagliate sulle operazioni del framework, è necessario abilitare la profilazione del framework.
-
Se usi SageMaker Python SDK per manipolare la tua richiesta di lavoro di formazione, passala
framework_profile_params
all'profiler_config
argomento del tuo estimatore. Per saperne di più, consulta Configure SageMaker Debugger Framework Profiling. -
Se utilizzi Studio Classic, attiva la profilazione utilizzando il pulsante di attivazione della profilazione nella dashboard di Debugger Insights. Per ulteriori informazioni, consulta Debugger Insights Dashboard Controller. SageMaker
Per recuperare una descrizione della descrizione del processo di addestramento e l'URI del bucket S3 in cui vengono salvati i dati dei parametri
tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()
Per verificare se i parametri del sistema e del framework sono disponibili nell'URI S3
tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()
Per creare oggetti di lettura del sistema e del framework dopo che i dati dei parametri sono diventati disponibili
system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()
Per aggiornare e recuperare i file degli eventi di addestramento più recenti
Gli oggetti reader hanno un metodo esteso, refresh_event_file_list()
, per recuperare i file degli eventi di addestramento più recenti.
system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()