Amazon SageMaker Debugger

Modo de enfoque

Amazon SageMaker Debugger - Amazon SageMaker AI

Depure los tensores de salida de los modelos de los trabajos de formación en aprendizaje automático en tiempo real y detecte problemas no convergentes con Amazon Debugger. SageMaker

Características de Amazon SageMaker Debugger

Es posible que un trabajo de entrenamiento sobre el machine learning (ML) presente problemas de sobreajuste, saturación de las funciones de activación y desaparición de los gradientes, lo cual podría comprometer el desempeño del modelo.

SageMaker Debugger proporciona herramientas para depurar los trabajos de entrenamiento y resolver estos problemas a fin de mejorar el rendimiento de su modelo. El depurador también ofrece herramientas capaces de enviar alertas en caso de detectar anomalías durante el entrenamiento, tomar medidas para resolver los problemas e identificar la causa raíz de los mismos mediante la visualización de las métricas y los tensores recopilados.

SageMaker Debugger es compatible con Apache MXNet, PyTorch TensorFlow, y los marcos. XGBoost Para obtener más información sobre los marcos y las versiones disponibles compatibles con SageMaker Debugger, consulte. Marcos y algoritmos compatibles

Descripción general del funcionamiento de Amazon SageMaker Debugger.

El flujo de trabajo del depurador de alto nivel es el siguiente:

Modifique su script de entrenamiento con el Python SDK del sagemaker-debugger si es necesario.
Configure un trabajo SageMaker de formación con SageMaker Debugger.
- Configure mediante la API SageMaker AI Estimator (para Python SDK).
- Configure mediante la CreateTrainingJobsolicitud de SageMaker IA (para Boto3 o CLI).
- Configure contenedores de entrenamiento personalizados con Debugger SageMaker .
Inicie un trabajo de entrenamiento y supervise los problemas de entrenamiento en tiempo real.
- Lista de reglas integradas del depurador.
Reciba alertas y tome medidas rápidas en caso de problemas relacionados con el entrenamiento.
- Reciba mensajes de texto y correos electrónicos y detenga los trabajos de entrenamiento en caso de que se hayan detectado problemas de entrenamiento con Uso de las acciones integradas del depurador para reglas.
- Configure sus propias acciones con Amazon CloudWatch Events y AWS Lambda.
Conozca detalladamente el análisis de los problemas de entrenamiento.
- Para depurar los tensores de salida del modelo, consulte Visualice los tensores de salida del depurador en TensorBoard.
Solucione los problemas, tenga en cuenta las sugerencias proporcionadas por el depurador y repita los pasos 1 a 5 hasta optimizar el modelo y lograr la precisión deseada.