Depurar y mejorar el rendimiento del modelo - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Depurar y mejorar el rendimiento del modelo

La esencia del entrenamiento de modelos de aprendizaje automático, redes neuronales de aprendizaje profundo y modelos de transformadores consiste en lograr una convergencia de modelos estable y, por lo tanto, state-of-the-art los modelos tienen millones, miles de millones o billones de parámetros de modelo. La cantidad de operaciones para actualizar la enorme cantidad de parámetros del modelo durante cada iteración puede convertirse fácilmente en astronómica. Para identificar los problemas de convergencia del modelo, es importante poder acceder a los parámetros, activaciones y gradientes del modelo calculados durante los procesos de optimización.

Amazon SageMaker proporciona dos herramientas de depuración para ayudar a identificar estos problemas de convergencia y obtener visibilidad de sus modelos.

Amazon SageMaker con TensorBoard

Para ofrecer una mayor compatibilidad con las herramientas comunitarias de código abierto de la plataforma de SageMaker formación, se SageMaker aloja TensorBoard como una aplicación en el dominio. SageMaker Puedes incorporar tus tareas de entrenamiento al redactor de TensorBoard resúmenes SageMaker y seguir utilizándolo para recopilar los tensores de salida del modelo. Al TensorBoard estar implementado en el SageMaker dominio, también te ofrece más opciones para administrar los perfiles de usuario del SageMaker dominio de tu AWS cuenta y proporciona un control preciso sobre los perfiles de usuario al permitir el acceso a acciones y recursos específicos. Para obtener más información, consulte Úselo TensorBoard para depurar y analizar trabajos de formación en Amazon SageMaker.

Amazon SageMaker Debugger

Amazon SageMaker Debugger es una capacidad SageMaker que proporciona herramientas para registrar enlaces a callbacks para extraer los tensores de salida del modelo y guardarlos en Amazon Simple Storage Service. Incluye reglas integradas para detectar problemas de convergencia de modelos, como el sobreajuste, la saturación de las funciones de activación, la desaparición de los gradientes, etc. También puede configurar las reglas integradas con Amazon CloudWatch Events y AWS Lambda para tomar medidas automatizadas contra los problemas detectados, y configurar Amazon Simple Notification Service para recibir notificaciones por correo electrónico o texto. Para obtener más información, consulte Utilice Amazon SageMaker Debugger para depurar y mejorar el rendimiento del modelo.