SageMaker Piloto automático - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker Piloto automático

importante

A partir del 30 de noviembre de 2023, las funciones de Autopilot migrarán a Amazon SageMaker Canvas como parte de la experiencia actualizada de Studio, que proporciona a los científicos de datos capacidades sin código para tareas como la preparación de datos, la ingeniería de características, la selección de algoritmos, el entrenamiento y el ajuste, la inferencia, la supervisión continua de modelos y más. SageMaker Canvas admite una variedad de casos de uso, como la visión artificial, la previsión de la demanda, la búsqueda inteligente y la IA generativa.

Los usuarios de Studio Classic pueden seguir utilizando el piloto automático como una función independiente. Sin embargo, recomendamos a los usuarios que prefieran la comodidad de una interfaz de usuario que exploren la ejecución de sus tareas de AutoML en SageMaker Canvas. Los usuarios con experiencia en programación pueden seguir utilizando todas las instrucciones de la API y cualquier SDK compatible para la implementación técnica.

Todas las instrucciones relacionadas con la interfaz de usuario de esta guía se refieren a las funciones independientes de Autopilot antes de migrar a Amazon Canvas. SageMaker Los usuarios que sigan estas instrucciones deben usar Studio Classic.

Amazon SageMaker Autopilot es un conjunto de funciones que simplifica y acelera varias etapas del flujo de trabajo de aprendizaje automático al automatizar el proceso de creación e implementación de modelos de aprendizaje automático (AutoML).

El piloto automático realiza las siguientes tareas clave que puede utilizar en piloto automático o con distintos grados de orientación humana:

  • Análisis y preprocesamiento de datos: Piloto automático identifica el tipo de problema específico, gestiona los valores que faltan, normaliza los datos, selecciona las características y prepara en general los datos para el entrenamiento del modelo.

  • Selección del modelo: Piloto automático explora una variedad de algoritmos y utiliza una técnica de remuestreo con validación cruzada para generar métricas que evalúen la calidad predictiva de los algoritmos en función de métricas objetivas predefinidas.

  • Optimización de hiperparámetros: el piloto automático automatiza la búsqueda de configuraciones de hiperparámetros óptimas.

  • Capacitación y evaluación de modelos: el piloto automático automatiza el proceso de entrenamiento y evaluación de varios modelos candidatos. Divide los datos en conjuntos de entrenamiento y validación, entrena a los candidatos a modelo seleccionados utilizando los datos de entrenamiento y evalúa el rendimiento sobre los datos no observados del conjunto de validación. Por último, clasifica los candidatos a modelo optimizados en función de su rendimiento e identifica el modelo con mejor rendimiento.

  • Implementación del modelo: una vez que el piloto automático ha identificado el modelo con mejor rendimiento, ofrece la opción de implementar el modelo automáticamente generando los artefactos del modelo y el punto final, exponiendo una API. Las aplicaciones externas pueden enviar datos al punto de conexión y recibir las predicciones o inferencias correspondientes.

Piloto automático permite crear modelos de machine learning en grandes conjuntos de datos de hasta cientos de GB.

El siguiente diagrama describe las tareas de este proceso de AutoML gestionado por Autopilot.


      Descripción general del proceso de Amazon  SageMaker  Autopilot AutoML.

En función de su nivel de comodidad con el proceso de machine learning y de su experiencia en programación, puede utilizar Piloto automático de diferentes maneras:

  • Con la interfaz de usuario clásica de Studio, los usuarios pueden elegir entre una experiencia sin código o contar con cierto nivel de intervención humana.

    nota

    A través de la interfaz de usuario de Studio Classic, solo están disponibles los experimentos creados a partir de datos tabulares para tipos de problemas como la regresión o la clasificación.

  • Con la API de AutoML, los usuarios con experiencia en programación pueden usar los SDK disponibles para crear trabajos de AutoML. Este enfoque proporciona una mayor flexibilidad y opciones de personalización y está disponible para todos los tipos de problemas.

Actualmente, Autopilot es compatible con los siguientes tipos de problemas:

nota

Para los problemas de regresión o clasificación relacionados con datos tabulares, los usuarios pueden elegir entre dos opciones: utilizar la interfaz de usuario de Studio Classic o la API Reference.

Las tareas como la clasificación de textos e imágenes, la previsión de series temporales y el ajuste de modelos lingüísticos de gran tamaño están disponibles exclusivamente a través de la versión 2 de la API de piloto automático. Para los usuarios de Python, recomendamos utilizar el, AWS SDK for Python (Boto3)ya que el SDK de Amazon SageMaker Python no es compatible actualmente con la versión 2 de la API de piloto automático.

Los usuarios que prefieran la comodidad de una interfaz de usuario pueden usar Amazon SageMaker Canvas para acceder a modelos previamente entrenados y modelos básicos de IA generativa, o crear modelos personalizados adaptados a textos específicos, clasificación de imágenes, necesidades de previsión o IA generativa.

Además, Piloto automático ayuda a los usuarios a entender cómo hacen predicciones los modelos mediante la generación automática de informes que muestran la importancia de cada característica individual. Esto proporciona transparencia e información sobre los factores que influyen en las predicciones, algo que pueden utilizar los equipos de riesgo y cumplimiento y los reguladores externos. Piloto automático también proporciona un informe de rendimiento del modelo, que incluye un resumen de las métricas de evaluación, una matriz de confusión, diversas visualizaciones, como las curvas características del funcionamiento del receptor y las curvas de recuperación de precisión, etc. El contenido específico de cada informe varía según el tipo de problema del experimento con Piloto automático.

Los informes de explicabilidad y rendimiento del mejor modelo candidato para un experimento de piloto automático están disponibles para tipos de problemas de clasificación de datos tabulares, de imágenes y de texto.

Para los casos de uso de datos tabulares, como la regresión o la clasificación, el piloto automático ofrece una visibilidad adicional sobre cómo se clasificaron los datos y cómo se seleccionaron, entrenaron y ajustaron los modelos candidatos mediante la generación de cuadernos que contienen el código utilizado para explorar los datos y encontrar el modelo con el mejor rendimiento. Estos cuadernos proporcionan un entorno interactivo y exploratorio que le ayuda a conocer el impacto de las distintas entradas, o las ventajas y desventajas que se obtienen en los experimentos. Puede seguir experimentando con el modelo candidato de mayor rendimiento mediante sus propias modificaciones en los cuadernos de exploración de datos y de definición de candidatos proporcionados por Autopilot.

Con Amazon SageMaker, solo pagas por lo que usas. Usted paga por los recursos informáticos y de almacenamiento subyacentes incluidos en SageMaker los demás AWS servicios, en función del uso que haga. Para obtener más información sobre el coste de uso SageMaker, consulta los SageMakerprecios de Amazon.