Creación de un experimento de Piloto automático de regresión o clasificación para datos tabulares usando la interfaz de usuario de Studio Classic

importante

A partir del 30 de noviembre de 2023, la interfaz de usuario de Autopilot migrará a Amazon SageMaker Canvas como parte de la experiencia actualizada de Amazon SageMaker Studio. SageMaker Canvas proporciona a los analistas y científicos de datos ciudadanos funciones sin necesidad de programar para tareas como la preparación de datos, la ingeniería de funciones, la selección de algoritmos, el entrenamiento y el ajuste, la inferencia y mucho más. Los usuarios pueden aprovechar las visualizaciones integradas y el análisis hipotético para explorar sus datos y diferentes escenarios, con predicciones automatizadas que les permiten poner en producción sus modelos con facilidad. Canvas admite una variedad de casos de uso, como la visión artificial, la previsión de la demanda, la búsqueda inteligente y la IA generativa.

Los usuarios de Amazon SageMaker Studio Classic, la experiencia anterior de Studio, pueden seguir utilizando la interfaz de usuario del piloto automático en Studio Classic. Los usuarios con experiencia en codificación pueden seguir utilizando todas las referencias de la API en cualquier SDK admitido para la implementación técnica.

Si ha utilizado el piloto automático en Studio Classic hasta ahora y quiere migrar a SageMaker Canvas, es posible que tenga que conceder permisos adicionales a su perfil de usuario o función de IAM para poder crear y utilizar la SageMaker aplicación Canvas. Para obtener más información, consulte (Opcional) Migre del piloto automático de Studio Classic a Canvas SageMaker .

Todas las instrucciones relacionadas con la interfaz de usuario de esta guía se refieren a las funciones independientes de Autopilot antes de migrar a Amazon Canvas. SageMaker Los usuarios que sigan estas instrucciones deben usar Studio Classic.

Puede usar la interfaz de usuario clásica de Amazon SageMaker Studio para crear experimentos de piloto automático para problemas de clasificación o regresión en datos tabulares. La interfaz de usuario le ayuda a especificar el nombre del experimento, proporcionar ubicaciones para los datos de entrada y salida y especificar qué datos de destino desea predecir. Si lo prefiere, también puede especificar el tipo de problema que desea resolver (regresión, clasificación, clasificación multiclase), elegir su estrategia de modelado (conjuntos apilados u optimización de hiperparámetros), seleccionar la lista de algoritmos utilizados por el trabajo de Piloto automático para entrenar los datos, etc.

La interfaz de usuario incluye descripciones, conmutadores, menús desplegables, botones de radio y mucho más para ayudarte a crear los modelos candidatos. Tras la ejecución del experimento, puede comparar las pruebas y ahondar en los detalles de los pasos de preprocesamiento, los algoritmos y los rangos de hiperparámetros de cada modelo. También tiene la opción de descargar sus informes de explicabilidad y rendimiento. Utilice los cuadernos proporcionados para ver los resultados de la exploración automática de datos o las definiciones de los modelos candidatos.

También puede utilizar la API de Autopilot AutoML en Creación de trabajos de regresión o clasificación para datos tabulares mediante la API de AutoML.

Creación de un experimento de Piloto automático usando la interfaz de usuario de Studio Classic

Inicie sesión en https://console.aws.amazon.com/sagemaker/, elija Studio en el panel de navegación izquierdo, seleccione su dominio y perfil de usuario y, a continuación, abra Studio.
En Studio, seleccione el icono de Studio Classic en el panel de navegación superior izquierdo. Se abrirá una aplicación de Studio Classic.
Ejecute o abra una aplicación de Studio Classic desde el espacio que prefiera, o bien cree un espacio de Studio Classic. En la pestaña Inicio, seleccione la tarjeta AutoML. Esto abrirá una nueva pestaña AutoML.
Seleccione Crear un experimento de AutoML. Se abrirá una nueva pestaña Crear experimento.
En la sección Detalles del experimento y los datos, introduzca la siguiente información:
1. Nombre del experimento: debe ser exclusivo de tu cuenta actual Región de AWS y contener un máximo de 63 caracteres alfanuméricos. Puede incluir guiones (-), pero no espacios.
2. Datos de entrada: proporcione la ubicación del bucket de Amazon Simple Storage Service (Amazon S3) de los datos de entrada. Este bucket de S3 debe estar en su Región de AWS actual. La URL debe estar en un s3:// formato en el que Amazon SageMaker AI tenga permisos de escritura. El archivo debe estar en formato CSV o Parquet y contener al menos 500 filas. Seleccione Examinar para desplazarse por las rutas disponibles y Vista previa para ver una muestra de los datos de entrada.
3. ¿La entrada de S3 es un archivo de manifiesto?: un archivo de manifiesto incluye metadatos con los datos de entrada. Los metadatos especifican la ubicación de los datos en Amazon S3. También especifica cómo se formatean los datos y qué atributos del conjunto de datos se van a utilizar al entrenar el modelo. Puede usar un archivo de manifiesto como alternativa al preprocesamiento cuando los datos etiquetados se transmitan en modo Pipe.
4. ¿Dividir automáticamente los datos?: Piloto automático puede dividir sus datos en una división 80-20 % para los datos de entrenamiento y validación. Si prefiere una división personalizada, puede elegir Especificar la tasa de división. Para usar un conjunto de datos personalizado para la validación, seleccione Proporcionar un conjunto de validación.
5. Ubicación de los datos de salida (bucket S3): el nombre de la ubicación del bucket S3 en la que desea almacenar los datos de salida. La URL de este bucket debe estar en un formato de Amazon S3 en el que Amazon SageMaker AI tenga permisos de escritura. El bucket de S3 debe estar en la Región de AWS actual. Piloto automático también puede crearlo automáticamente en la misma ubicación que los datos de entrada.
Seleccione Siguiente: Objetivo y características. Se abrirá la pestaña Objetivo y características.
En la sección Objetivo y características:
- Seleccione una columna para establecerla como objetivo para las predicciones del modelo.
- Si lo desea, puede introducir el nombre de una columna de ponderaciones de muestra en la sección Ponderaciones de muestra para solicitar que las filas del conjunto de datos se ponderen durante el entrenamiento y la evaluación. Para obtener más información sobre las métricas disponibles, consulte Métricas ponderadas en Piloto automático.
  
  nota
  El soporte para ponderaciones de muestra solo está disponible en el modo de ensamblaje.
- También puede seleccionar características para el entrenamiento y cambiar su tipo de datos. Están disponibles los siguientes tipos de datos: Text, Numerical, Categorical, Datetime, Sequence y Auto. Todas las características se seleccionan de forma predeterminada.
Elija Siguiente: Método de entrenamiento. Se abre la pestaña Método de entrenamiento.
En la sección Método de entrenamiento, seleccione la opción de entrenamiento: Ensamblaje, Optimización de hiperparámetros (HPO) o Automático para que Piloto automático elija el método de entrenamiento automáticamente en función del tamaño del conjunto de datos. Cada modo de entrenamiento ejecuta un conjunto predefinido de algoritmos en el conjunto de datos para entrenar a los candidatos a modelo. De forma predeterminada, Piloto automático preselecciona todos los algoritmos disponibles para el modo de entrenamiento en cuestión. Puedes realizar un experimento de entrenamiento en Piloto automático con todos los algoritmos o elegir su propio subconjunto.

Para obtener más información sobre los modos de entrenamiento y los algoritmos disponibles, consulte la sección Autopilot training modes en la página Training modes and algorithms.
Seleccione Siguiente: Implementación y configuración avanzada para abrir la pestaña Implementación y configuración avanzada. La configuración incluye el nombre del punto de conexión que se muestra automáticamente, el tipo de problema de machine learning y opciones adicionales para ejecutar el experimento.
1. Configuración de implementación: Piloto automático puede crear automáticamente un punto de conexión e implementar el modelo automáticamente.
  
  Para realizar una implementación automática en un punto de conexión generado automáticamente o para proporcionar un nombre de punto de conexión para una implementación personalizada, establezca el conmutador en Sí en ¿Hacer implementación automática? Si está importando datos de Amazon SageMaker Data Wrangler, tiene opciones adicionales para implementar automáticamente el mejor modelo con o sin las transformaciones de Data Wrangler.
  
  nota
  Si su flujo de Data Wrangler contiene operaciones de varias filas, como groupby, join o concatenate, no podrá implementar automáticamente con estas transformaciones. Para obtener más información, consulte Automatically Train Models on Your Data Flow.
2. Configuración avanzada (opcional): Piloto automático proporciona controles adicionales para configurar manualmente los parámetros experimentales, como la definición del tipo de problema, las limitaciones de tiempo en las pruebas y los trabajos de Piloto automático, la seguridad y la configuración del cifrado.
  
  nota
  Piloto automático permite establecer valores predeterminados para simplificar la configuración de los experimentos de Piloto automático con la interfaz de usuario de Studio Classic. Los administradores pueden usar las configuraciones del ciclo de vida (LCC) de Studio Classic para establecer los valores de infraestructura, redes y seguridad en los archivos de configuración y rellenar previamente los ajustes avanzados de los trabajos de AutoML.
  Para obtener más información sobre cómo pueden los administradores automatizar la personalización de un experimento de Piloto automático, consulte Configurar los parámetros predeterminados de un experimento de Piloto automático (para administradores).
  1. Tipo de problema de machine learning: Piloto automático puede inferir automáticamente el tipo de problema de aprendizaje supervisado a partir de su conjunto de datos. Si prefiere elegirlo manualmente, puede usar el menú desplegable Seleccionar el tipo de problema de machine learning. Tenga en cuenta que el valor predeterminado es Auto. En algunos casos, la SageMaker IA no puede inferir con precisión. Cuando eso suceda, debe aportar el valor necesario para que el trabajo se complete correctamente. Algo especialmente importante es que puede elegir uno de los siguientes tipos.
    - Clasificación binaria: la clasificación binaria asigna los datos de entrada a una de dos clases predefinidas y mutuamente excluyentes en función de sus atributos, como el diagnóstico médico basado en los resultados de las pruebas de diagnóstico que determinan si una persona tiene una enfermedad.
    - Regresión: la regresión establece una relación entre las variables de entrada (también conocidas como características o variables independientes) y la variable objetivo (también conocida como variable dependiente). Esta relación se captura mediante una función o modelo matemático que asigna las variables de entrada a una salida continua. Se suele utilizar para tareas como la predicción de los precios de la vivienda en función de características como los metros cuadrados y el número de baños, las tendencias del mercado de valores o la estimación de las cifras de ventas.
    - Clasificación multiclase: la clasificación multiclase asigna los datos de entrada a una de varias clases en función de sus atributos; por ejemplo, la predicción del tema más relevante para un documento de texto, como política, finanzas o filosofía.
  2. Tiempo de ejecución: puede definir un límite de tiempo máximo. Al alcanzar el límite de tiempo, las pruebas y los trabajos que superen el límite de tiempo se detienen automáticamente.
  3. Acceso: puede elegir el rol al que Amazon SageMaker Studio Classic asume para obtener acceso temporal Servicios de AWS (en particular, SageMaker AI y Amazon S3) en su nombre. Si no se define ningún rol de forma explícita, Studio Classic utiliza automáticamente el rol de ejecución de SageMaker IA predeterminado adjunto a su perfil de usuario.
  4. Cifrado: para mejorar la seguridad de sus datos en reposo y protegerlos contra el acceso no autorizado, puede especificar claves de cifrado para cifrar los datos en sus buckets de Amazon S3 y en el volumen de Amazon Elastic Block Store (Amazon EBS) asociado a su dominio de Studio Classic.
  5. Seguridad: puede elegir la nube privada virtual (Amazon VPC) en la que se ejecuta su trabajo de SageMaker IA. Asegúrese de que la VPC de Amazon tenga acceso a sus buckets de entrada y salida de Amazon S3.
  6. Proyecto: especifique el nombre del proyecto de SageMaker IA que desee asociar a este experimento de piloto automático y modele los resultados. Al especificar un proyecto, Piloto automático lo etiqueta como un experimento. Esto le permite saber qué salidas del modelo están asociadas a este proyecto.
  7. Etiquetas: las etiquetas son una matriz de pares clave-valor. Usa etiquetas para clasificar tus recursos Servicios de AWS, como su propósito, propietario o entorno.
3. Seleccione Siguiente: Revisar y crear para obtener un resumen del experimento de Piloto automático antes de crearlo.
Selecciona Crear experimento. La creación del experimento inicia un trabajo de piloto automático en SageMaker la IA. Piloto automático proporciona el estado del experimento, información sobre el proceso de exploración de datos y los modelos candidatos en cuadernos, una lista de los modelos generados y sus informes y el perfil de trabajo utilizado para crearlos.

Para obtener información sobre los cuadernos generados por un trabajo de Piloto automático, consulte Cuadernos de Piloto automático generados para administrar las tareas de AutoML. Para obtener información sobre los detalles de cada candidato modelo y sus informes, consulte Ver detalles del modelo yVisualización de un informe de rendimiento sobre el modelo de Piloto automático.

nota

Para evitar incurrir en cargos innecesarios: si implementa un modelo que ya no es necesario, elimine los puntos de conexión y los recursos que se crearon durante esa implementación. La información sobre los precios de las instancias por región está disponible en Amazon SageMaker Pricing.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Implementación de modelos y predicciones

Configurar los parámetros predeterminados de un experimento de Piloto automático (para administradores)