Cree un experimento de piloto automático de regresión o clasificación para datos tabulares mediante la interfaz de usuario clásica de Studio - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cree un experimento de piloto automático de regresión o clasificación para datos tabulares mediante la interfaz de usuario clásica de Studio

Puede usar la interfaz de usuario clásica de Amazon SageMaker Studio para crear experimentos de piloto automático para problemas de clasificación o regresión en datos tabulares. La interfaz de usuario le ayuda a especificar el nombre del experimento, a proporcionar ubicaciones para los datos de entrada y salida y a especificar qué datos objetivo desea predecir. Si lo desea, también puede especificar el tipo de problema que quiere resolver (regresión, clasificación, clasificación multiclase), elegir su estrategia de modelado (conjuntos apilados u optimización de hiperparámetros), seleccionar la lista de algoritmos que utiliza el piloto automático para entrenar los datos, etc.

La interfaz de usuario incluye descripciones, conmutadores, menús desplegables, botones de radio y mucho más para ayudarte a crear los modelos candidatos. Una vez realizado el experimento, puede comparar los ensayos y ahondar en los detalles de los pasos previos al procesamiento, los algoritmos y los rangos de hiperparámetros de cada modelo. Si lo desea, puede descargar sus informes de explicabilidad y rendimiento. Utilice los cuadernos proporcionados para ver los resultados de la exploración automática de datos o las definiciones de los modelos candidatos.

Como alternativa, puede utilizar la API Autopilot AutoML en. Cree un trabajo de regresión o clasificación para datos tabulares mediante la API AutoML

Para crear un experimento de piloto automático mediante la interfaz de usuario de Studio Classic
  1. Inicie sesión en https://console.aws.amazon.com/sagemaker/, elija Studio en el panel de navegación izquierdo, seleccione su dominio y perfil de usuario y, a continuación, abra Studio.

  2. En Studio, selecciona el icono de Studio Classic en el panel de navegación superior izquierdo. Se abrirá una aplicación Studio Classic.

  3. Ejecute o abra una aplicación de Studio Classic desde el espacio que prefiera, o bien cree un espacio de Studio Classic. . En la pestaña Inicio, seleccione la tarjeta AutoML. Esto abrirá una nueva pestaña AutoML.

  4. Seleccione Crear un experimento de AutoML. Se abrirá una nueva pestaña Crear experimento.

  5. En la sección Detalles del experimento y los datos, introduzca la siguiente información:

    1. Nombre del experimento: debe ser exclusivo de tu cuenta actual Región de AWS y contener un máximo de 63 caracteres alfanuméricos. Puede incluir guiones (-), pero no espacios.

    2. Datos de entrada: proporcione la ubicación del bucket de Amazon Simple Storage Service (Amazon S3) de los datos de entrada. Este bucket de S3 debe estar en su Región de AWS actual. La URL debe estar en un s3:// formato en el que Amazon SageMaker tenga permisos de escritura. El archivo debe estar en formato CSV o Parquet y contener al menos 500 filas. Seleccione Examinar para desplazarse por las rutas disponibles y Vista previa para ver una muestra de los datos de entrada.

    3. ¿La entrada de S3 es un archivo de manifiesto?: un archivo de manifiesto incluye metadatos con los datos de entrada. Los metadatos especifican la ubicación de los datos en Amazon S3. También especifica cómo se formatean los datos y qué atributos del conjunto de datos se van a utilizar al entrenar el modelo. Puede usar un archivo de manifiesto como alternativa al preprocesamiento cuando los datos etiquetados se transmitan en modo Pipe.

    4. ¿Dividir automáticamente los datos?: Piloto automático puede dividir sus datos en una división 80-20 % para los datos de entrenamiento y validación. Si prefiere una división personalizada, puede elegir Especificar la tasa de división. Para usar un conjunto de datos personalizado para la validación, seleccione Proporcionar un conjunto de validación.

    5. Ubicación de los datos de salida (bucket S3): el nombre de la ubicación del bucket S3 en la que desea almacenar los datos de salida. La URL de este bucket debe estar en un formato de Amazon S3 en el que Amazon SageMaker tenga permisos de escritura. El bucket de S3 debe estar en la Región de AWS actual. Piloto automático también puede crearlo automáticamente en la misma ubicación que los datos de entrada.

  6. Seleccione Siguiente: Objetivo y características. Se abrirá la pestaña Objetivo y características.

  7. En la sección Objetivo y características:

    • Seleccione una columna para establecerla como objetivo para las predicciones del modelo.

    • Si lo desea, puede introducir el nombre de una columna de ponderaciones de muestra en la sección Ponderaciones de muestra para solicitar que las filas del conjunto de datos se ponderen durante el entrenamiento y la evaluación. Para obtener más información sobre las métricas disponibles, consulte Métricas ponderadas en Piloto automático.

      nota

      El soporte para ponderaciones de muestra solo está disponible en el modo de ensamblaje.

    • También puede seleccionar características para el entrenamiento y cambiar su tipo de datos. Están disponibles los siguientes tipos de datos: Text, Numerical, Categorical, Datetime, Sequence y Auto. Todas las características se seleccionan de forma predeterminada.

  8. Elija Siguiente: Método de entrenamiento. Se abre la pestaña Método de entrenamiento.

  9. En la sección Método de entrenamiento, seleccione la opción de entrenamiento: Ensamblaje, Optimización de hiperparámetros (HPO) o Automático para que Piloto automático elija el método de entrenamiento automáticamente en función del tamaño del conjunto de datos. Cada modo de entrenamiento ejecuta un conjunto predefinido de algoritmos en el conjunto de datos para entrenar a los candidatos a modelo. De forma predeterminada, Piloto automático preselecciona todos los algoritmos disponibles para el modo de entrenamiento en cuestión. Puedes realizar un experimento de entrenamiento en Piloto automático con todos los algoritmos o elegir su propio subconjunto.

    Para obtener más información sobre los modos de entrenamiento y los algoritmos disponibles, consulte la sección Autopilot training modes en la página Training modes and algorithms.

  10. Seleccione Siguiente: Implementación y configuración avanzada para abrir la pestaña Implementación y configuración avanzada. La configuración incluye el nombre del punto de conexión que se muestra automáticamente, el tipo de problema de machine learning y opciones adicionales para ejecutar el experimento.

    1. Configuración de implementación: Piloto automático puede crear automáticamente un punto de conexión e implementar el modelo automáticamente.

      Para realizar una implementación automática en un punto de conexión generado automáticamente o para proporcionar un nombre de punto de conexión para una implementación personalizada, establezca el conmutador en en ¿Hacer implementación automática? Si está importando datos de Amazon SageMaker Data Wrangler, tiene opciones adicionales para implementar automáticamente el mejor modelo con o sin las transformaciones de Data Wrangler.

      nota

      Si su flujo de Data Wrangler contiene operaciones de varias filas, como groupby, join o concatenate, no podrá implementar automáticamente con estas transformaciones. Para obtener más información, consulte Automatically Train Models on Your Data Flow.

    2. Configuración avanzada (opcional): Piloto automático proporciona controles adicionales para configurar manualmente los parámetros experimentales, como la definición del tipo de problema, las limitaciones de tiempo en las pruebas y los trabajos de Piloto automático, la seguridad y la configuración del cifrado.

      nota

      El piloto automático admite el establecimiento de valores predeterminados para simplificar la configuración de los experimentos del piloto automático mediante la interfaz de usuario de Studio Classic. Los administradores pueden usar las configuraciones de ciclo de vida (LCC) de Studio Classic para establecer los valores de infraestructura, redes y seguridad en los archivos de configuración y rellenar previamente los ajustes avanzados de los trabajos. AutoML

      Para obtener más información sobre cómo pueden los administradores automatizar la personalización de un experimento de Piloto automático, consulte Configurar los parámetros predeterminados de un experimento de Piloto automático (para administradores).

      1. Tipo de problema de machine learning: Piloto automático puede inferir automáticamente el tipo de problema de aprendizaje supervisado a partir de su conjunto de datos. Si prefiere elegirlo manualmente, puede usar el menú desplegable Seleccionar el tipo de problema de machine learning. Tenga en cuenta que el valor predeterminado es Auto. En algunos casos, no puede SageMaker inferir con precisión. Cuando eso suceda, debe aportar el valor necesario para que el trabajo se complete correctamente. Algo especialmente importante es que puede elegir uno de los siguientes tipos.

        • Clasificación binaria: la clasificación binaria asigna los datos de entrada a una de dos clases predefinidas y mutuamente excluyentes en función de sus atributos, como el diagnóstico médico basado en los resultados de las pruebas de diagnóstico que determinan si una persona tiene una enfermedad.

        • Regresión: la regresión establece una relación entre las variables de entrada (también conocidas como características o variables independientes) y la variable objetivo (también conocida como variable dependiente). Esta relación se captura mediante una función o modelo matemático que asigna las variables de entrada a una salida continua. Se suele utilizar para tareas como la predicción de los precios de la vivienda en función de características como los metros cuadrados y el número de baños, las tendencias del mercado de valores o la estimación de las cifras de ventas.

        • Clasificación multiclase: la clasificación multiclase asigna los datos de entrada a una de varias clases en función de sus atributos; por ejemplo, la predicción del tema más relevante para un documento de texto, como política, finanzas o filosofía.

      2. Tiempo de ejecución: puede definir un límite de tiempo máximo. Al alcanzar el límite de tiempo, las pruebas y los trabajos que superen el límite de tiempo se detienen automáticamente.

      3. Acceso: puede elegir el rol al que Amazon SageMaker Studio Classic asume para obtener acceso temporal Servicios de AWS (en particular, SageMaker y a Amazon S3) en su nombre. Si no se define ningún rol de forma explícita, Studio Classic utiliza automáticamente el rol de SageMaker ejecución predeterminado adjunto a su perfil de usuario.

      4. Cifrado: para mejorar la seguridad de sus datos en reposo y protegerlos contra el acceso no autorizado, puede especificar claves de cifrado para cifrar los datos en sus buckets de Amazon S3 y en el volumen de Amazon Elastic Block Store (Amazon EBS) adjunto a su dominio de Studio Classic.

      5. Seguridad: puede elegir la nube privada virtual (Amazon VPC) en la que se ejecuta su SageMaker trabajo. Asegúrese de que la VPC de Amazon tenga acceso a sus buckets de entrada y salida de Amazon S3.

      6. Proyecto: especifique el nombre del SageMaker proyecto que desee asociar a este experimento de piloto automático y modele los resultados. Al especificar un proyecto, Piloto automático lo etiqueta como un experimento. Esto le permite saber qué salidas del modelo están asociadas a este proyecto.

      7. Etiquetas: las etiquetas son una matriz de pares clave-valor. Usa etiquetas para clasificar tus recursos Servicios de AWS, como su propósito, propietario o entorno.

    3. Seleccione Siguiente: Revisar y crear para obtener un resumen del experimento de Piloto automático antes de crearlo.

  11. Selecciona Crear experimento. La creación del experimento inicia un trabajo de piloto automático en. SageMaker Piloto automático proporciona el estado del experimento, información sobre el proceso de exploración de datos y los modelos candidatos en cuadernos, una lista de los modelos generados y sus informes y el perfil de trabajo utilizado para crearlos.

    Para obtener información sobre los cuadernos generados por un trabajo de Piloto automático, consulte Cuadernos Amazon SageMaker Autopilot generados para gestionar las tareas de AutoML. Para obtener información sobre los detalles de cada candidato modelo y sus informes, consulte Modelos generados por Amazon SageMaker Autopilot .

nota

Para evitar incurrir en cargos innecesarios: si implementa un modelo que ya no es necesario, elimine los puntos de conexión y los recursos que se crearon durante esa implementación. La información sobre los precios de las instancias por región está disponible en Amazon SageMaker Pricing.