SageMaker Flujo de trabajo integral de aprendizaje automático de Canvas - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker Flujo de trabajo integral de aprendizaje automático de Canvas

importante

En este tutorial se supone que usted o su administrador han creado una AWS cuenta. Para obtener información sobre cómo crear una AWS cuenta, consulte Primeros pasos: ¿es la primera vez que lo AWS usa?

Configuración

Un SageMaker dominio de Amazon es un lugar centralizado para gestionar todos los SageMaker entornos y recursos de Amazon. Un dominio actúa como un límite virtual para su trabajo SageMaker, ya que proporciona aislamiento y control de acceso a sus recursos de aprendizaje automático (ML).

Para empezar a utilizar Amazon SageMaker Canvas, usted o su administrador deben ir a la SageMaker consola y crear un SageMaker dominio de Amazon. Un dominio tiene los recursos de almacenamiento y procesamiento necesarios para ejecutar SageMaker Canvas. Dentro del dominio, puede configurar SageMaker Canvas para acceder a sus buckets de Amazon S3 e implementar modelos. Utilice el siguiente procedimiento para configurar un dominio rápido y crear una aplicación de SageMaker Canvas.

Para configurar SageMaker Canvas
  1. Vaya a la consola de SageMaker.

  2. En la barra de navegación de la izquierda, selecciona SageMaker Canvas.

  3. Elige Crear un SageMaker dominio.

  4. Elija Set up (Configurar). La configuración del dominio puede tardar unos minutos.

El procedimiento anterior utilizó una configuración rápida del dominio. Puede realizar una configuración avanzada para controlar todos los aspectos de la configuración de la cuenta, incluidos los permisos, las integraciones y el cifrado. Para obtener más información sobre una configuración personalizada, consulteConfiguración personalizada para Amazon SageMaker.

De forma predeterminada, la configuración rápida del dominio le proporciona permisos para implementar modelos. Si tiene permisos personalizados configurados a través de un dominio estándar y necesita conceder manualmente los permisos de implementación del modelo, consulteAdministración de permisos.

Creación de flujos

Amazon SageMaker Canvas es una plataforma de aprendizaje automático que permite a los usuarios crear, entrenar e implementar modelos de aprendizaje automático sin necesidad de una amplia experiencia en programación o aprendizaje automático. Una de las potentes funciones de Amazon SageMaker Canvas es la capacidad de importar y trabajar con conjuntos de datos de gran tamaño de diversas fuentes, como Amazon S3.

En este tutorial, utilizamos el conjunto de datos de NYC taxis para predecir el importe de la tarifa de cada viaje mediante un flujo de datos de Amazon SageMaker Canvas Data Wrangler. El siguiente procedimiento describe los pasos para importar una versión modificada del conjunto de datos de NYC taxis a un flujo de datos.

nota

Para mejorar el procesamiento, SageMaker Canvas importa una muestra de sus datos. De forma predeterminada, toma muestras aleatorias de 50 000 filas.

Para importar el conjunto de datos de NYC taxis
  1. En la página de inicio de SageMaker Canvas, elija Data Wrangler.

  2. Elija Importar datos.

  3. Seleccione Tabular.

  4. Elija la caja de herramientas situada junto a la fuente de datos.

  5. Seleccione Amazon S3 en el menú desplegable.

  6. Para el punto final de Input S3, especifique s3://amazon-sagemaker-data-wrangler-documentation-artifacts/canvas-single-file-nyc-taxi-dataset.csv

  7. Elija Ir.

  8. Selecciona la casilla de verificación situada junto al conjunto de datos.

  9. Selecciona Vista previa de datos.

  10. Seleccione Guardar.

Informe 1 sobre la calidad de los datos y los conocimientos (ejemplo)

Tras importar un conjunto de datos a Amazon SageMaker Canvas, puede generar un informe de información y calidad de los datos a partir de una muestra de los datos. Úselo para proporcionar información valiosa sobre el conjunto de datos. El informe hace lo siguiente:

  • Evalúa la integridad del conjunto de datos

  • Identifica los valores faltantes y los valores atípicos

Puede identificar otros posibles problemas que pueden afectar al rendimiento del modelo. También evalúa el poder predictivo de cada característica en relación con la variable objetivo, lo que le permite identificar las características más relevantes para el problema que está intentando resolver.

Podemos utilizar la información del informe para predecir el importe de la tarifa. Al especificar la columna Importe de la tarifa como variable objetivo y seleccionar Regresión como tipo de problema, el informe analizará la idoneidad del conjunto de datos para predecir valores continuos, como los precios de las tarifas. El informe debería revelar que características como year y hour_of_day tienen un bajo poder predictivo para la variable objetivo elegida, lo que le proporcionará información valiosa.

Utilice el siguiente procedimiento para obtener un informe de información y calidad de los datos sobre una muestra de 50 000 filas del conjunto de datos.

Para obtener un informe sobre una muestra
  1. Seleccione Obtener información sobre los datos en la ventana emergente situada junto al nodo Tipos de datos.

  2. En Nombre del análisis, especifique un nombre para el informe.

  3. En Tipo de problema, elija Regresión.

  4. En la columna Objetivo, selecciona Importe de la tarifa.

  5. Seleccione Crear.

Puede revisar el informe de información y calidad de los datos sobre una muestra de sus datos. El informe indica que las funciones año y hora del día no predicen la variable objetivo, el importe de la tarifa.

En la parte superior de la barra de navegación, elija el nombre del flujo de datos para volver a él.

Indique el año y la hora del día

Estamos utilizando la información del informe para eliminar las columnas «año» y «hour_of_day» a fin de optimizar el espacio de funciones y, potencialmente, mejorar el rendimiento del modelo.

Amazon SageMaker Canvas proporciona una interfaz y herramientas fáciles de usar para realizar dichas transformaciones de datos.

Utilice el siguiente procedimiento para eliminar las columnas year y hour_of_day del conjunto de datos de NYC taxis mediante la herramienta Data Wrangler de Amazon Canvas. SageMaker

  1. Elija el icono situado junto a Tipos de datos.

  2. Seleccione Agregar paso.

  3. En la barra de búsqueda, escribe Drop column.

  4. Selecciona Administrar columnas.

  5. Selecciona Eliminar columna.

  6. Para eliminar las columnas, selecciona las columnas year y hour_of_day.

  7. Seleccione Vista previa para ver cómo la transformación cambia los datos.

  8. Elija Añadir.

Puede usar el procedimiento anterior como base para agregar todas las demás transformaciones en SageMaker Canvas.

Informe 2 sobre la calidad de los datos y los conocimientos (conjunto de datos completo)

Para el informe de información anterior, utilizamos una muestra del conjunto de datos sobre NYC taxis. Para nuestro segundo informe, estamos realizando un análisis exhaustivo de todo el conjunto de datos para identificar los posibles problemas que afectan al rendimiento del modelo.

Utilice el siguiente procedimiento para crear un informe de información y calidad de los datos sobre un conjunto de datos completo.

Para obtener un informe sobre todo el conjunto de datos
  1. Elija el icono situado junto al nodo Eliminar columnas.

  2. Elija Obtener información sobre los datos.

  3. En Nombre del análisis, especifique un nombre para el informe.

  4. En Tipo de problema, elija Regresión.

  5. En la columna Objetivo, selecciona Importe de la tarifa.

  6. En Tamaño de datos, selecciona Conjunto de datos completo.

  7. Seleccione Crear.

La siguiente es una imagen del informe de información:

Las filas duplicadas, el objetivo sesgado y la puntuación muy baja del modelo rápido aparecen en InsightSP

Muestra los siguientes problemas:

  • Filas duplicadas

  • Objetivo sesgado

Las filas duplicadas pueden provocar una fuga de datos, ya que el modelo queda expuesto a los mismos datos durante el entrenamiento y las pruebas. Pueden llevar a métricas de rendimiento demasiado optimistas. Al eliminar las filas duplicadas, se garantiza que el modelo se adapte a instancias únicas, lo que reduce el riesgo de fuga de datos y mejora la capacidad del modelo para generalizar.

Una distribución sesgada de las variables objetivo, en este caso, la columna del importe de la tarifa, puede provocar un desequilibrio en las clases, y el modelo podría inclinarse hacia la clase mayoritaria. Esto puede provocar un bajo rendimiento en las clases minoritarias, lo que resulta particularmente problemático en escenarios en los que es importante predecir con precisión los casos poco frecuentes o infrarrepresentados.

Cómo abordar los problemas de calidad de los datos

Para abordar estos problemas y preparar el conjunto de datos para el modelado, puede buscar las siguientes transformaciones y aplicarlas:

  1. Elimine los duplicados mediante la transformación Administrar filas.

  2. Controle los valores atípicos en la columna de importe de la tarifa utilizando los valores atípicos numéricos de desviación estándar robusta.

  3. Utilice los valores atípicos de las columnas Distancia y Duración del viaje utilizando los valores atípicos numéricos de desviación estándar.

  4. Usa la codificación categórica para codificar las columnas del identificador del código de tarifa, tipo de pago, indicador adicional e indicador de peaje como variables variables.

Si no estás seguro de cómo aplicar una transformación, consulta Indique el año y la hora del día

Al abordar estos problemas de calidad de los datos y aplicar las transformaciones adecuadas, puede mejorar la idoneidad del conjunto de datos para el modelado.

Verificar la calidad de los datos y la precisión rápida del modelo

Tras aplicar las transformaciones para abordar los problemas de calidad de los datos, como la eliminación de filas duplicadas, creamos nuestro informe final sobre la calidad y los conocimientos de los datos. Este informe ayuda a comprobar que las transformaciones aplicadas resolvieron los problemas y que el conjunto de datos se encuentra ahora en un estado adecuado para el modelado.

Al revisar el informe final sobre la calidad y los conocimientos de los datos, es de esperar que no se detecte ningún problema importante en la calidad de los datos. El informe debe indicar que:

  • La variable objetivo ya no está sesgada

  • No hay valores atípicos ni filas duplicadas

Además, el informe debe proporcionar una puntuación rápida del modelo basada en un modelo de referencia entrenado en el conjunto de datos transformado. Esta puntuación sirve como indicador inicial de la precisión y el rendimiento potenciales del modelo.

Utilice el siguiente procedimiento para crear el informe de información y calidad de los datos.

Para crear el informe de información y calidad de los datos
  1. Elija el icono situado junto al nodo Eliminar columnas.

  2. Elija Obtener información sobre los datos.

  3. En Nombre del análisis, especifique un nombre para el informe.

  4. En Tipo de problema, elija Regresión.

  5. En la columna Objetivo, selecciona Importe de la tarifa.

  6. En Tamaño de datos, selecciona Conjunto de datos completo.

  7. Seleccione Crear.

Divida los datos en conjuntos de entrenamiento y prueba

Para entrenar un modelo y evaluar su rendimiento, utilizamos la transformación de datos divididos para dividir los datos en conjuntos de entrenamiento y prueba.

De forma predeterminada, SageMaker Canvas usa una división aleatoria, pero también puede usar los siguientes tipos de divisiones:

  • Ordenado

  • Estratificado

  • Dividido por clave

Puede cambiar el porcentaje de división o añadir divisiones.

Para este tutorial, utilice todos los ajustes predeterminados de la división. Debe hacer doble clic en el conjunto de datos para ver su nombre. El conjunto de datos de entrenamiento tiene el nombre Dataset (Train).

Junto al nodo de codificación ordinal, aplique la transformación de datos divididos.

Modelo de tren

Tras dividir los datos, puede entrenar un modelo. Este modelo aprende de los patrones de los datos. Puede usarlo para hacer predicciones o descubrir información.

SageMaker Canvas tiene compilaciones rápidas y compilaciones estándar. Utilice una compilación estándar para entrenar el modelo que mejor funcione con sus datos.

Antes de empezar a entrenar un modelo, primero debe exportar el conjunto de datos de entrenamiento como un conjunto de datos de SageMaker Canvas.

Para exportar tu conjunto de datos
  1. Junto al nodo del conjunto de datos de entrenamiento, elige el icono y selecciona Exportar.

  2. Selecciona el conjunto de datos de SageMaker Canvas.

  3. Elija Exportar para exportar el conjunto de datos.

Después de crear un conjunto de datos, puede entrenar un modelo en el conjunto de datos de SageMaker Canvas que ha creado. Para obtener más información sobre el entrenamiento de un modelo, consulte Creación de un modelo de predicción numérica o categórica personalizado.

Evalúe el modelo y haga predicciones

Después de entrenar el modelo de aprendizaje automático, es fundamental evaluar su rendimiento para garantizar que cumpla con sus requisitos y funcione bien con datos invisibles. Amazon SageMaker Canvas proporciona una interfaz fácil de usar para evaluar la precisión del modelo, revisar sus predicciones y obtener información sobre sus puntos fuertes y débiles. Puede utilizar los conocimientos para tomar decisiones informadas sobre su implementación y las posibles áreas de mejora.

Utilice el siguiente procedimiento para evaluar un modelo antes de implementarlo.

Para evaluar un modelo
  1. Elija Mis modelos.

  2. Elige el modelo que has creado.

  3. En Versiones, selecciona la versión correspondiente al modelo.

Ahora puede ver las métricas de evaluación del modelo.

Después de evaluar el modelo, puede hacer predicciones a partir de nuevos datos. Estamos usando el conjunto de datos de prueba que hemos creado.

Para usar el conjunto de datos de prueba para las predicciones, necesitamos convertirlo en un conjunto de datos de SageMaker Canvas. El conjunto de datos de SageMaker Canvas está en un formato que el modelo puede interpretar.

Utilice el siguiente procedimiento para crear un conjunto de datos de SageMaker Canvas a partir del conjunto de datos de prueba.

Para crear un conjunto de datos de SageMaker Canvas
  1. Junto al conjunto de datos del conjunto de datos (prueba), elija el icono de radio.

  2. Selecciona Exportar.

  3. Seleccione el conjunto de datos de SageMaker Canvas.

  4. En Nombre del conjunto de datos, especifique un nombre para el conjunto de datos.

  5. Seleccione Exportar.

Utilice el siguiente procedimiento para realizar predicciones. Se supone que todavía estás en la página de análisis.

Para hacer predicciones en el conjunto de datos de prueba
  1. Elija Predecir.

  2. Elija Manual.

  3. Seleccione el conjunto de datos que ha exportado.

  4. Elige Generar predicciones.

  5. Cuando SageMaker Canvas haya terminado de generar predicciones, seleccione el icono situado a la derecha del conjunto de datos.

  6. Elija Vista previa para ver las predicciones.

Implementación de un modelo

Una vez evaluado el modelo, puede implementarlo en un punto final. Puede enviar solicitudes al punto final para obtener predicciones.

Utilice el siguiente procedimiento para implementar un modelo. Se supone que todavía se encuentra en la página de predicciones.

Para implementar un modelo
  1. Elija Implementar.

  2. Elija Crear implementación.

  3. Elija Implementar.

Limpieza

Ha completado correctamente el tutorial. Para evitar incurrir en cargos adicionales, elimina los recursos que no estés utilizando.

Utilice el siguiente procedimiento para eliminar el punto final que creó. Se supone que todavía se encuentra en la página de implementación.

Para eliminar un punto de conexión
  1. Seleccione el botón de radio situado a la derecha de la implementación.

  2. Seleccione Eliminar despliegue.

  3. Elija Eliminar.

Después de eliminar la implementación, elimine los conjuntos de datos que creó en SageMaker Canvas. Utilice el siguiente procedimiento para eliminar los conjuntos de datos.

Para eliminar los conjuntos de datos
  1. Elija Conjuntos de datos en el menú de navegación de la izquierda.

  2. Seleccione el conjunto de datos que ha analizado y el conjunto de datos sintético utilizado para las predicciones.

  3. Elija Eliminar.

Para evitar incurrir en cargos adicionales, debe cerrar sesión en SageMaker Canvas. Para obtener más información, consulte Cerrar sesión en Amazon SageMaker Canvas.