Configuración Creación de flujos Informe de información y calidad de datos 1 (ejemplo)Indique el año y la hora del día Informe de información y calidad de los datos 2 (conjunto de datos completo)Solución de problemas de calidad de los datos Verificación de la calidad de los datos y la exactitud del modelo rápido División de los datos en conjuntos de entrenamiento y prueba.Entrenamiento del modelo Evaluación del modelo y predicciones Implementación de un modelo Limpieza

Tutorial: Cree un flujo de trabajo end-to-end de aprendizaje automático en Canvas SageMaker

Este tutorial le guía a través de un flujo de trabajo de aprendizaje end-to-end automático (ML) con Amazon SageMaker Canvas. SageMaker Canvas es una interfaz visual sin código que puede usar para preparar datos y entrenar e implementar modelos de aprendizaje automático. En el tutorial se utiliza un conjunto de datos de taxis de Nueva York para entrenar un modelo que prediga el importe de un recorrido determinado. Obtendrá experiencia práctica en tareas clave del aprendizaje automático, como evaluar la calidad de los datos y abordar los problemas relacionados con los datos, dividir los datos en conjuntos de entrenamiento y prueba, entrenar y evaluar modelos, hacer predicciones e implementar su modelo entrenado, todo ello desde la aplicación Canvas. SageMaker

importante

En este tutorial se supone que usted o su administrador han creado una cuenta. AWS Para obtener información sobre cómo crear una AWS cuenta, consulte Primeros pasos: ¿es la primera vez que lo AWS usa?

Configuración

Un dominio de Amazon SageMaker AI es un lugar centralizado para gestionar todos los entornos y recursos de Amazon SageMaker AI. Un dominio actúa como un límite virtual para su trabajo en el ámbito de la SageMaker IA, ya que proporciona aislamiento y control de acceso a sus recursos de aprendizaje automático (ML).

Para empezar a utilizar Amazon SageMaker Canvas, usted o su administrador deben ir a la consola de SageMaker IA y crear un dominio de Amazon SageMaker AI. Un dominio tiene los recursos de almacenamiento y computación necesarios para ejecutar SageMaker Canvas. Dentro del dominio, puede configurar SageMaker Canvas para acceder a sus buckets de Amazon S3 e implementar modelos. Utilice el siguiente procedimiento para configurar un dominio rápido y crear una aplicación de SageMaker Canvas.

Para configurar SageMaker Canvas

Navegue hasta la consola de SageMaker IA.
En la barra de navegación de la izquierda, selecciona SageMaker Canvas.
Elige Crear un dominio de SageMaker IA.
Elija Set up (Configurar). El dominio puede tardar unos minutos en configurarse.

En el procedimiento anterior se ha utilizado una configuración rápida del dominio. Puede realizar una configuración avanzada para controlar todos los aspectos de la configuración de la cuenta, incluidos permisos, integraciones y cifrado. Para obtener más información sobre una configuración personalizada, consulte Usa una configuración personalizada para Amazon SageMaker AI.

De forma predeterminada, la configuración rápida del dominio proporciona permisos para implementar modelos. Si tiene permisos personalizados configurados a través de un dominio estándar y necesita conceder manualmente permisos de implementación del modelo, consulte Administración de permisos.

Creación de flujos

Amazon SageMaker Canvas es una plataforma de aprendizaje automático que permite a los usuarios crear, entrenar e implementar modelos de aprendizaje automático sin necesidad de una amplia experiencia en programación o aprendizaje automático. Una de las potentes funciones de Amazon SageMaker Canvas es la capacidad de importar y trabajar con conjuntos de datos de gran tamaño de diversas fuentes, como Amazon S3.

En este tutorial, utilizamos el conjunto de datos de taxis de Nueva York para predecir el importe de la tarifa de cada viaje mediante un flujo de datos de Amazon SageMaker Canvas Data Wrangler. El siguiente procedimiento describe los pasos para importar una versión modificada del conjunto de datos de taxis de Nueva York a un flujo de datos.

nota

Para mejorar el procesamiento, SageMaker Canvas importa una muestra de sus datos. De forma predeterminada, toma muestras aleatorias de 50 000 filas.

Importación del conjunto de datos de taxis de Nueva York

En la página de inicio de SageMaker Canvas, elige Data Wrangler.
Elija Importar datos.
Seleccione Tabular.
Elija la caja de herramientas situada junto al origen de datos.
Seleccione Amazon S3 en el menú desplegable.
Para Punto de conexión S3 de entrada, especifique s3://amazon-sagemaker-data-wrangler-documentation-artifacts/canvas-single-file-nyc-taxi-dataset.csv
Elija Ir.
Seleccione la casilla de verificación junto al conjunto de datos.
Elija Vista previa de datos.
Seleccione Save.

Informe de información y calidad de datos 1 (ejemplo)

Tras importar un conjunto de datos a Amazon SageMaker Canvas, puede generar un informe de información y calidad de los datos a partir de una muestra de los datos. Utilícelo para proporcionar información valiosa sobre el conjunto de datos. El informe hace lo siguiente:

Evalúa la integridad del conjunto de datos
Identifica los valores omitidos y atípicos

Puede identificar otros posibles problemas que pueden afectar al rendimiento del modelo. También evalúa el poder predictivo de cada característica en relación con la variable objetivo, lo que le permite identificar las características más relevantes para el problema que está intentando resolver.

Podemos utilizar la información del informe para predecir el importe del recorrido. Si especifica la columna Importe del recorrido como variable objetivo y selecciona Regresión como tipo de problema, el informe analizará la idoneidad del conjunto de datos para predecir valores continuos, como precios de recorridos. El informe debería revelar que características como year y hour_of_day tienen un bajo poder predictivo para la variable objetivo elegida, lo que le proporcionará información valiosa.

Siga este procedimiento para obtener un informe de información y calidad de los datos sobre una muestra de 50 000 filas del conjunto de datos.

Obtención de un informe sobre una muestra

Seleccione Obtener información sobre los datos en la ventana emergente situada junto al nodo Tipos de datos.
En Nombre del análisis, especifique un nombre para el informe.
En Tipo de problema, seleccione Regresión.
En Columna de destino, seleccione Importe del recorrido.
Seleccione Crear.

Puede revisar el informe de información y calidad de los datos sobre una muestra de sus datos. El informe indica que las características year y hour_of_day no predicen la variable objetivo, Importe del recorrido.

En la parte superior de la navegación, elija el nombre del flujo de datos para volver a él.

Indique el año y la hora del día

Estamos utilizando información del informe para quitar las columnas year y hour_of_day a fin de optimizar el espacio de características y, potencialmente, mejorar el rendimiento del modelo.

Amazon SageMaker Canvas proporciona una interfaz y herramientas fáciles de usar para realizar dichas transformaciones de datos.

Utilice el siguiente procedimiento para eliminar las columnas year y hour_of_day del conjunto de datos de taxis de Nueva York mediante la herramienta Data Wrangler de Amazon Canvas. SageMaker

Elija el icono situado junto a Tipos de datos.
Seleccione Agregar paso.
En la barra de búsqueda, escriba Quitar columna.
Seleccione Administrar columnas.
Seleccione Quitar columna.
En Columnas a quitar, seleccione las columnas year y hour_of_day.
Seleccione Vista previa para ver cómo cambia los datos la transformación.
Elija Agregar.

Puede usar el procedimiento anterior como base para agregar todas las demás transformaciones en Canvas. SageMaker

Informe de información y calidad de los datos 2 (conjunto de datos completo)

Para el informe de información anterior hemos utilizado una muestra del conjunto de datos de taxis de Nueva York. Para el segundo informe realizamos un análisis exhaustivo de todo el conjunto de datos para identificar los posibles problemas que afectan al rendimiento del modelo.

Siga este procedimiento para crear un informe de información y calidad de los datos sobre un conjunto de datos completo.

Obtención de un informe sobre todo el conjunto de datos

Elija el icono situado junto al nodo Quitar columnas.
Elija Obtener información sobre los datos.
En Nombre del análisis, especifique un nombre para el informe.
En Tipo de problema, seleccione Regresión.
En Columna de destino, seleccione Importe del recorrido.
En Tamaño de datos, seleccione Conjunto de datos completo.
Seleccione Crear.

Esta es una imagen del informe de información:

Filas duplicadas, objetivo sesgado y puntuación muy baja del modelo rápido aparecen como insightsP

Se muestran los problemas siguientes:

Filas duplicadas
Objetivo sesgado

Las filas duplicadas pueden provocar fuga de datos, ya que el modelo queda expuesto a los mismos datos durante el entrenamiento y las pruebas. Pueden producir métricas de rendimiento demasiado optimistas. Al eliminar filas duplicadas, se garantiza que el modelo se entrene con instancias únicas, lo que reduce el riesgo de fuga de datos y mejora la capacidad del modelo para generalizar.

Una distribución sesgada de las variables objetivo, en este caso, la columna del Importe del recorrido, puede dar lugar a clases desequilibradas, y el modelo podría sesgarse hacia la clase mayoritaria. Esto puede provocar un bajo rendimiento en las clases minoritarias, lo que resulta particularmente problemático en escenarios en los que es importante predecir con precisión instancias poco frecuentes o infrarrepresentados.

Solución de problemas de calidad de los datos

Para abordar estos problemas y preparar el conjunto de datos para el modelado, puede buscar las siguientes transformaciones y aplicarlas:

Quite los duplicados mediante la transformación Administrar filas.
Controle los valores atípicos en la columna Importe del recorrido utilizando los Valores atípicos numéricos de desviación estándar robusta.
Gestione valores atípicos en las columnas Distancia del recorrido y Duración del recorrido utilizando los Valores atípicos numéricos de desviación estándar.
Use la Codificación categórica para codificar las columnas Id. de código de importe, Tipo de pago, Indicador adicional e Indicador de peaje como flotantes.

Si no está seguro de cómo aplicar una transformación, consulte Indique el año y la hora del día.

Al abordar estos problemas de calidad de los datos y aplicar las transformaciones adecuadas, puede mejorar la idoneidad del conjunto de datos para modelado.

Verificación de la calidad de los datos y la exactitud del modelo rápido

Tras aplicar las transformaciones para abordar problemas de calidad de los datos, como eliminación de filas duplicadas, creamos nuestro informe final de información y calidad de los datos. Este informe ayuda a comprobar que las transformaciones aplicadas han resuelto los problemas y que el conjunto de datos se encuentra ahora en un estado adecuado para el modelado.

Al revisar el informe final de información y calidad de los datos es de esperar que no se detecte ningún problema importante en la calidad de los datos. El informe debería indicar que:

La variable objetivo ya no está sesgada
No hay valores atípicos ni filas duplicadas

Además, el informe debe proporcionar una puntuación del modelo rápido basada en un modelo entrenado de referencia en el conjunto de datos transformado. Esta puntuación sirve de indicador inicial de la exactitud y el rendimiento potenciales del modelo.

Siga este procedimiento para crear el informe de información y calidad de los datos.

Creación del informe de información y calidad de los datos

Elija el icono situado junto al nodo Quitar columnas.
Elija Obtener información sobre los datos.
En Nombre del análisis, especifique un nombre para el informe.
En Tipo de problema, seleccione Regresión.
En Columna de destino, seleccione Importe del recorrido.
En Tamaño de datos, seleccione Conjunto de datos completo.
Seleccione Crear.

División de los datos en conjuntos de entrenamiento y prueba.

Para entrenar un modelo y evaluar su rendimiento, utilizamos la transformación de Dividir datos para dividir los datos en conjuntos de entrenamiento y prueba.

De forma predeterminada, SageMaker Canvas usa una división aleatoria, pero también puede usar los siguientes tipos de divisiones:

Ordenada
Estratificada
División por clave

Puede cambiar el Porcentaje de división o añadir divisiones.

En este tutorial, utilice la configuración predeterminada en la división. Debe hacer doble clic en el conjunto de datos para ver su nombre. El conjunto de datos de entrenamiento tiene el nombre Conjunto de datos (entrenamiento).

Junto al nodo de Codificación ordinal, aplique la transformación Dividir datos.

Entrenamiento del modelo

Después de dividir los datos, puede entrenar un modelo. Este modelo aprende de los patrones de los datos. Puede usarlo para hacer predicciones o descubrir información.

SageMaker Canvas tiene compilaciones rápidas y compilaciones estándar. Utilice una compilación estándar para entrenar el modelo con mejor rendimiento sobre los datos.

Antes de empezar a entrenar un modelo, primero debe exportar el conjunto de datos de entrenamiento como un conjunto de datos de SageMaker Canvas.

Importación del conjuntos de datos

Junto al nodo del conjunto de datos de entrenamiento, elija el icono y seleccione Exportar.
Seleccione el conjunto de datos de SageMaker Canvas.
Elija Exportar para exportar el conjunto de datos.

Después de crear un conjunto de datos, puede entrenar un modelo en el conjunto de datos de SageMaker Canvas que ha creado. Para obtener más información sobre el entrenamiento de un modelo, consulte Creación de un modelo de predicción numérica o categórica personalizado.

Evaluación del modelo y predicciones

Después de entrenar el modelo de machine learning, es fundamental evaluar su rendimiento para garantizar que cumpla sus requisitos y funcione bien con datos no vistos. Amazon SageMaker Canvas proporciona una interfaz fácil de usar para evaluar la precisión del modelo, revisar sus predicciones y obtener información sobre sus puntos fuertes y débiles. Puede utilizar la información obtenida para tomar decisiones informadas sobre su implementación y las posibles áreas de mejora.

Siga este procedimiento para evaluar un modelo antes de implementarlo.

Para evaluar un modelo

Seleccione Mis modelos.
Elija el modelo que ha creado.
En Versiones, seleccione la versión correspondiente al modelo.

Ahora puede ver las métricas de evaluación del modelo.

Después de crear el modelo, puede hacer predicciones a partir de nuevos datos. Estamos usando el conjunto de datos de prueba que hemos creado.

Para usar el conjunto de datos de prueba para las predicciones, debemos convertirlo en un conjunto de datos de SageMaker Canvas. El conjunto de datos de SageMaker Canvas está en un formato que el modelo puede interpretar.

Utilice el siguiente procedimiento para crear un conjunto de datos de SageMaker Canvas a partir del conjunto de datos de prueba.

Para crear un conjunto de datos de SageMaker Canvas

Junto al Conjunto de datos (prueba), elija el icono de radio.
Seleccione Exportar.
Seleccione el conjunto de datos de SageMaker Canvas.
En Nombre del conjunto de datos, especifique el nombre del conjunto de datos.
Seleccione Exportar.

Siga este procedimiento para hacer predicciones. Se da por sentado que todavía se encuentra en la página Analizar.

Predicciones sobre el conjunto de datos de prueba

Elija Predecir.
Elija Manual.
Seleccione el conjunto de datos que ha exportado.
Elija Generar predicciones.
Cuando SageMaker Canvas haya terminado de generar predicciones, selecciona el icono situado a la derecha del conjunto de datos.
Seleccione Vista previa para ver las predicciones.

Implementación de un modelo

Una vez evaluado el modelo, puede implementarlo en un punto de conexión. Puede enviar solicitudes al punto de conexión para obtener predicciones.

Siga este procedimiento para implementar un modelo. Se da por sentado que todavía se encuentra en la página Predecir.

Implementación de un modelo

Elija Implementar.
Elija Crear implementación.
Elija Implementar.

Limpieza

Ha completado correctamente el tutorial. Para evitar incurrir en cargos adicionales, elimine los recursos que ya no utilice.

Utilice el procedimiento siguiente para eliminar el punto de conexión que ha creado. Se da por sentado que todavía se encuentra en la página Implementar.

Para eliminar un punto de conexión

Seleccione el botón de opción situado a la derecha de la implementación.
Seleccione Eliminar implementación.
Elija Eliminar.

Después de eliminar la implementación, elimine los conjuntos de datos que creó en SageMaker Canvas. Siga este procedimiento para eliminar los conjuntos de datos.

Eliminación de los conjuntos de datos

En el panel de navegación izquierdo, elija Conjuntos de datos.
Seleccione el conjunto de datos que ha analizado y el conjunto de datos sintético utilizado para predicciones.
Elija Eliminar.

Para evitar incurrir en cargos adicionales, debe cerrar sesión en Canvas. SageMaker Para obtener más información, consulte Cerrar sesión en Amazon SageMaker Canvas.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Introducción

Administración de permisos y configuración de Amazon SageMaker Canvas (para administradores de TI)