Prepare datos de aprendizaje automático con Amazon SageMaker Data Wrangler - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prepare datos de aprendizaje automático con Amazon SageMaker Data Wrangler

importante

Amazon SageMaker Data Wrangler se ha integrado en Amazon SageMaker Canvas. Con la nueva experiencia Data Wrangler en SageMaker Canvas, además de la interfaz visual, puede utilizar una interfaz de lenguaje natural para explorar y transformar sus datos. Para obtener más información sobre Data Wrangler en SageMaker Canvas, consulte. Preparación de los datos

Amazon SageMaker Data Wrangler (Data Wrangler) es una función de Amazon SageMaker Studio Classic que proporciona una end-to-end solución para importar, preparar, transformar, caracterizar y analizar datos. Puede integrar un flujo de preparación de datos de Data Wrangler en sus flujos de trabajo de machine learning (ML) a fin de simplificar y agilizar el preprocesamiento de datos y la ingeniería de características sin apenas codificación. También puede añadir sus propios scripts y transformaciones de Python para personalizar flujos de trabajo.

Data Wrangler proporciona las siguientes funcionalidades principales para ayudarle a analizar y preparar los datos para las aplicaciones de machine learning.

  • Importación: conéctese a datos desde Amazon Simple Storage Service (Amazon S3), Amazon Athena (Athena), Amazon Redshift, Snowflake y Databricks, e importe datos desde estos.

  • Flujo de datos: cree un flujo de datos para definir una serie de pasos de preparación de datos para el ML. Puede usar un flujo para combinar conjuntos de datos de diferentes orígenes, identificar el número y los tipos de transformaciones que desea aplicar a los conjuntos de datos y definir un flujo de trabajo de preparación de datos que se pueda integrar en una canalización de ML.

  • Transformación: limpie y transforme su conjunto de datos mediante transformaciones estándar, como herramientas de formato para datos numéricos, vectoriales y de cadenas. Aporte características para sus datos mediante transformaciones, como la incrustación de texto y fecha/hora y la codificación categórica.

  • Generación de información sobre los datos: verifique automáticamente la calidad de los datos y detecte anomalías en estos con Data Wrangler Data Insights y Quality Report.

  • Análisis: analice las características de su conjunto de datos en cualquier punto del flujo. Data Wrangler incluye herramientas integradas de visualización de datos, como diagramas de dispersión e histogramas; también dispone de herramientas para el análisis de datos, como el análisis de fuga de objetivos y el modelado rápido para comprender la correlación de características.

  • Exportación: exporte su flujo de trabajo de preparación de datos a una ubicación distinta. A continuación, se muestran algunos ejemplos de ubicaciones.

    • Bucket de Amazon Simple Storage Service (Amazon S3)

    • Amazon SageMaker Model Building Pipelines: utilice SageMaker Pipelines para automatizar la implementación de modelos. Puede exportar los datos que ha transformado directamente en las canalizaciones.

    • Amazon SageMaker Feature Store: almacene las funciones y sus datos en una tienda centralizada.

    • Script de Python. Almacene los datos y sus transformaciones en un script de Python para sus flujos de trabajo personalizados.

Para empezar a utilizar Data Wrangler, consulte Introducción a Data Wrangler.

importante

Data Wrangler ya no es compatible con la versión 1 de Jupyter Lab (JL1). Para acceder a las últimas características y mejoras, actualice a la versión 3 de Jupyter Lab. Para obtener más información acerca de la actualización, consulte Vea y actualice la JupyterLab versión de una aplicación desde la consola.

importante

La información y los procedimientos de esta guía utilizan la versión más reciente de Amazon SageMaker Studio Classic. Para obtener información sobre cómo actualizar Studio Classic a la versión más reciente, consulteDescripción general de la interfaz de usuario clásica de Amazon SageMaker Studio.

Debe utilizar la versión 1.3.0 o posterior de Studio Classic. Utilice el siguiente procedimiento para abrir Amazon SageMaker Studio Classic y ver qué versión está ejecutando.

Para abrir Studio Classic y comprobar su versión, consulte el siguiente procedimiento.

  1. Sigue los pasos que se indican Requisitos previos a continuación para acceder a Data Wrangler a través de Amazon SageMaker Studio Classic.

  2. Junto al usuario que quieres usar para iniciar Studio Classic, selecciona Iniciar aplicación.

  3. Elija Studio.

  4. Cuando se cargue Studio Classic, selecciona Archivo, Nuevo y, por último, Terminal.

  5. Una vez que haya iniciado Studio Classic, seleccione Archivo, Nuevo y, por último, Terminal.

  6. Introduzca cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@" para imprimir la versión de su instancia de Studio Classic. Debe tener la versión 1.3.0 de Studio Classic para usar Snowflake.

Puede actualizar Amazon SageMaker Studio Classic desdeAWS Management Console. Para obtener más información sobre la actualización de Studio Classic, consulteDescripción general de la interfaz de usuario clásica de Amazon SageMaker Studio.