Cree un flujo de datos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cree un flujo de datos

Utilice un flujo de Data Wrangler en SageMaker Canvas, o flujo de datos, para crear y modificar una canalización de preparación de datos. Le recomendamos que utilice Data Wrangler para conjuntos de datos de más de 5 GB.

Para empezar, utilice el siguiente procedimiento para importar sus datos a un flujo de datos.

  1. Abre SageMaker Canvas.

  2. En la barra de navegación de la izquierda, selecciona Data Wrangler.

  3. Selecciona Importar y preparar.

  4. En el menú desplegable, selecciona Tabular o Imagen.

  5. En Seleccione una fuente de datos, elija su fuente de datos y seleccione los datos que desee importar. Tiene la opción de seleccionar hasta 30 archivos o una carpeta. Si ya ha importado un conjunto de datos a Canvas, elija el conjunto de datos de Canvas como fuente. De lo contrario, conéctese a una fuente de datos como Amazon S3 o Snowflake y explore sus datos. Para obtener información sobre cómo conectarse a una fuente de datos o importar datos, consulte las páginas siguientes:

  6. Tras seleccionar los datos que desea importar, elija Siguiente.

  7. (Opcional) En la sección Configuración de importación al importar un conjunto de datos tabular, expanda el menú desplegable Avanzado. Puede especificar los siguientes ajustes avanzados para las importaciones de flujos de datos:

    • Método de muestreo: seleccione el método de muestreo y el tamaño de la muestra que desee utilizar. Para obtener más información sobre cómo cambiar la muestra, consulte la secciónEdite la configuración de muestreo del flujo de datos.

    • Codificación de archivos (CSV): selecciona la codificación del archivo de conjunto de datos. UTF-8es la predeterminada.

    • Omitir las primeras filas: introduce el número de filas que deseas omitir la importación si tienes filas redundantes al principio del conjunto de datos.

    • Delimitador: selecciona el delimitador que separa cada elemento de los datos. También puede especificar un delimitador personalizado.

    • Detección multilínea: seleccione esta opción si desea que Canvas analice manualmente todo el conjunto de datos en busca de celdas multilínea. Canvas determina si usar o no el soporte multilínea tomando una muestra de sus datos, pero es posible que Canvas no detecte ninguna celda multilínea en la muestra. En este caso, le recomendamos que seleccione la opción de detección multilínea para obligar a Canvas a comprobar si hay celdas multilínea en todo el conjunto de datos.

  8. Seleccione Importar.

Ahora debería tener un nuevo flujo de datos y puede empezar a añadir pasos de transformación y análisis.