Tutorial: Carga de datos desde Amazon S3 - Amazon Redshift

Tutorial: Carga de datos desde Amazon S3

En este tutorial, siga el proceso de creación de datos en las tablas de bases de datos de Amazon Redshift desde archivos de datos en un bucket de Amazon S3 de principio a fin.

En este tutorial, aprenderá a hacer lo siguiente:

  • Descargar archivos de datos que utilicen formatos de ancho fijo, con caracteres delimitados y de valores separados por comas (CSV).

  • crear un bucket de Amazon S3 y, luego, cargar los archivos de datos en él

  • lanzar un clúster de Amazon Redshift y crear tablas de base de datos

  • usar los comandos COPY para cargar las tablas desde los archivos de datos en Amazon S3

  • Solucionar errores de carga y modificar los comandos COPY para corregir los errores.

Tiempo estimado: 60 minutos

Costo estimado: 1,00 USD por hora del clúster

Requisitos previos

Necesita los siguientes requisitos previos:

  • Una cuenta de AWS para lanzar un clúster de Amazon Redshift y crear un bucket en Amazon S3.

  • Sus credenciales de AWS (rol de IAM) para cargar datos de prueba de Amazon S3. Si necesita un nuevo rol de IAM, diríjase a Creación de roles de IAM.

  • Un cliente SQL como el editor de consultas de la consola de Amazon Redshift.

Este tutorial está diseñado para que pueda realizarlo por sí mismo. Además de este tutorial, recomendamos completar los siguientes tutoriales para obtener un conocimiento más completo sobre cómo diseñar y utilizar las bases de datos de Amazon Redshift:

Información general

Puede agregar datos a las tablas de Amazon Redshift mediante el uso de un comando INSERT o uno COPY. En la escala y la velocidad de un almacenamiento de datos de Amazon Redshift, el comando COPY es muchas veces más rápido y eficiente que los comandos INSERT.

El comando COPY utiliza la arquitectura de procesamiento masivo en paralelo (MPP) de Amazon Redshift para leer y cargar datos en paralelo desde varios orígenes de datos. Puede cargar datos desde archivos de datos en Amazon S3, Amazon EMR o cualquier alojamiento remoto que sea accesible a través de una conexión Secure Shell (SSH). También puede cargarlos directamente desde una tabla de Amazon DynamoDB.

En este tutorial, se utiliza el comando COPY para cargar datos desde Amazon S3. Muchos de los principios presentados aquí también aplican para la carga desde otros orígenes de datos.

Para obtener más información acerca del uso del comando COPY, consulte los siguientes recursos:

Pasos