Uso de un comando COPY para cargar datos - Amazon Redshift

Uso de un comando COPY para cargar datos

El comando COPY utiliza la arquitectura de procesamiento masivo en paralelo (MPP) de Amazon Redshift para leer y cargar datos en paralelo desde archivos de Amazon S3, desde una tabla de DynamoDB o desde un texto de salida de uno o más alojamientos remotos.

Antes de obtener información sobre todas las opciones del comando COPY, le recomendamos que obtenga información sobre las opciones básicas para cargar datos de Amazon S3. La Guía de introducción de Amazon Redshift muestra un uso sencillo del comando COPY para cargar datos de Amazon S3 mediante un rol de IAM predeterminado. Consulte Paso 4: Carga de datos desde Amazon S3 a Amazon Redshift para obtener más información.

nota

Le recomendamos encarecidamente que use el comando COPY para cargar grandes cantidades de datos. El uso de instrucciones INSERT individuales para completar una tabla podría ser prohibitivamente lento. O bien, si los datos ya existen en otras tablas de la base de datos de Amazon Redshift, puede utilizar INSERT INTO… SELECT o CREATE TABLE AS para mejorar el rendimiento. Para obtener información, consulte INSERT o CREATE TABLE AS.

Para cargar datos desde otro recurso de AWS, Amazon Redshift debe tener permiso para acceder al recurso y realizar las acciones necesarias.

Para otorgar o revocar el privilegio de carga de datos en una tabla mediante una instrucción COPY, otorgue o revoque el privilegio INSERT.

Los datos deben tener el formato correcto para cargase en la tabla de Amazon Redshift. En esta sección, se presentan las directrices para preparar y controlar sus datos antes de la carga y para validar una instrucción COPY antes de ejecutarla.

Para proteger la información en los archivos, puede cifrar los archivos de datos antes de cargarlos al bucket de Amazon S3; COPY descifrará los datos a medida que realice la carga. También puede otorgarles a los usuarios credenciales de seguridad temporales para limitar su acceso a los datos cargados. Las credenciales de seguridad temporales proporcionan mayor seguridad debido a su breve vigencia y al hecho de que no se pueden reutilizar cuando vencen.

Amazon Redshift tiene características integradas en COPY para cargar datos delimitados y sin comprimir de forma rápida. No obstante, puede comprimir sus archivos utilizando los formatos gzip, lzop o bzip2 para ahorrar tiempo cuando cargue los archivos.

No se admitirá la división automática de datos sin comprimir si las siguientes palabras clave aparecen en la consulta COPY: ESCAPE, REMOVEQUOTES y FIXEDWIDTH. Pero sí se admite la palabra clave CSV.

Para ayudar a mantener la protección de los datos en tránsito en la nube de AWS, Amazon Redshift utiliza la tecnología SSL con aceleración por hardware para comunicarse con Amazon S3 o Amazon DynamoDB en las operaciones de COPY, UNLOAD, copia de seguridad y restauración.

Si carga una tabla directamente desde una tabla de Amazon DynamoDB, puede optar por controlar la cantidad de rendimiento aprovisionado por Amazon DynamoDB que se va a consumir.

De forma alternativa, puede permitirle a COPY que analice los datos de entrada y aplique las codificaciones de compresión óptimas a su tabla de manera automática, como parte del proceso de carga.