Carga de datos de archivos que se pueden dividir Carga de datos de archivos que no se pueden dividir

Dividir los datos de carga

Los archivos de origen de datos vienen en diferentes formatos y utilizan distintos algoritmos de compresión. Al cargar datos con el comando COPY, Amazon Redshift carga todos los archivos a los que hace referencia el prefijo del bucket de Amazon S3. (El prefijo es una cadena de caracteres al principio del nombre de la clave de objeto). Si el prefijo hace referencia a varios archivos o archivos que se pueden dividir, Amazon Redshift carga los datos en paralelo, aprovechando la arquitectura MPP de Amazon Redshift. Esto divide la carga de trabajo entre los nodos del clúster. En contraste, cuando carga los datos desde un archivo que no se puede dividir, Amazon Redshift se ve obligado a realizar una carga serializada, que es mucho más lenta. En las siguientes secciones se describe la forma recomendada de cargar diferentes tipos de archivos en Amazon Redshift, en función del formato y la compresión.

Carga de datos de archivos que se pueden dividir

Los siguientes archivos se pueden dividir automáticamente cuando se cargan los datos:

un archivo CSV sin comprimir
un archivo en columnas (Parquet/ORC)

Amazon Redshift divide automáticamente los archivos de 128 MB o más en fragmentos. Los archivos en columnas, específicamente Parquet y ORC, no se dividen si tienen menos de 128 MB. Redshift utiliza segmentos que funcionan en paralelo para cargar los datos. Esto proporciona un rendimiento de carga rápido.

Carga de datos de archivos que no se pueden dividir

Los tipos de archivos como JSON o CSV, cuando se comprimen con otros algoritmos de compresión, como GZIP, no se dividen automáticamente. Para estos, le recomendamos que los divida manualmente en varios archivos más pequeños que tengan aproximadamente el mismo tamaño, de 1 MB a 1 GB después de la compresión. Además, la cantidad de archivos debe ser múltiplo de la cantidad de secciones en el clúster. Para obtener más información acerca de cómo dividir los datos en archivos múltiples y ejemplos de carga de datos con COPY, consulte Carga de datos desde Amazon S3.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso de un único comando COPY

Compresión de los archivos de datos