Divida los datos de carga - Amazon Redshift

Divida los datos de carga

Cuando carga datos comprimidos, con el comando COPY desde varios archivos, los datos se cargan en paralelo. Esto divide la carga de trabajo entre los nodos del clúster. Cuando carga todos los datos desde un único archivo comprimido grande, Amazon Redshift se ve obligado a realizar una carga serializada, que es mucho más lenta.

Por el contrario, cuando carga datos delimitados desde un archivo grande sin comprimir, Amazon Redshift utiliza varios sectores. Estos sectores funcionan en paralelo, de forma automática. Esto proporciona un rendimiento de carga rápido. Específicamente, cuando Amazon Redshift carga datos sin comprimir y delimitados, los datos se dividen en rangos y se manejan mediante sectores en cada nodo.

Si desea cargar datos desde un archivo comprimido grande, le recomendamos que los divida en archivos más pequeños que tengan aproximadamente el mismo tamaño, de 1 MB a 1 GB después de la compresión. Para disfrutar de un paralelismo óptimo, el tamaño de archivo ideal está comprendido entre 1 MB y 125 MB después de la compresión. La cantidad de archivos debe ser múltiplo de la cantidad de secciones en su clúster. Para obtener más información acerca de cómo dividir los datos en archivos y ejemplos de uso del comando COPY para cargar datos, consulte Carga de datos desde Amazon S3.