Consulta del lago de datos - Amazon Redshift

Consulta del lago de datos

Puede utilizar Amazon Redshift Spectrum para consultar datos en archivos de Amazon S3 sin tener que cargar los datos en tablas de Amazon Redshift. Amazon Redshift proporciona la capacidad SQL diseñada para un procesamiento de análisis en línea (OLAP) rápido de conjuntos de datos muy grandes que se almacenan tanto en clústeres de Amazon Redshift como en lagos de datos de Amazon S3. Puede consultar datos en muchos formatos, incluidos Parquet, ORC, RCFile, TextFile, SequenceFile, RegexSerde, OpenCSV y AVRO. Puede crear esquemas y tablas externos para definir la estructura de los archivos en Amazon S3. A continuación, utiliza un catálogo de datos externo como AWS Glue o su propio metastore de Apache Hive. Los cambios en cualquier tipo de catálogo de datos están disponibles de inmediato en todos sus clústeres de Amazon Redshift.

Después de registrar sus datos con un catálogo de datos de AWS Glue y habilitarlo conAWS Lake Formation, puede consultarlos mediante Redshift Spectrum.

Redshift Spectrum reside en servidores de Amazon Redshift dedicados que no dependen del clúster. Redshift Spectrum inserta muchas tareas que requieren un uso intensivo de cómputo, como el filtrado y la agrupación de predicados, a la capa de Redshift Spectrum. Redshift Spectrum también escala de forma inteligente para aprovechar el procesamiento masivo en paralelo.

Puede particionar las tablas externas en una o más columnas para optimizar el rendimiento de las consultas a través de la eliminación de particiones. Puede consultar y unir las tablas externas con las tablas de Amazon Redshift. Puede acceder a tablas externas desde varios clústeres de Amazon Redshift y consultar los datos de Amazon S3 desde cualquier clúster de la misma región de AWS. Cuando actualiza los archivos de datos de Amazon S3, los datos están disponibles de inmediato para consultarlos desde cualquiera de los clústeres de Amazon Redshift.

Para obtener más información acerca de Redshift Spectrum, incluido cómo trabajar con Redshift Spectrum y lagos de datos, consulte Introducción a Amazon Redshift Spectrum en la Guía para desarrolladores de bases de datos Amazon Redshift.