Consultar um data lake - Amazon Redshift

Consultar um data lake

É possível usar o Amazon Redshift Spectrum para consultar dados em arquivos do Amazon S3 sem ter que carregar os dados nas tabelas do Amazon Redshift. O Amazon Redshift oferece um recurso SQL projetado para processamento analítico online (OLAP) rápido de conjuntos de dados muito grandes que são armazenados em clusters do Amazon Redshift e data lakes do Amazon S3. Você pode consultar dados em vários formatos, incluindo Parquet, ORC, RCFile, TextFile, SequenceFile, RegexSerde, OpenCSV, e AVRO. Para definir a estrutura dos arquivos no Amazon S3, crie esquemas e tabelas externos. Em seguida, você usa um catálogo de dados externo, como AWS Glue ou seu próprio metastore do Apache Hive. As alterações feitas em qualquer tipo de catálogo de dados são disponibilizadas instantaneamente para qualquer um de seus clusters do Amazon Redshift.

Depois que seus dados são registrados com um catálogo de dados do AWS Glue e habilitado com AWS Lake Formation, você pode consultá-la usando o Redshift Spectrum.

O Redshift Spectrum reside em servidores dedicados do Amazon Redshift que são independentes do seu cluster. O Redshift Spectrum envia várias tarefas de computação intensiva para a camada do Redshift Spectrum, como a filtragem e a agregação de predicados. O Redshift Spectrum também é escalado de forma inteligente para aproveitar o processamento massivamente paralelo.

Você pode dividir as tabelas externas em partições de uma ou mais colunas para otimizar a performance da consulta por meio da eliminação de partições. Você pode consultar e unir tabelas externas com tabelas do Amazon Redshift. Você pode acessar tabelas externas de vários clusters do Amazon Redshift e consultar os dados do Amazon S3 de qualquer cluster na mesma região da AWS. Quando você atualiza os arquivos de dados do Amazon S3, os dados são disponibilizados instantaneamente para consulta a partir de qualquer um dos clusters do Amazon Redshift.

Para obter mais informações sobre o Redshift Spectrum, incluindo como trabalhar com o Redshift Spectrum e data lakes, consulte Conceitos básicos do Amazon Redshift Spectrum no Guia do desenvolvedor de banco de dados do Amazon Redshift.