Conceitos e fluxo de processamento de dados do Amazon Redshift - Amazon Redshift

Conceitos e fluxo de processamento de dados do Amazon Redshift

Nas seções a seguir, você encontra os principais conceitos para o Amazon Redshift, bem como uma descrição e um diagrama do fluxo de processamento de dados típico do Amazon Redshift:

Conceitos do Amazon Redshift

Veja alguns dos principais conceitos do Amazon Redshift:

  • Cluster: em cluster é o principal componente da infraestrutura de um data warehouse do Amazon Redshift.

    Um cluster é composto de um ou mais nós de computação. Os nós de computação executam o código compilado.

    Se um cluster for provisionado com dois ou mais nós de computação, um nó líder adicional coordenará os nós de computação. O nó líder aborda a comunicação externa com aplicações, como ferramentas de business intelligence e editores de consulta. O aplicativo cliente interage diretamente somente com o nó líder. Os nós de computação são transparentes a aplicativos externos.

  • Banco de dados: um cluster contém um ou mais bancos de dados.

    Os dados do usuário são armazenados em um ou mais bancos de dados nos nós de computação. O cliente SQL se comunica com o nó líder, que, por sua vez, coordena as consultas em execução com os nós de computação. Para obter mais informações sobre nós de computação e nós líderes, consulte Arquitetura do sistema de data warehouse. Em um banco de dados, os dados do usuário são organizados em um ou mais esquemas.

    O Amazon Redshift é um sistema de gerenciamento de banco de dados relacional (RDBMS) e é compatível com outras aplicações RDBMS. Oferece a mesma funcionalidade de um RDBMS típico, inclusive funções de processamento de transações online (OLTP), como inserir e excluir dados. O Amazon Redshift também é otimizado para análise em lote de alta performance e emissão de relatórios de conjuntos de dados.

A seguir, você encontra uma descrição do fluxo típico de processamento de dados no Amazon Redshift, juntamente com descrições de diferentes partes do fluxo. Para obter mais informações sobre a arquitetura do sistema do Amazon Redshift, consulte Arquitetura do sistema de data warehouse.

Fluxo de processamento de dados típico do Amazon Redshift

O diagrama a seguir ilustra um fluxo de processamento de dados típico no Amazon Redshift.

Um data warehouse do Amazon Redshift é um sistema de gerenciamento e consulta de banco de dados relacional de classe empresarial. O Amazon Redshift oferece suporte a conexões de clientes com muitos tipos de aplicações, incluindo business intelligence (BI), relatórios, dados e ferramentas analíticas. Ao executar consultas analíticas, você recupera, compara e avalia grandes volumes de dados em operações de várias etapas para produzir um resultado final.

Na camada de ingestão de dados, diferentes tipos de origem dos dados carregam continuamente dados estruturados, semiestruturados ou não estruturados para a camada de armazenamento de dados. Essa área de armazenamento de dados serve como uma área de preparação que armazena dados em diferentes estados de disponibilidade para consumo. Um bucket do Amazon Simple Storage Service (Amazon S3) é um exemplo de armazenamento.

Na camada opcional processamento de dados, os dados de origem passam por pré-processamento, validação e transformação usando pipelines extrair, transformar e carregar (ETL) ou extrair, carregar e transformar (ELT). Esses conjuntos de dados brutos são refinados por meio de operações ETL. Um exemplo de um mecanismo ETL é o AWS Glue.

Na camada de consumo de dados, os dados são carregados em seu cluster do Amazon Redshift, onde é possível executar workloads analíticas.

Os dados também podem ser consumidos para workloads analíticas da seguinte forma:

  • Use unidades de compartilhamento de dados para compartilhar dados dinâmicos entre clusters do Amazon Redshift para fins de leitura com relativa segurança e facilidade. É possível compartilhar dados em diferentes níveis, como bancos de dados, esquemas, tabelas, visualizações (inclusive visualizações regulares, de vinculação tardia e materializadas) e funções definidas pelo usuário (UDFs) do SQL.

    Para obter mais informações sobre compartilhamento de dados, consulte Conceitos básicos sobre acesso a dados em outros clusters do Amazon Redshift.

  • Utilize o Amazon Redshift Spectrum para consultar dados em arquivos do Amazon S3 sem ter que carregar os dados nas tabelas do Amazon Redshift. O Amazon Redshift oferece um recurso SQL projetado para processamento analítico online (OLAP) rápido de conjuntos de dados muito grandes que são armazenados em clusters do Amazon Redshift e data lakes do Amazon S3.

    Para obter mais informações sobre o Redshift Spectrum, consulte Conceitos básicos sobre como consultar seu data lake.

  • Faça junção de dados de bancos de dados relacionais, como o Amazon Relational Database Service (Amazon RDS) e Amazon Aurora ou do Amazon S3 a dados de seu banco de dados do Amazon Redshift usando uma consulta federada. Você pode usar o Amazon Redshift para consultar dados operacionais diretamente (sem movê-los), aplicar transformações e inserir dados em suas tabelas do Amazon Redshift.

    Para obter mais informações sobre consultas federadas, consulte Conceitos básicos sobre consulta de dados em fontes de dados remotas.

  • O machine learning (ML) do Amazon Redshift cria modelos, usando dados fornecidos e metadados associados a entradas de dados. Esses modelos capturam padrões nos dados de entrada. Você pode usar esses modelos para gerar previsões para novos dados de entrada. O Amazon Redshift trabalha com o Amazon SageMaker Autopilot para obter automaticamente o melhor modelo e disponibilizar a função de previsão no Amazon Redshift.

    Para obter mais informações sobre o Amazon Redshift ML, consulte Conceitos básicos sobre treinamento de modelos de Machine Learning com dados do Amazon Redshift.