Componentes de arquitectura de un almacén de datos de Amazon Redshift - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Componentes de arquitectura de un almacén de datos de Amazon Redshift

Le recomendamos que tenga conocimientos básicos de los componentes principales de la arquitectura de un almacén de datos de Amazon Redshift. Este conocimiento puede ayudarle a comprender mejor cómo diseñar sus consultas y tablas para obtener un rendimiento óptimo.

Un almacén de datos en Amazon Redshift consta de los siguientes componentes principales de la arquitectura:

  • Clústeres: un clúster, compuesto por uno o más nodos de procesamiento, es el componente de infraestructura principal de un almacén de datos de Amazon Redshift. Los nodos de cómputo son transparentes para las aplicaciones externas, pero la aplicación cliente solo interactúa directamente con el nodo principal. Un clúster típico tiene dos o más nodos de procesamiento. Los nodos de cómputo se coordinan a través del nodo líder.

  • Nodo líder: un nodo líder administra las comunicaciones de los programas cliente y todos los nodos de cómputo. Un nodo líder también prepara los planes para ejecutar una consulta cada vez que se envía una consulta a un clúster. Cuando los planes están listos, el nodo líder compila el código, lo distribuye a los nodos de procesamiento y, a continuación, asigna segmentos de datos a cada nodo de procesamiento para procesar los resultados de la consulta.

  • Nodo de cómputo: un nodo de cómputo ejecuta una consulta. El nodo líder compila el código de los elementos individuales del plan para ejecutar la consulta y lo asigna a los nodos de procesamiento individuales. Los nodos de computación ejecutan el código compilado y envían resultados intermedios de vuelta al nodo principal para su agregación final. Cada nodo de cómputo tiene su propia CPU dedicada, memoria y almacenamiento en disco adjunto. A medida que la carga de trabajo crece, puede aumentar la capacidad de computación y almacenamiento de un clúster aumentando el número de nodos, actualizando el tipo de nodo o ambas.

  • Segmento de nodos: un nodo de cómputo se divide en unidades denominadas segmentos. A cada segmento de un nodo de cómputo se le asigna una parte de la memoria y el espacio en disco del nodo, donde procesa una parte de la carga de trabajo asignada al nodo. A continuación, los sectores funcionan en paralelo para completar la operación. Los datos se distribuyen entre los segmentos en función del estilo de distribución y la clave de distribución de una tabla en particular. Una distribución uniforme de los datos permite a Amazon Redshift asignar las cargas de trabajo de manera uniforme a los segmentos y maximizar las ventajas del procesamiento paralelo. El número de segmentos por nodo de cómputo se decide en función del tipo de nodo. Para obtener más información, consulte Clústeres y nodos en Amazon Redshift en la documentación de Amazon Redshift.

  • Procesamiento masivo en paralelo (MPP): Amazon Redshift utiliza la arquitectura MPP para procesar datos con rapidez, incluso consultas complejas y grandes cantidades de datos. Varios nodos de procesamiento ejecutan el mismo código de consulta en partes de los datos para maximizar el procesamiento paralelo.

  • Aplicación cliente: Amazon Redshift se integra con diversas herramientas de extracción, transformación y carga (ETL), informes de inteligencia empresarial (BI), minería de datos y análisis. Todas las aplicaciones cliente se comunican con el clúster únicamente a través del nodo principal.

El siguiente diagrama muestra cómo los componentes de la arquitectura de un almacén de datos de Amazon Redshift trabajan juntos para acelerar las consultas.

El nodo líder y los nodos de cómputo de un clúster de Amazon Redshift que procesan una consulta de un cliente.