Información sobre los conceptos de Amazon Redshift - Amazon Redshift

Información sobre los conceptos de Amazon Redshift

Amazon Redshift sin servidor le permite acceder a los datos y analizarlos sin todas las configuraciones de un almacenamiento de datos aprovisionado. Los recursos se aprovisionan automáticamente y la capacidad del almacenamiento de datos se escala de forma inteligente para ofrecer un rendimiento rápido incluso para las cargas de trabajo más exigentes e impredecibles. No incurrirá en gastos cuando el almacenamiento de datos esté inactivo, por lo que solo pagará por lo que utilice. Puede cargar datos y comenzar a realizar consultas de inmediato en el editor de consultas de Amazon Redshift v2 o en su herramienta de inteligencia empresarial (BI) favorita. Disfrute de la mejor relación precio-rendimiento y de las conocidas características de SQL en un entorno sin administración y fácil de utilizar.

Si es la primera vez que utiliza Amazon Redshift, le recomendamos que comience leyendo las siguientes secciones:

Si prefiere administrar sus recursos de Amazon Redshift manualmente, puede crear clústeres aprovisionados para sus necesidades de consulta de datos. Para obtener más información, consulte Clústeres de Amazon Redshift.

Si su organización reúne los requisitos necesarios y su clúster se crea en una Región de AWS donde no está disponible Amazon Redshift sin servidor, es posible que pueda crear un clúster en el programa de prueba gratuita de Amazon Redshift. Elige Producción o Prueba gratuita para responder la pregunta ¿Para qué planifica usar este clúster? Si elige Prueba gratuita, cree una configuración con el tipo de nodo dc2.large. Para obtener más información sobre la elección de una prueba gratuita, consulte Prueba gratuita de Amazon Redshift. Para obtener una lista de las Regiones de AWS donde Amazon Redshift sin servidor está disponible, consulte los puntos de conexión de Amazon Redshift enumerados para la API de Redshift sin servidor en la Referencia general de Amazon Web Services.

A continuación, se presentan algunos conceptos clave de Amazon Redshift sin servidor.

  • Espacio de nombres: una colección de objetos y usuarios de base de datos. Los espacios de nombres agrupan todos los recursos que se utilizan en Amazon Redshift sin servidor, como esquemas, tablas, usuarios, recursos compartidos de datos e instantáneas.

  • Grupo de trabajo: una colección de recursos de computación. Los grupos de trabajo alojan recursos de computación que Amazon Redshift sin servidor utiliza para ejecutar tareas de computación. Algunos ejemplos de estos recursos son las unidades de procesamiento de Redshift (RPU), los grupos de seguridad y los límites de uso. Los grupos de trabajo disponen de una configuración de red y de seguridad que puede establecer mediante la consola de Amazon Redshift sin servidor, la AWS Command Line Interface o las API de Amazon Redshift sin servidor.

Para obtener más información sobre la configuración de los recursos de espacios de nombres y de grupos de trabajo, consulte Uso de espacios de nombres y Uso de grupos de trabajo.

A continuación, se presentan algunos conceptos clave sobre los clústeres aprovisionados de Amazon Redshift:

  • Clúster: el principal componente de la infraestructura de un almacenamiento de datos de Amazon Redshift es el clúster.

    Un clúster se compone de uno o varios nodos de computación. Los nodos informáticos ejecutan el código compilado.

    Si un clúster se aprovisiona con dos o más nodos informáticos, un nodo principal adicional coordina los nodos informáticos. El nodo principal gestiona la comunicación externa con aplicaciones, como herramientas de inteligencia empresarial y editores de consultas. La aplicación cliente interactúa de forma directa solo con el nodo principal. Los nodos de computación son transparentes para las aplicaciones externas.

  • Base de datos: un clúster contiene una o varias bases de datos.

    Los datos de usuario se almacenan en una o más bases de datos de los nodos informáticos. El cliente SQL se comunica con el nodo principal y este coordina la ejecución de consultas con los nodos de informática. Para obtener más información sobre los nodos principales y los nodos de informática, consulte Arquitectura del sistema de almacenamiento de datos. Dentro de una base de datos, los datos de usuario se organizan en uno o más esquemas.

    Amazon Redshift es un sistema de administración de base de datos relacional (RDBMS) y es compatible con otras aplicaciones de RDBMS. Aunque proporciona la misma funcionalidad que una RDBMS típica, incluidas las funciones de procesamiento de transacciones en línea (OLTP) como insertar y eliminar datos. Amazon Redshift también está optimizado para análisis por lotes de alto rendimiento y generación de informes de conjuntos de datos.

A continuación, encontrará una descripción del flujo de procesamiento de datos típico en Amazon Redshift, junto con descripciones de distintas partes del flujo. Para obtener más información sobre la arquitectura del sistema de Amazon Redshift, consulte Arquitectura del sistema de almacenamiento de datos.

En el siguiente diagrama, se ilustra un flujo de procesamiento de datos típico en Amazon Redshift.

Diagrama que muestra el flujo de datos en Amazon Redshift. Los datos se ingieren de orígenes externos, se procesan y cargan en Redshift y, a continuación, se consumen.

Un almacenamiento de datos de Amazon Redshift es un sistema de administración y consulta de bases de datos relacionales de clase empresarial. Amazon Redshift admite las conexiones de clientes con muchos tipos de aplicaciones, incluidas las herramientas de análisis, datos, generación de informes e inteligencia empresarial (BI). Cuando ejecuta consultas de análisis, está recuperando, comparando y evaluando grandes cantidades de datos en operaciones de varias etapas para producir un resultado final.

En la capa de captura de datos, distintos tipos de orígenes de datos cargan continuamente datos estructurados, semiestructurados o no estructurados en la capa de almacenamiento de datos. Esta área de almacenamiento de datos sirve como área de almacenamiento provisional que almacena datos en diferentes estados de preparación para el consumo. Un ejemplo de almacenamiento podría ser un bucket de Amazon Simple Storage Service (Amazon S3).

En la capa opcional de procesamiento de datos, los datos de origen pasan por preprocesamiento, validación y transformación mediante canalizaciones de extracción, transformación, carga (ETL) o extracción, carga, transformación (ELT). Estos conjuntos de datos sin procesar luego se perfeccionan mediante operaciones de ETL. Un ejemplo de motor de ETL es AWS Glue.

En la capa de consumo de datos, los datos se cargan en el clúster de Amazon Redshift, donde puede ejecutar cargas de trabajo de análisis.

Para ver algunos ejemplos de cargas de trabajo analíticas, consulte Consulta de orígenes de datos externos.