Clústeres aprovisionados de Amazon Redshift - Amazon Redshift

Clústeres aprovisionados de Amazon Redshift

En las secciones siguientes, podrá aprender los conceptos básicos de la creación de un almacenamiento de datos mediante el lanzamiento de un conjunto de nodos informáticos llamado clúster de Amazon Redshift.

Información general de Amazon Redshift

Un almacenamiento de datos de Amazon Redshift es una colección de recursos informáticos denominados nodos que se organizan en un grupo llamado clúster. Cada clúster ejecuta un motor de Amazon Redshift y contiene una o más bases de datos.

nota

En este momento, está disponible la versión 1.0 del motor de Amazon Redshift. No obstante, como el motor está actualizado, puede seleccionar entre varias versiones disponibles de motores de Amazon Redshift.

Clústeres y nodos de Amazon Redshift

Un clúster de Amazon Redshift se compone de nodos. Cada clúster tiene un nodo principal y uno o más nodos de computación. El nodo principal recibe consultas de las aplicaciones cliente, las analiza y desarrolla planes de ejecución de las consultas. Luego, el nodo principal coordina una ejecución en paralelo de esos planes con los nodos de computación y agrega los resultados intermedios de dichos nodos. Finalmente, devuelve los resultados a las aplicaciones cliente.

Los nodos de computación procesan los planes de ejecución de consultas y transmiten datos entre ellos para atender a esas consultas. Los resultados intermedios envían al nodo principal para agregación antes de que vuelvan a las aplicaciones cliente. Para obtener más información acerca de los nodos principales y los nodos informáticos, consulte Arquitectura del sistema de almacenamiento de datos en la Guía para desarrolladores de bases de datos de Amazon Redshift.

nota

Cuando se crea un clúster en la consola de Amazon Redshift (https://console.aws.amazon.com/redshiftv2/), se puede obtener una recomendación de la configuración del clúster en función del tamaño de los datos y de las características de las consultas. Para utilizar esta calculadora de tamaño, busque Help me choose (Ayúdeme a elegir) en la consola en regiones de AWS que admitan tipos de nodos RA3. Para obtener más información, consulte Creación de un clúster.

Cuando se lanza un clúster, una de las opciones que se debe especificar es el tipo de nodo. El tipo de nodo determina la capacidad de la CPU, la RAM, el almacenamiento y el tipo de unidad de almacenamiento de cada nodo.

Amazon Redshift ofrece diferentes tipos de nodos para alojar sus cargas de trabajo. Le recomendamos elegir los nodos RA3 o DC2 en función del rendimiento requerido, el tamaño de los datos y su crecimiento previsto.

Los nodos RA3 con almacenamiento administrado le permiten optimizar su almacenamiento de datos mediante el escalado y pago de las capacidades de cómputo y almacenamiento administrado de forma independiente. Con RA3, elige la cantidad de nodos que necesita en función de requisitos de rendimiento y solo paga por el almacenamiento administrado que utilice. Dimensione su clúster de RA3 en función de la cantidad de datos que procesa diariamente. Puede lanzar clústeres que usen los tipos de nodos RA3 en una nube virtual privada (VPC). No puede lanzar clústeres RA3 en EC2-Classic. Para obtener más información, consulte Creación de un clúster en una VPC.

El almacenamiento administrado de Amazon Redshift utiliza grandes unidades de estado sólido de alto rendimiento en cada nodo RA3 para lograr un almacenamiento local rápido y utiliza Amazon S3 para lograr un almacenamiento duradero a largo plazo. Si el volumen de los datos de un nodo aumenta y supera el tamaño de las grandes unidades de estado sólido locales, el almacenamiento administrado de Amazon Redshift descarga automáticamente dichos datos en Amazon S3. Se paga la misma tarifa reducida por el almacenamiento administrado de Amazon Redshift, con independencia de si los datos residen en unidades de estado sólido de alto rendimiento o en Amazon S3. Para las cargas de trabajo que requieren un almacenamiento cada vez mayor, el almacenamiento administrado permite escalar automáticamente la capacidad de almacenamiento de datos de forma separada de los nodos de computación.

Los nodos DC2 permiten tener almacenamientos de datos con uso intensivo de cómputo con almacenamiento SSD local incluido. Debe elegir la cantidad de nodos que necesita en función del tamaño de los datos y los requisitos de rendimiento. Los nodos DC2 almacenan sus datos localmente para obtener un alto rendimiento y, a medida que el tamaño de los datos aumenta, puede agregar más nodos informáticos con objeto de incrementar la capacidad de almacenamiento del clúster. Para conjuntos de datos de menos de 1 TB (sin comprimir), recomendamos los tipos de nodos DC2 para lograr el mejor rendimiento al menor precio. Si espera que sus datos crezcan, recomendamos usar nodos RA3 para que pueda dimensionar el cómputo y el almacenamiento de forma independiente para lograr el mejor precio y rendimiento. Puede lanzar clústeres que usen los tipos de nodos DC2 en una nube virtual privada (VPC). No puede lanzar clústeres DC2 en EC2-Classic. Para obtener más información, consulte Creación de un clúster en una VPC.

Los nodos DS2 le permiten crear grandes almacenamientos de datos con unidades de disco duro (HDD), pero recomendamos usar nodos RA3. Si utiliza nodos DS2, consulte Actualización a tipos de nodo RA3 para obtener instrucciones de actualización. Si utiliza ocho o más nodos de ds2.xlarge o cualquier cantidad de nodos ds2.8xlarge, pueden actualizar a RA3 y obtener el doble de almacenamiento y un mejor rendimiento por el mismo costo bajo demanda.

Hay disponibles tipos de nodos de diferentes tamaños. El tamaño y la cantidad de nodos determinan el almacenamiento total de un clúster. Para obtener más información, consulte Detalles acerca de los tipos de nodos.

Algunos tipos de nodos admiten un único nodo (nodo único) o dos o más nodos (nodo múltiple). El número mínimo de nodos para clústeres de algunos tipos de nodos es de dos nodos. En un clúster de nodo único, se comparte ese nodo para la funcionalidad principal y para la de computación. No se recomiendan clústeres de nodo único para ejecutar cargas de trabajo de producción. En un clúster de nodos múltiples, el nodo principal es independiente de los nodos de computación. El nodo principal es del mismo tipo de nodo que los nodos de computación. Solo paga por nodos de computación.

Amazon Redshift aplica cuotas a los recursos de cada cuenta de AWS en cada región de AWS. La cuota limita la cantidad de recursos que una cuenta puede crear para un tipo de recurso determinado, como los nodos o las instantáneas, dentro de una región de AWS. Para obtener más información sobre las cuotas predeterminadas que se aplican a los recursos de Amazon Redshift, consulte Límites de Amazon Redshift en la Referencia general de Amazon Web Services. Para solicitar un aumento, envíe un formulario de aumento de límites de Amazon Redshift.

El costo del clúster depende de la región de AWS, del tipo de nodo, de la cantidad de nodos y de si los nodos se reservan de manera anticipada. Para obtener más información acerca de los costos de los nodos, visite la página Precios de Amazon Redshift.

Detalles acerca de los tipos de nodos

En las siguientes tablas, se resumen las especificaciones de cada tipo y tamaño de nodo. Los títulos de las tablas tienen estos significados:

  • vCPU es la cantidad de CPU virtuales de cada nodo.

  • RAM es la cantidad de memoria en gibibytes (GiB) de cada nodo.

  • Sectores predeterminados por nodo es el número predeterminado de sectores en los que se particiona un nodo de computación cuando se crea un clúster o se cambia el tamaño con el cambio de tamaño clásico.

    El número de sectores por nodo podría cambiar si se cambia el tamaño del clúster mediante el cambio de tamaño elástico. No obstante, el número total de sectores en todos los nodos de computación del clúster sigue siendo el mismo después del cambio de tamaño elástico.

    Al crear un clúster con la operación de restauración desde instantánea, el número de sectores del clúster resultante podría cambiar respecto al clúster original si cambia el tipo de nodo.

  • Almacenamiento es la capacidad y el tipo almacenamiento de cada nodo.

  • Rango de nodos es la cantidad mínima y máxima de nodos que admite Amazon Redshift según el tipo y el tamaño de los nodos.

    nota

    Puede tener restricciones para utilizar menos nodos según la cuota que se aplica a su cuenta de AWS en la región de AWS seleccionada. Para solicitar un aumento, envíe un formulario de aumento de límites de Amazon Redshift.

  • Capacidad total es la capacidad total de almacenamiento del clúster si se implementa la cantidad máxima de nodos especificada en el rango de nodos.

Tipos de nodo RA3
Tipo de nodo vCPU RAM (GiB) Sectores predeterminados por nodo Límite de almacenamiento administrado por nodo 1 Rango de nodos con Crear clúster Capacidad total de almacenamiento administrado 2
ra3.xlplus (nodo único) 4 32 2 4 TB 1 4 TB3
ra3.xlplus (varios nodos) 4 32 2 32 TB 2–164 1024 TB4
ra3.4xlarge 12 96 4 128 TB 2–325 8192 TB5
ra3.16xlarge 48 384 16 128 TB 2–128 16 384 TB

1 El límite de almacenamiento para el almacenamiento administrado de Amazon Redshift. Este es un límite invariable.

2 El límite total de almacenamiento administrado es el número máximo de nodos multiplicado por el límite de almacenamiento administrado de cada nodo.

3 Para cambiar el tamaño de un clúster de un solo nodo a uno de varios, solo se admite el método de redimensionamiento clásico.

4 Puede crear un clúster con el tipo de nodo ra3.xlplus (de varios nodos) que tenga hasta 16 nodos. Para clústeres de varios nodos, puede cambiar el tamaño con el redimensionamiento elástico a un máximo de 32 nodos.

5 Puede crear un clúster con el tipo de nodo ra3.4xlarge con hasta 32 nodos. Puede cambiar su tamaño con el redimensionamiento elástico a un máximo de 64 nodos.

Tipos de nodos de almacenamiento de alta densidad
Tipo de nodo vCPU RAM (GiB) Sectores predeterminados por nodo Almacenamiento por nodo Rango de nodos Capacidad total
ds2.xlarge 4 31 2 HDD de 2 TB 1–32 64 TB
ds2.8xlarge 36 244 16 HDD de 16 TB 2–128 2 PB
Tipos de nodos de computación de alta densidad
Tipo de nodo vCPU RAM (GiB) Sectores predeterminados por nodo Almacenamiento por nodo Rango de nodos Capacidad total
dc2.large 2 15 2 SSD NVMe de 160 GB 1–32 5.12 TB
dc2.8xlarge 32 244 16 SSD NVMe de 2,56 TB 2–128 326 TB
dc1.large1 2 15 2 SSD de 160 GB 1–32 5.12 TB
dc1.8xlarge1 32 244 32 SSD de 2,56 TB 2–128 326 TB

1 Recomendamos los tipos de nodos DC2 frente a los tipos de nodos DC1. Para obtener más información sobre cómo actualizar, consulte Actualización de tipos de nodo DC1 a tipos de nodo DC2.

Nombres anteriores de los tipos de nodos

En versiones anteriores de Amazon Redshift, algunos tipos de nodos tenían nombres diferentes. Puede usar los nombres anteriores en la AWS CLI y la API de Amazon Redshift. No obstante, recomendamos que actualice cualquier script que haga referencia a esos nombres para usar los nombres actuales en su lugar. A continuación, se detallan los nombres actuales y anteriores.

Nombre actual Nombres anteriores
ds2.xlarge ds1.xlarge, dw.hs1.xlarge, dw1.xlarge
ds2.8xlarge ds1.8xlarge, dw.hs1.8xlarge, dw1.8xlarge
dc1.large dw2.large
dc1.8xlarge dw2.8xlarge

Determinar cuál es la cantidad de nodos

Como Amazon Redshift distribuye y ejecuta consultas en paralelo en todos los nodos informáticos de un clúster, puede aumentar el rendimiento de las consultas agregando nodos al clúster. Cuando ejecuta un clúster con al menos dos nodos de computación, los datos de cada nodo se reflejan en discos de otro nodo para reducir el riesgo de pérdida de datos.

Puede supervisar el rendimiento de las consultas en la consola de Amazon Redshift y con las métricas de Amazon CloudWatch. También puede agregar o eliminar nodos según sea necesario para lograr el equilibrio entre precio y rendimiento de su clúster. Cuando solicita un nodo adicional, Amazon Redshift se encarga de todos los detalles de implementación, equilibrio de carga y mantenimiento de datos. Para obtener más información acerca del rendimiento de un clúster, consulte Monitoreo del rendimiento de clústeres de Amazon Redshift.

Los nodos reservados son adecuados para cargas de trabajo de producción de estado estable y aportan descuentos significativos en comparación con los precios bajo demanda. Puede comprar nodos reservados después de ejecutar experimentos y pruebas de conceptos para validar la configuración de producción. Para obtener más información, consulte Adquisición de nodos reservados de Amazon Redshift.

Cuando se pausa un clúster, suspende la facturación bajo demanda durante el tiempo en que se detiene el clúster. Durante este tiempo de pausa, solo paga por el almacenamiento de copia de seguridad. De este modo, puede olvidarse de planificar y adquirir capacidad para el almacenamiento de datos antes de necesitarla, lo que le permite administrar de manera rentable entornos de desarrollo o pruebas.

Para obtener más información acerca de los precios de los nodos bajo demanda y reservados, consulte Precios de Amazon Redshift.

Usar EC2-VPC al crear el clúster

Los clústeres de Amazon Redshift se ejecutan en las instancias de Amazon EC2 que están configuradas para el tipo y el tamaño de nodos de Amazon Redshift que haya seleccionado. Cree su clúster con EC2-VPC. Si sigue utilizando EC2-Classic, le recomendamos que use EC2-VPC para mejorar el rendimiento y la seguridad. Para obtener más información acerca de estas plataformas de redes, consulte Plataformas compatibles en la Guía del usuario de Amazon EC2 para instancias de Linux. La configuración de su cuenta de AWS determina si EC2-VPC o EC2-Classic están disponibles para usted.

nota

Para evitar problemas de conexión entre las herramientas de cliente SQL y la base de datos de Amazon Redshift, le recomendamos realizar alguna de estas dos operaciones. Puede configurar una regla de entrada que permita a los hosts negociar el tamaño del paquete. También puede desactivar las tramas gigantes de TCP/IP estableciendo la unidad máxima de transmisión (MTU) en 1500 en la interfaz de red (NIC) de sus instancias de Amazon EC2. Para obtener más información acerca de estos métodos, consulte Falta de respuesta de las consultas y pérdidas de consultas antes de llegar al clúster.

EC2-VPC

Cuando se utiliza EC2-VPC, el clúster se ejecuta en una nube virtual privada (VPC) que está aislada lógicamente en su cuenta de AWS. Si aprovisiona su clúster en EC2-VPC, controla el acceso a su clúster asociando uno o más grupos de seguridad de la VPC con el clúster. Para obtener más información, consulte Grupos de seguridad de su VPC en la Guía del usuario de Amazon VPC.

Para crear un clúster en una VPC, primero debe crear un grupo de subred de clúster de Amazon Redshift proporcionando información de la subred de su VPC y, luego, al lanzar el clúster, debe proporcionar el grupo de subred. Para obtener más información, consulte Grupos de subredes del clúster de Amazon Redshift.

Para obtener más información acerca de Amazon Virtual Private Cloud (Amazon VPC), consulte la página de detalles del producto de Amazon VPC.

EC2-Classic

La plataforma EC2-Classic se retirará el 15 de agosto de 2022. Le recomendamos que migre los clústeres de la plataforma EC2-Classic a una plataforma EC2-VPC. Para obtener más información, consulte Actualización de un clúster DS2 en EC2-Classic para EC2-VPC y EC2-Classic Networking se retira: cómo prepararse.

En la plataforma EC2-Classic, el clúster se ejecuta en una única red plana que usted comparte con otros clientes de AWS. Si aprovisiona el clúster en la plataforma EC2-Classic, controla el acceso al clúster asociando uno o más grupos de seguridad de clúster de Amazon Redshift con el clúster. Para obtener más información, consulte Grupos de seguridad del clúster de Amazon Redshift.

Lance un clúster

Su cuenta de AWS puede lanzar instancias de EC2-VPC y de EC2-Classic, o solo de EC2-VPC, región por región. Para determinar qué plataforma de red admite su cuenta y, a continuación, lanzar un clúster, haga lo siguiente:

  1. Decida en qué región de AWS desea implementar un clúster. Para obtener una lista de las regiones de AWS en las que Amazon Redshift está disponible, consulte Puntos de conexión de Amazon Redshift en la Referencia general de Amazon Web Services.

  2. Averigüe qué plataformas de Amazon EC2 admite su cuenta en la región de AWS que haya elegido. Puede encontrar esta información en la consola de Amazon EC2. Para obtener instrucciones paso a paso, consulte Plataformas compatibles en la Guía del usuario de Amazon EC2 para instancias de Linux.

  3. Si su cuenta es compatible con ambas plataformas, le recomendamos EC2-VPC. Si su cuenta solo es compatible con EC2-VPC, debe implementar su clúster en la VPC.

  4. Lance su clúster de Amazon Redshift. Puede crear un clúster con la consola o la API de Amazon Redshift, la AWS CLI o las bibliotecas SDK. Para obtener más información acerca de estas opciones y enlaces a documentación relacionada, consulte ¿Qué es Amazon Redshift?.

Alarma predeterminada de espacio en disco

Cuando crea un clúster de Amazon Redshift, tiene la opción de configurar una alarma de Amazon CloudWatch para supervisar el porcentaje promedio del espacio de disco utilizado en todos los nodos del clúster. Nos referiremos a esta alarma como la alarma predeterminada de espacio en disco.

El objetivo de la alarma predeterminada de espacio en disco es ayudarle a supervisar la capacidad de almacenamiento de su clúster. Puede configurar esta alarma en función de las necesidades de su data warehouse. Por ejemplo, puede usar la advertencia como un indicador de que tal vez tenga que ajustar el tamaño del clúster. Puede cambiar el tamaño a un tipo de nodo diferente o agregar nodos, o quizás comprar nodos reservados para una futura ampliación.

La alarma predeterminada de espacio en disco se activa cuando el uso del disco alcanza o supera un porcentaje específico una determinada cantidad de veces y con una duración específica. De manera predeterminada, esta alarma se activa cuando se alcanza el porcentaje que haya especificado y cuando permanece, o supera, en ese porcentaje durante cinco minutos o más tiempo. Puede editar los valores predeterminados después de lanzar su clúster.

Cuando se desencadena la alarma de CloudWatch, Amazon Simple Notification Service (Amazon SNS) envía una notificación a los destinatarios especificados para avisarles que se ha alcanzado el límite de porcentaje indicado. Amazon SNS utiliza un tema para especificar los destinatarios y el mensaje que se envía en las notificaciones. Puede utilizar un tema de Amazon SNS existente o, de lo contrario, se puede crear un tema en función de la configuración que especificó cuando lanzó el clúster. Puede editar el tema de esta alarma después de lanzar el clúster. Para obtener más información acerca de cómo crear temas de Amazon SNS, consulte Introducción a Amazon Simple Notification Service.

Después de lanzar el clúster, puede ver y editar la alarma desde la ventana Estado del clúster, bajo Alarmas de CloudWatch. El nombre es percentage-disk-space-used-default-<cadena>. Puede abrir la alarma para ver el tema de Amazon SNS con el que está asociada y editar la configuración de la alarma. Si no seleccionó un tema de Amazon SNS existente, el tema que se cree se llamará <nombredelclúster>-default-alarms (<destinatario>); por ejemplo, clústerdeejemplo-default-alarms (notificar@ejemplo.com).

Para obtener más información acerca de cómo configurar y editar la alarma predeterminada de espacio en disco, consulte Creación de un clúster y Crear o editar una alarma de espacio en disco.

nota

Si elimina el clúster, no se eliminará la alarma asociada con el clúster, pero tampoco se activará. Si ya no necesita la alarma, puede eliminarla desde la consola de CloudWatch.

Estado del clúster

El estado del clúster muestra el estado actual del clúster. En la siguiente tabla, se proporciona una descripción de cada estado del clúster.

Estado Descripción
available El clúster se está ejecutando y está disponible.
available, prep-for-resize Se está preparando el clúster para un cambio de tamaño elástico. El clúster está en ejecución y disponible para consultas de lectura y escritura, aunque las operaciones de clúster, como crear instantáneas, no están disponibles.
available, resize-cleanup Una operación de cambio de tamaño elástico está completando la transferencia de datos a los nuevos nodos del clúster. El clúster está en ejecución y disponible para consultas de lectura y escritura, aunque las operaciones de clúster, como crear instantáneas, no están disponibles.
cancelling-resize Se está cancelando la operación de cambio de tamaño.
creating Amazon Redshift está creando el clúster. Para obtener más información, consulte Creación de un clúster.
deleting Amazon Redshift está eliminando el clúster. Para obtener más información, consulte Eliminación de un clúster.
final-snapshot Amazon Redshift está realizando una instantánea final del clúster antes de eliminarlo. Para obtener más información, consulte Eliminación de un clúster.
hardware-failure

Se detectó un error de hardware en el clúster.

Si tiene un clúster de nodo único, el nodo no puede reemplazarse. Para recuperar su clúster, restaure una snapshot. Para obtener más información, consulte Instantáneas y copias de seguridad de Amazon Redshift.

incompatible-hsm Amazon Redshift no puede conectarse al módulo de seguridad de hardware (HSM). Compruebe la configuración del HSM entre el clúster y el HSM. Para obtener más información, consulte Cifrado de Amazon Redshift con módulos de seguridad de hardware.
incompatible-network Hay un problema con la configuración de red subyacente. Asegúrese de que la VPC en la que lanzó el clúster exista y de que está bien configurada. Para obtener más información, consulte Administración de clústeres en una VPC.
incompatible-parameters Hay un problema con uno o más valores de parámetros en el grupo de parámetros asociados y no se pueden aplicar los valores del parámetro. Modifique el grupo de parámetros y actualice todo valor que no sea válido. Para obtener más información, consulte Grupos de parámetros de Amazon Redshift.
incompatible-restore Hubo un problema al restaurar el clúster desde la snapshot. Vuelva a restaurar el clúster con una snapshot diferente. Para obtener más información, consulte Instantáneas y copias de seguridad de Amazon Redshift.
modifying Amazon Redshift está aplicando cambios al clúster. Para obtener más información, consulte Modificación de un clúster.
paused El clúster está en pausa. Para obtener más información, consulte Pausa y reanudación de clústeres.
rebooting Amazon Redshift está reiniciando el clúster. Para obtener más información, consulte Reinicio de un clúster.
renaming Amazon Redshift está aplicando un nuevo nombre al clúster. Para obtener más información, consulte Cambio de nombre de los clústeres.
resizing Amazon Redshift está cambiando el tamaño del clúster. Para obtener más información, consulte Redimensionamiento de un clúster.
rotating-keys Amazon Redshift está rotando las claves de cifrado del clúster. Para obtener más información, consulte Rotación de claves de cifrado en Amazon Redshift.
storage-full El clúster alcanzó su capacidad de almacenamiento. Cambie el tamaño del clúster para agregar nodos o elija un tamaño de nodo diferente. Para obtener más información, consulte Redimensionamiento de un clúster.
updating-hsm Amazon Redshift está actualizando la configuración de HSM.