Configuración del hardware y las redes de los clústeres - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración del hardware y las redes de los clústeres

Una consideración importante al crear un clúster de Amazon EMR es cómo configurar instancias de Amazon EC2 y las opciones de red. En este capítulo, se abordan las siguientes opciones y, a continuación, se combinan todas ellas con las directrices y prácticas recomendadas.

  • Tipos de nodos: las instancias de Amazon EC2 de un clúster de EMR se organizan en tipos de nodos. Existen tres tipos: el nodo principal, el nodo básico y los nodos de tarea. Cada tipo de nodo realiza un conjunto de roles definidos por las aplicaciones distribuidas que se instalan en el clúster. Durante un trabajo de Hadoop MapReduce o Spark, por ejemplo, los componentes de los nodos principales y de tareas procesan los datos, transfieren la salida a Amazon S3 o HDFS y devuelven los metadatos de estado al nodo principal. Para un clúster de un solo nodo, todos los componentes se ejecutan en el nodo principal. Para obtener más información, consulte Descripción de los tipos de nodos: principales, básicos y de tarea.

  • Instancias de EC2: cuando crea un clúster, toma decisiones sobre las instancias de Amazon EC2 en las que se ejecutará cada tipo de nodo. El tipo de instancia de EC2 determina el perfil de procesamiento y almacenamiento del nodo. La elección de la instancia de Amazon EC2 para los nodos es importante porque determina el perfil de rendimiento de los tipos de nodos individuales del clúster. Para obtener más información, consulte Configuración de instancias de Amazon EC2.

  • Redes: puede lanzar su clúster de Amazon EMR en una VPC mediante una subred pública, una subred privada o una subred compartida. Su configuración de red determina cómo los clientes y los servicios pueden conectarse a los clústeres para realizar su trabajo, cómo se conectan los clústeres a los almacenes de datos y otros recursos de AWS , y las opciones de las que dispone para controlar el tráfico en esas conexiones. Para obtener más información, consulte Configurar redes.

  • Agrupación de instancias: el conjunto de instancias de EC2 que aloja cada tipo de nodo se denomina flota de instancias o grupo de instancias uniforme. La configuración de agrupación de instancias es una elección que se toma al crear un clúster. Esta opción determina cómo puede agregar nodos al clúster mientras está en ejecución. La configuración se aplica a todos los tipos de nodos. No se puede cambiar más adelante. Para obtener más información, consulte Crear un clúster con flotas de instancias o grupos de instancias uniformes.

    nota

    La configuración de las flotas de instancias está disponible solo en las versiones 4.8.0 y posteriores de Amazon EMR, excluidas las versiones 5.0.0 y 5.0.3.