Descripción de los tipos de nodos: principales, básicos y de tarea - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Descripción de los tipos de nodos: principales, básicos y de tarea

Utilice esta sección para entender cómo Amazon EMR utiliza cada uno de estos tipos de nodos y como base para la planificación de la capacidad del clúster.

Nodo principal

El nodo principal administra el clúster y normalmente ejecuta los componentes principales de las aplicaciones distribuidas. Por ejemplo, el nodo principal ejecuta el YARN ResourceManager servicio para administrar los recursos de las aplicaciones. También ejecuta el HDFS NameNode servicio, realiza un seguimiento del estado de los trabajos enviados al clúster y supervisa el estado de los grupos de instancias.

Para supervisar el progreso de un clúster e interactuar directamente con las aplicaciones, puedes conectarte al nodo principal SSH como usuario de Hadoop. Para obtener más información, consulte Conéctese al nodo principal mediante SSH. La conexión con el nodo principal le permite acceder directamente a los directorios y los archivos, como los archivos de registro de Hadoop. Para obtener más información, consulte Ver archivos de registro de . También puede ver las interfaces de usuario que publican las aplicaciones como sitios web que se ejecutan en el nodo principal. Para obtener más información, consulte Ver las interfaces web alojadas en los EMR clústeres de Amazon.

nota

Con Amazon EMR 5.23.0 y versiones posteriores, puede lanzar un clúster con tres nodos principales para admitir una alta disponibilidad de aplicaciones como YARN Resource Manager, Spark HDFS NameNode, Hive y Ganglia. El nodo principal ya no es un posible punto único de error con esta característica. Si uno de los nodos principales falla, Amazon conmuta EMR automáticamente por error a un nodo principal en espera y reemplaza el nodo principal fallido por uno nuevo con la misma configuración y acciones de arranque. Para más información, consulte Planificación y configuración de nodos principales.

Nodos básicos

Los nodos básicos los administra el nodo principal. Los nodos principales ejecutan el daemon del nodo de datos para coordinar el almacenamiento de datos como parte del sistema de archivos distribuido de Hadoop (). HDFS También ejecutan el daemon Task Tracker y realizan otras tareas de cálculo en paralelo en los datos que las aplicaciones instaladas requieren. Por ejemplo, un nodo principal ejecuta YARN NodeManager demonios, tareas de MapReduce Hadoop y ejecutores de Spark.

Solo hay un grupo de instancias principal o una flota de instancias por clúster, pero puede haber varios nodos ejecutándose en varias instancias de Amazon en el grupo de EC2 instancias o en la flota de instancias. Con los grupos de instancias, puedes añadir y eliminar EC2 instancias de Amazon mientras el clúster está en ejecución. También puede configurar el escalado automático para agregar instancias en función del valor de una métrica. Para obtener más información sobre cómo añadir y eliminar EC2 instancias de Amazon con la configuración de grupos de instancias, consultaUsar el escalado de clústeres.

Con las flotas de instancias, puede agregar y eliminar instancias de forma eficaz modificando las capacidades de destino de la flota de instancias para las opciones bajo demanda y de spot según corresponda. Para obtener más información acerca de las capacidades de destino, consulte Opciones de flota de instancias.

aviso

Si se eliminan los HDFS daemons de un nodo principal en ejecución o se cierran los nodos principales, se corre el riesgo de perder datos. Tenga cuidado al configurar nodos secundarios que utilizan instancias de spot. Para obtener más información, consulte ¿Cuándo se deben utilizar las instancias de spot?.

Nodos de tarea

Puede utilizar los nodos de tareas para añadir potencia y realizar tareas de cálculo en paralelo con los datos, como las tareas de Hadoop y los ejecutores de MapReduce Spark. Los nodos de tareas no ejecutan el daemon Data Node ni almacenan datos en él. HDFS Al igual que con los nodos principales, puede añadir nodos de tareas a un clúster añadiendo EC2 instancias de Amazon a un grupo de instancias uniforme existente o modificando las capacidades objetivo de una flota de instancias de tareas.

Con la configuración de grupo de instancias uniforme, puede tener hasta un total de 48 grupos de instancias de tarea. La posibilidad de añadir grupos de instancias de esta manera te permite combinar tipos de EC2 instancias de Amazon y opciones de precios, como instancias bajo demanda e instancias puntuales. Esto le ofrece flexibilidad para responder a los requisitos de carga de trabajo de forma rentable.

Con la configuración de flota de instancias, la capacidad de combinar tipos de instancia y opciones de compra está integrada, por lo que solo hay una flota de instancias de tarea.

Dado que las instancias puntuales se utilizan con frecuencia para ejecutar nodos de tareas, Amazon EMR tiene una funcionalidad predeterminada para programar los YARN trabajos, de modo que los trabajos en ejecución no fallen cuando se cierren los nodos de tareas que se ejecutan en las instancias puntuales. Amazon lo EMR hace al permitir que los procesos maestros de la aplicación se ejecuten solo en los nodos principales. El proceso maestro de la aplicación controla los trabajos en ejecución y debe mantenerse activo durante toda la vida del trabajo.

Para ello, la EMR versión 5.19.0 y las posteriores de Amazon utilizan la función integrada de etiquetas de YARN nodos. (Las versiones anteriores utilizaban una revisión de código). Las propiedades de las clasificaciones yarn-site y de capacity-scheduler configuración están configuradas de forma predeterminada para que el programador de capacidad y el YARN planificador justo aprovechen las etiquetas de los nodos. Amazon etiqueta EMR automáticamente los nodos principales con la CORE etiqueta y establece las propiedades para que los maestros de aplicaciones se programen solo en los nodos con la CORE etiqueta. La modificación manual de las propiedades relacionadas en las clasificaciones de configuración de yarn-site y capacity scheduler, o directamente en XML los archivos asociados, podría interrumpir esta función o modificarla.

A partir de la serie de versiones EMR 6.x de Amazon, la función de etiquetas de YARN nodos está deshabilitada de forma predeterminada. De forma predeterminada, los procesos principales de la aplicación se pueden ejecutar tanto en nodos básicos como en nodos de tarea. Puede activar la función de etiquetas de YARN nodos configurando las siguientes propiedades:

  • yarn.node-labels.enabled: true

  • yarn.node-labels.am.default-node-label-expression: 'CORE'

Para obtener información sobre propiedades específicas, consulte EMRConfiguración de Amazon para evitar un error en el trabajo debido a la finalización de la instancia puntual del nodo de tarea.