El clúster termina con NO_ _ y los nodos principales _BY_ SLAVE LEFT FAILED MASTER - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

El clúster termina con NO_ _ y los nodos principales _BY_ SLAVE LEFT FAILED MASTER

Normalmente, esto ocurre porque la protección de terminación está deshabilitada y todos los nodos secundarios superan la capacidad de almacenamiento en disco especificada por el umbral de utilización máximo en la configuración de clasificación yarn-site, que corresponde al archivo yarn-site.xml. Este valor es el 90 % de forma predeterminada. Cuando la utilización del disco de un nodo principal supera el umbral de utilización, el servicio de YARN NodeManager salud informa del nodo como. UNHEALTHY Mientras se encuentra en este estado, Amazon EMR deniega la lista del nodo y no le asigna YARN contenedores. Si el nodo permanece en mal estado durante 45 minutos, Amazon EMR marca la EC2 instancia de Amazon asociada para su finalización comoFAILED_BY_MASTER. Cuando todas las EC2 instancias de Amazon asociadas a los nodos principales están marcadas para su finalización, el clúster termina con el estado NO_SLAVE_LEFT porque no hay recursos para ejecutar tareas.

Sobrepasar la utilización del disco en un nodo secundario podría causar una reacción en cadena. Si un solo nodo supera el umbral de utilización del disco debido a HDFS ello, es probable que otros nodos también estén cerca del umbral. El primer nodo supera el umbral de utilización del disco, por lo que Amazon EMR Deny lo incluye en la lista. Esto aumenta la carga de utilización del disco para los nodos restantes, ya que comienzan a replicar entre sí los HDFS datos que perdieron en el nodo de la lista de denegación. Uno por uno, los nodos van adoptando el estado UNHEALTHY de la misma manera, y el clúster finalmente termina.

Prácticas recomendadas y recomendaciones

Configurar el hardware del clúster con almacenamiento suficiente

Al crear un clúster, asegúrese de que haya suficientes nodos principales y de que cada uno tenga un almacén de instancias y volúmenes de EBS almacenamiento adecuados. HDFS Para obtener más información, consulte Calcular la HDFS capacidad requerida de un clúster. También puede añadir instancias secundarias a grupos de instancias existentes de forma manual o mediante el escalado automático. Las instancias nuevas tienen la misma configuración de almacenamiento que el resto de las instancias del grupo. Para obtener más información, consulte Usar el escalado de clústeres.

Cómo habilitar la protección contra la terminación

Habilite la protección de terminación. De esta forma, si un nodo principal aparece en la lista de denegados, puedes conectarte a la EC2 instancia de Amazon asociada SSH para solucionar problemas y recuperar datos. Si habilitas la protección de rescisión, ten en cuenta que Amazon EMR no sustituye la EC2 instancia de Amazon por una nueva instancia. Para obtener más información, consulte Uso de la protección de terminación.

Crea una alarma para la MRUnhealthyNodes CloudWatch métrica

Esta métrica indica el número de nodos que tienen el estado UNHEALTHY. Es equivalente a la YARN métricamapred.resourcemanager.NoOfUnhealthyNodes. Puede configurar una notificación para esta alarma que le avise de los nodos en mal estado 45 minutos antes de que se agote el tiempo de espera. Para obtener más información, consulte Monitorear EMR las métricas de Amazon con CloudWatch.

Retocar la configuración mediante yarn-site

Las opciones mostradas a continuación se pueden ajustar de acuerdo con los requisitos de la aplicación. Por ejemplo, es posible que desee aumentar el umbral de utilización del disco si un nodo adopta el estado UNHEALTHY aumentando el valor de yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage.

Puede establecer estos valores al crear un clúster mediante la clasificación de configuración yarn-site. Para obtener más información, consulte Configuración de aplicaciones en la Amazon EMR Release Guide. También puede conectarse a las EC2 instancias de Amazon asociadas a los nodos principales mediante un editor de texto ySSH, a continuación, añadir los valores /etc/hadoop/conf.empty/yarn-site.xml mediante un editor de texto. Tras realizar el cambio, debes reiniciarlo hadoop-yarn-nodemanager tal y como se muestra a continuación.

importante

Al reiniciar el NodeManager servicio, los YARN contenedores activos se eliminan a menos que yarn.nodemanager.recovery.enabled estén configurados para true usar la clasificación de yarn-site configuración al crear el clúster. Asimismo, debe especificar el directorio en el que se va a almacenar el estado del contenedor mediante la propiedad yarn.nodemanager.recovery.dir.

sudo /sbin/stop hadoop-yarn-nodemanager sudo /sbin/start hadoop-yarn-nodemanager

Para obtener más información sobre yarn-site las propiedades actuales y los valores predeterminados, consulte la configuración YARN predeterminada en la documentación de Apache Hadoop.

Propiedad Valor predeterminado Descripción

yarn.nodemanager. disk-health-checker.interval-ms

120 000

La frecuencia (en segundos) con la que se ejecuta el comprobador de estado del disco.

yarn.nodemanager. disk-health-checker. min-healthy-disks

0,25

La fracción mínima de la cantidad de discos que deben estar en buen estado NodeManager para lanzar nuevos contenedores. Esto corresponde tanto a yarn.nodemanager.local-dirs (de forma predeterminada, en Amazon) como a yarn.nodemanager.log-dirs (de forma predeterminada, que tiene un enlace simbólico /mnt/yarn en EMR Amazon). /var/log/hadoop-yarn/containers mnt/var/log/hadoop-yarn/containers EMR

yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage

90,0

El porcentaje máximo de utilización del espacio en disco permitido después del cual un disco se marca como dañado. Los valores están comprendidos entre 0,0 y 100,0. Si el valor es mayor o igual a 100, comprueba si el disco está lleno. NodeManager Esto se aplica a yarn-nodemanager.local-dirs y yarn.nodemanager.log-dirs.

yarn.nodemanager.disk-health-checker.min-free-space-per-disk-mb

0

El espacio mínimo que debe estar disponible en un disco para que se pueda utilizar. Esto se aplica a yarn-nodemanager.local-dirs y yarn.nodemanager.log-dirs.