Prácticas recomendadas de configuración de Amazon EMR - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prácticas recomendadas de configuración de Amazon EMR

Al configurar su clúster de Amazon EMR, siga las siguientes prácticas recomendadas para agregar instancias, trabajar con grupos de instancias y usar instancias puntuales.

Añadir instancias

Al configurar el clúster de EMR, es importante tener en cuenta la elección correcta de las instancias de EC2 que representarán los nodos del clúster. Recuerde que no puede cambiar el tipo de instancias, por ejemplo, cambiar las instancias puntuales a instancias bajo demanda, cuando el clúster está en ejecución. Para cambiar el nodo principal, debe cerrar el clúster y crear uno nuevo. Por eso debes elegir el tipo de instancia correcto para tener el menor tiempo de inactividad posible. Para obtener más información, consultePautas y mejores prácticas de configuración de clústeres.

Hay varias formas de agregar instancias de EC2 a un clúster, en función de si utiliza la configuración de grupos de instancias o la configuración de flotas de instancias para el clúster:

  • Agregar instancias de EC2 manualmente

  • Agrega manualmente una tarea en el grupo de instancias para agregar automáticamente una instancia

  • Configurar el escalado automático

Grupos de instancias

Cuando añada instancias de EC2 a su configuración, considere la posibilidad de utilizar grupos de instancias. Si agrega instancias manualmente, puede agregar instancias del mismo tipo a los grupos de instancias principales y de tareas existentes. Además, puedes añadir un grupo de instancias de tareas, que puede usar un tipo de instancia diferente.

Por último, configure el escalado automático en Amazon EMR para un grupo de instancias. Las instancias se pueden añadir y eliminar automáticamente en función del valor de un AmazonCloudWatchmétrica que especifique. De lo contrario, si usas flotas de instancias, agrega una sola flota de instancias de tareas. A continuación, cambie la capacidad objetivo para las instancias bajo demanda y las instancias puntuales para las flotas de instancias principales y de tareas existentes.

Spot Instances

Utilice instancias puntuales en los nodos de tareas. Los nodos de tareas procesan datos, pero no contienen datos persistentes en el Sistema de archivos distribuidos de Hadoop (HDFS). Si los nodos de tareas se cierran porque el precio spot ha subido por encima del precio spot máximo, no se pierde ningún dato y el efecto en el clúster es mínimo.

Cuando lanza grupos de instancias de tareas como instancias puntuales, Amazon EMR aprovisiona tantos nodos de tareas como puede, utilizando su precio máximo de spot. Por ejemplo, puedes solicitar un grupo de instancias de tareas con seis nodos. Si solo hay cinco instancias puntuales disponibles al precio máximo de spot o por debajo de este, Amazon EMR lanza el grupo de instancias con cinco nodos. Amazon EMR añade el sexto nodo más adelante si es posible. Para obtener más información, consultePautas y mejores prácticas de configuración de clústeres.