Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Prácticas recomendadas de configuración de Amazon EMR
Al configurar su clúster de Amazon EMR, utilice las siguientes prácticas recomendadas para añadir instancias, trabajar con grupos de instancias y usar instancias puntuales.
Añadir instancias
Al configurar el clúster de EMR, es importante tener en cuenta la elección correcta de las EC2 instancias que representarán los nodos del clúster. Recuerde que no puede cambiar el tipo de instancias, como cambiar las instancias puntuales por instancias bajo demanda, cuando el clúster está en ejecución. Para cambiar el nodo principal, debe cerrar el clúster y crear uno nuevo. Por eso, debe elegir el tipo de instancia correcto para tener el menor tiempo de inactividad posible. Para obtener más información, consulta las pautas y prácticas recomendadas para la configuración de clústeres.
Existen varias formas de añadir EC2 instancias a un clúster, según se utilice la configuración de grupos de instancias o la configuración de flotas de instancias para el clúster:
-
Agrega EC2 instancias manualmente
-
Agrega manualmente una tarea al grupo de instancias para agregar automáticamente una instancia
-
Configura el escalado automático
Grupos de instancias
Cuando agregues EC2 instancias a tu configuración, considera usar grupos de instancias. Si agregas instancias manualmente, puedes agregar instancias del mismo tipo a los grupos de instancias principales y de tareas existentes. Además, puedes añadir un grupo de instancias de tareas, que puede usar un tipo de instancia diferente.
Por último, configura el escalado automático en Amazon EMR para un grupo de instancias. Las instancias se pueden añadir y eliminar automáticamente en función del valor de una CloudWatch métrica de Amazon que especifiques. De lo contrario, si utilizas flotas de instancias, añade una flota de instancias de una sola tarea. A continuación, cambie la capacidad objetivo de las instancias bajo demanda y las instancias puntuales para las flotas de instancias principales y de tareas existentes.
Spot Instances
Utilice instancias puntuales en los nodos de tareas. Los nodos de tareas procesan los datos, pero no almacenan los datos persistentes en el Sistema de archivos distribuido de Hadoop (HDFS). Si los nodos de tareas se cierran porque el precio spot ha subido por encima del precio spot máximo, no se pierde ningún dato y el efecto en el clúster es mínimo.
Cuando lanza grupos de instancias de tareas como instancias puntuales, Amazon EMR aprovisiona tantos nodos de tareas como puede, utilizando su precio puntual máximo. Por ejemplo, puede solicitar un grupo de instancias de tareas con seis nodos. Si solo hay cinco instancias puntuales disponibles al precio de subasta máximo o inferior, Amazon EMR lanza el grupo de instancias con cinco nodos. Amazon EMR añade el sexto nodo más adelante si es posible. Para obtener más información, consulte las pautas y prácticas recomendadas para la configuración de clústeres.