Selección e implementación de un clúster de Amazon EMR - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Selección e implementación de un clúster de Amazon EMR

Identifique y organice los tipos de nodos. Cuando defina su clúster de Amazon EMR, es importante entender su hardware. ¿Cómo funciona? ¿Cómo está compuesto? Las respuestas a estas preguntas incluyen tres partes:

  • El tipo de nodos

  • La función que desempeña cada nodo

  • Los tipos de instancias EC2 que son más eficientes para cada nodo

Inicialmente, el nodo principal se encarga de administrar los recursos generales. Ejecuta los componentes principales de la aplicación distribuida. Por ejemplo, ejecuta el NameNode servicio Hadoop Distributed File System (HDFS), realiza un seguimiento de las tareas que se deben realizar en el clúster y supervisa el estado del sistema.

Además, Amazon EMR tiene nodos principales y nodos de tareas. Los nodos básicos los administra el nodo principal. Los nodos principales ejecutan nodos de tareas y se encargan de almacenar los datos en el HDFS del clúster. Los nodos de tareas se encargan de gestionar las tareas que llegan al clúster. Un nodo de tareas no almacena datos. (Los nodos de tareas no son obligatorios).

Al configurar e implementar su clúster de Amazon EMR, una consideración importante es la elección correcta de las instancias EC2 que representarán los nodos de su clúster. Existen varias formas de añadir instancias EC2 a un clúster, según se utilice la configuración de grupos de instancias o la configuración de flotas de instancias del clúster. Para obtener más información sobre los tipos de instancias compatibles, consulta la AWS documentación.

Las siguientes pautas se aplican a la mayoría de los clústeres de Amazon EMR. También puede revisar las prácticas recomendadas de configuración de clústeres.

Directrices de selección de instancias

En general, las instancias preferidas para la implementación de Amazon EMR dependen del trabajo que esté ejecutando. Tenga en cuenta las siguientes preguntas:

  • ¿Su trabajo consume mucha memoria?

  • ¿Su trabajo requiere un uso intensivo de la CPU?

  • ¿Necesita grandes cantidades de almacenamiento?

  • ¿Su trabajo requiere capacidad de GPU?

Estas preguntas le ayudarán a entender el tipo de instancias que necesita y las características reales que necesita. Determine cuántos trabajos desea procesar al mismo tiempo y con qué rapidez necesita que se procesen los trabajos. Esto es importante porque el uso de Amazon EMR se cobra en incrementos por hora. Al activar un clúster, se le cobrará la hora completa.

Puedes comprobar el coste de cada instancia que se ejecute en distintas AWS regiones. Para comparar precios entre regiones, puede usar la calculadora de AWS precios y cambiar los valores en función de su ubicación.

Selección de instancias EC2

Cuando haya respondido a las preguntas anteriores, es el momento de seleccionar las instancias en función de esos requisitos. Una vez que comprenda las necesidades de su trabajo de procesamiento, determine el tipo de instancia en función de las características que necesite:

  • Si necesita instancias de uso general, elija instancias M6g, T4g o M5.

  • Si necesita instancias optimizadas para computación, elija instancias C6g o C5.

  • Si necesita instancias optimizadas para la memoria, elija las instancias R6g, X1, R5 o z1d.

  • Si debe optimizarlas para el almacenamiento, elija las instancias I3, que ofrecen un alto rendimiento de E/S.

  • Si necesita computación acelerada, como una GPU, elija las instancias P3, G4 o Inf1. Estos tipos de instancias proporcionan un alto rendimiento para el aprendizaje automático y la dinámica de fluidos, entre otros procesos.

Otra forma de entender los tipos de instancias y sus capacidades es analizar la memoria predeterminada para cada tipo de instancia. Esta métrica le ayuda a ajustar y mejorar el rendimiento de sus MapReduce trabajos. Para obtener más información, consulte los ajustes de configuración del daemon de Hadoop.

Cuando sepa el tipo de instancias que necesita, podrá planificar la capacidad del clúster.