Selección del hardware para su clúster de Amazon EMR - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Selección del hardware para su clúster de Amazon EMR

Sayde Aguilar, Amiin Samatar y Diego Valencia, de Amazon Web Services (AWS)

agosto de 2023(historial de documentos)

Amazon EMR es una herramienta para el procesamiento de macrodatos. Utiliza software de código abierto, específicamente herramientas de Apache como Apache Spark y Apache Hudi. Además, ofrece varias opciones para configurar y utilizar un sistema de bajo costo,pay-as-you-gomodelo.

En esta guía se explica cómo diseñar el clúster de Amazon EMR en función de esa elasticidad y se proporcionan las prácticas recomendadas a seguir a la hora de elegir el hardware.

Información general

Amazon EMR se ha creado con Apache HadoopMapReduce, un marco para procesar grandes cantidades de datos. HadoopMapReduceprocesa los datos en clústeres distribuidos al mismo tiempo mediante lógica paralela, lo que significa que cada proceso tiene su propio procesador. Amazon EMR usa un clúster Hadoop de servidores virtuales estructurado en Amazon Elastic Compute Cloud (Amazon EC2). Esto significa que todos los procesos paralelos se realizan en ordenadores independientes que se ejecutan en Amazon Web Services (AWS).

Un clúster de Hadoop es un tipo específico de clúster computacional que se utiliza para procesar grandes cantidades de datos no estructurados mediante entornos paralelos o distribuidos. Una característica clave de un clúster de Hadoop es que es altamente escalable y se puede configurar para aumentar la velocidad del procesamiento de datos. La escalabilidad se alcanza añadiendo o quitando nodos para aumentar o disminuir el rendimiento. En los clústeres de Hadoop, cada dato se copia entre los nodos del clúster, por lo que se pierden casi cero datos si se produce un error en un nodo.

En Amazon EMR,elasticidadhace referencia a la capacidad de redimensionamiento dinámico. Puede escalar automáticamente el clúster y realizar los cambios que necesite. No tiene que confiar en su diseño de hardware inicial.

En esta guía se explica cómo diseñar el clúster de Amazon EMR en función de esa elasticidad y se proporcionan las prácticas recomendadas a seguir a la hora de elegir el hardware.