Elegir el almacenamiento correcto - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Elegir el almacenamiento correcto

Configure los tipos y la capacidad de las instancias del clúster. Los nodos principales y de tareas necesitan potencia de procesamiento y computación, pero solo los nodos principales almacenan datos. Seleccione el tipo de almacenamiento más rentable para sus nodos principales.

Si utiliza Amazon EMR para procesar grandes cantidades de datos, tiene varias opciones para mover datos desde Amazon S3. La mejor opción depende de su carga de trabajo. En las siguientes secciones se proporcionan algunos puntos clave que debe tener en cuenta a la hora de decidir qué tipo de almacenamiento es el adecuado para usted.

Sistema de archivos distribuido Hadoop

El sistema de archivos distribuido Hadoop (HDFS) es un sistema de archivos distribuido, escalable y portátil para Hadoop. Una ventaja de HDFS es el reconocimiento de datos entre los nodos de clúster de Hadoop que administran los clústeres y los nodos de clúster de Hadoop que administran los pasos individuales.

Cuándo usar HDFS en Amazon EMR

Si utiliza lecturas iterativas en el mismo conjunto de datos o cargas de trabajo intensivas de E/S de disco, puede utilizar HDFS para almacenar en caché los resultados intermedios y como almacenamiento en caliente para procesar los datos. El HDFS es efímero, lo que significa que se recupera cuando se terminan las instancias.

Sistema de archivos EMR

El sistema de archivos EMR (EMRFS) es una implementación de HDFS que los clústeres de Amazon EMR suelen utilizar para leer y escribir archivos normales de Amazon EMR directamente en Amazon S3.

Puede usar EMRFS para leer el conjunto de datos una vez en cada ejecución. EMRFS desvincula el almacenamiento del procesamiento, por lo que no es necesario aprovisionar nodos principales específicamente para almacenar datos y no es necesario pagar por la replicación de datos en HDFS. Esto se traduce en costos más bajos y proporciona disponibilidad de los datos para varios clústeres. También tiene la ventaja de conservar los datos después de cerrar el clúster.