Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Elegir el almacenamiento adecuado
Configure los tipos de instancias y la capacidad de su clúster. Los nodos principales y de tareas necesitan potencia de procesamiento y procesamiento, pero solo los nodos principales almacenan datos. Seleccione el tipo de almacenamiento más rentable para sus nodos principales.
Si utiliza Amazon EMR para procesar una gran cantidad de datos, tiene varias opciones para transferir datos desde Amazon S3. La mejor opción depende de tu carga de trabajo. En las siguientes secciones se proporcionan algunos puntos clave a tener en cuenta a la hora de decidir qué tipo de almacenamiento es el más adecuado para usted.
Sistema de archivos distribuidos Hadoop
Hadoop Distributed File System (HDFS) es Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido, escalable y portátil para Hadoop Distributed File System. Una ventaja de HDFS es el reconocimiento de datos entre los nodos de clúster de Hadoop que administran los clústeres y los nodos de clúster de Hadoop que administran los pasos individuales.
Cuándo usar HDFS en Amazon EMR
Cuando tiene lecturas iterativas en el mismo conjunto de datos o cargas de trabajo con un uso intensivo de I/O de disco, puede utilizar HDFS para almacenar en caché los resultados intermedios y como almacenamiento activo para procesar los datos. El HDFS es efímero, lo que significa que se recupera cuando se terminan las instancias.
Sistema de archivos EMR
El sistema de archivos EMR (EMRFS) es una implementación de HDFS que los clústeres de Amazon EMR suelen utilizar para leer y escribir archivos normales de Amazon EMR directamente en Amazon S3.
Puede usar EMRFS al leer el conjunto de datos una vez en cada ejecución. EMRFS desvincula el almacenamiento del procesamiento, por lo que no necesita aprovisionar nodos principales específicamente para almacenar datos y no necesita pagar por la replicación de datos en HDFS. Esto se traduce en costos más bajos y proporciona disponibilidad de los datos para varios clústeres. También tiene la ventaja de conservar los datos después de cerrar el clúster.