Trabajo con almacenamiento y sistemas de archivos con Amazon EMR

Amazon EMR y Hadoop proporcionan una variedad de sistemas de archivos que puede utilizar al momento de procesar pasos de clústeres. Puede especificar qué sistema de archivos utilizar mediante el prefijo del URI utilizado para acceder a los datos. Por ejemplo, s3://amzn-s3-demo-bucket1/path hace referencia a un bucket de Amazon S3 mediante S3A (desde la versión EMR-7.10.0). En la siguiente tabla se muestran los sistemas de archivos disponibles, con recomendaciones sobre la hora que es mejor utilizar cada una de ellas.

Amazon EMR y Hadoop suelen utilizar dos o más de los siguientes sistemas de archivos al procesar un clúster. HDFS y S3A son los dos sistemas de archivos principales que se utilizan con Amazon EMR.

importante

A partir de la versión 5.22.0 de Amazon EMR, Amazon EMR AWS utiliza Signature Version 4 exclusivamente para autenticar las solicitudes a Amazon S3. Las versiones anteriores de Amazon EMR utilizan AWS Signature Version 2 en algunos casos, a menos que las notas de la versión indiquen que se utiliza exclusivamente Signature Version 4. Para obtener más información, consulte Autenticación de solicitudes (versión de AWS firma 4) y Autenticación de solicitudes (versión de AWS firma 2) en la Guía para desarrolladores de Amazon Simple Storage Service.

Sistema de archivos	Prefijo	Descripción
HDFS	`hdfs://` (o sin prefijo)	HDFS es un sistema de archivos distribuido, escalable y portátil para Hadoop. Una ventaja de HDFS es el reconocimiento de datos entre los nodos de clúster de Hadoop que administran los clústeres y los nodos de clúster de Hadoop que administran los pasos individuales. Para obtener más información, consulte la documentación de Hadoop. Los nodos principales y los nodos secundarios utilizan HDFS. Una ventaja es que es rápido; una desventaja es que se trata de almacenamiento efímero que se reclama cuando el clúster finaliza. Es mejor utilizarlo para almacenar en caché los resultados producidos por pasos de flujos de trabajo intermedios.
S3A	`s3://, s3a://, s3n://`	El sistema de archivos Hadoop S3A es un conector S3 de código abierto que permite a Apache Hadoop y su ecosistema interactuar directamente con el almacenamiento de Amazon S3. Permite a los usuarios leer y escribir datos en depósitos de S3 mediante operaciones de archivos compatibles con Hadoop, lo que proporciona una integración perfecta entre las aplicaciones de Hadoop y el almacenamiento en la nube. nota Antes de EMR-7.10.0, Amazon EMR utilizaba EMRFS para los esquemas s3://y s3n://.
sistema de archivos local		El sistema de archivos local se refiere a un disco conectado a nivel local. Cuando se crea un clúster de Hadoop, cada nodo se crea a partir de una EC2 instancia que incluye un bloque preconfigurado de almacenamiento en disco preconectado denominado almacén de instancias. Los datos de los volúmenes del almacén de instancias solo se conservan durante la vida útil de la instancia. EC2 Los volúmenes de almacén de instancias son ideales para el almacenamiento temporal de datos que cambian constantemente, como los búferes, las cachés, los datos de pruebas y otro contenido temporal. Para obtener más información, consulta Amazon EC2 instance Storage. HDFS utiliza el sistema de archivos local, pero Python también se ejecuta desde el sistema de archivos local y puede optar por almacenar archivos de aplicaciones adicionales en volúmenes de almacenes de instancias.
Sistema de archivos de bloques de Amazon S3 (heredado)	`s3bfs://`	El sistema de archivos de bloque de Amazon S3 es un sistema de almacenamiento de archivos heredado. Recomendamos encarecidamente evitar el uso de este sistema. importante Le recomendamos que no use este sistema de archivos, ya que puede activar una condición de carrera que podrían provocar un error del clúster. Sin embargo, es posible que aplicaciones heredadas lo requieran.

Acceso a sistemas de archivo

Puede especificar qué sistema de archivos utilizar mediante el prefijo del identificador de recursos uniforme (URI) utilizado para acceder a los datos. Los siguientes procedimientos ilustran cómo hacer referencia a diferentes tipos de sistemas de archivos.

Para acceder a una HDFS local

Especifique el prefijo hdfs:/// en el URI. Amazon EMR resuelve rutas que no especifican un prefijo en el URI al HDFS local. Por ejemplo, las dos situaciones siguientes se URIs resolverían en la misma ubicación en HDFS.
```
hdfs:///path-to-data
							
/path-to-data
            
```

Para acceder a una HDFS remota

Incluya la dirección IP del nodo principal en el URI, tal y como se muestra en los siguientes ejemplos.



hdfs://master-ip-address/path-to-data
						
master-ip-address/path-to-data

Para acceder a Amazon S3

Utilice el prefijo s3://.


						
s3://bucket-name/path-to-file-in-bucket

Para acceder al sistema de archivos de bloques de Amazon S3

Se utiliza únicamente por las aplicaciones heredadas que requieren el sistema de archivos de bloques de Amazon S3. Para acceder a datos o almacenar datos con este sistema de archivos, utilice el prefijo s3bfs:// en el URI.

El sistema de archivos en bloque Amazon S3 es un sistema de archivos heredado que se utilizaba para admitir cargas a Amazon S3 de más de 5 GB. Con la funcionalidad de carga multiparte que Amazon EMR proporciona a través AWS del SDK de Java, puede cargar archivos de gran tamaño al sistema de archivos nativo de Amazon S3, y el sistema de archivos de bloques de Amazon S3 está obsoleto. Para obtener más información sobre la carga multiparte para EMR, consulte Configurar la carga multiparte para Amazon S3. Para obtener más información sobre los límites de tamaño de objetos y piezas de S3, consulte los límites de carga multiparte de Amazon S3 en la Guía del usuario de Amazon Simple Storage Service.

aviso
Dado que este sistema de archivos heredado puede crear condiciones de carrera que podrían provocar daños en el sistema de archivos, debe evitar este formato y usar EMRFS en su lugar.
```
s3bfs://bucket-name/path-to-file-in-bucket
            
```

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Elija una AWS región para su clúster de Amazon EMR

Preparación de los datos de entrada para su procesamiento con Amazon EMR

Trabajo con almacenamiento y sistemas de archivos con Amazon EMR

importante

nota

importante

Acceso a sistemas de archivo

Para acceder a una HDFS local

Para acceder a una HDFS remota

Para acceder a Amazon S3

Para acceder al sistema de archivos de bloques de Amazon S3

aviso