Tipos de entradas que Amazon EMR puede aceptar - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Tipos de entradas que Amazon EMR puede aceptar

El formato de entrada predeterminado para un clúster son archivos de texto con cada línea separada por un carácter de nueva línea (\n), que es el formato de entrada usado con más frecuencia.

Si los datos de entrada se encuentran en un formato que no sean los archivos de texto predeterminados, puede utilizar la interfaz de Hadoop InputFormat para especificar otros tipos de entrada. Puede incluso crear una subclase de la clase FileInputFormat para gestionar tipos de datos personalizados. Para obtener más información, consulta http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/ InputFormat .html.

Si usa Hive, puede usar un serializador/deserializador (SerDe) para leer datos de un formato determinado a. HDFS Para obtener más información, consulta https://cwiki.apache.org/confluence/display/Hive/. SerDe