Que formatos o Amazon EMR pode gerar? - Amazon EMR

Que formatos o Amazon EMR pode gerar?

O formato de saída padrão para um cluster é texto com pares de chave e valor gravados nas linhas individuais dos arquivos de texto. Este é o formato de saída mais comumente usado.

Se os dados de saída precisam ser gravados em um formato que não seja o de arquivos de texto padrão, você pode usar a interface do Hadoop OutputFormat para especificar outros tipos de saída. Você pode até mesmo criar uma subclasse da classe FileOutputFormat para tratar os tipos de dados personalizados. Para obter mais informações, consulte http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/OutputFormat.html.

Se você estiver executando um cluster do Hive, poderá usar um serializador/desserializador (SerDe) para efetuar a saída dos dados do HDFS em um determinado formato. Para obter mais informações, consulte https://cwiki.apache.org/confluence/display/Hive/SerDe.