Quais formatos a Amazon pode EMR devolver? - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Quais formatos a Amazon pode EMR devolver?

O formato de saída padrão para um cluster é texto com pares de chave e valor gravados nas linhas individuais dos arquivos de texto. Este é o formato de saída mais comumente usado.

Se os dados de saída precisam ser gravados em um formato que não seja o de arquivos de texto padrão, você pode usar a interface do Hadoop OutputFormat para especificar outros tipos de saída. Você pode até mesmo criar uma subclasse da classe FileOutputFormat para tratar os tipos de dados personalizados. Para obter mais informações, consulte http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/ OutputFormat .html.

Se você estiver iniciando um cluster do Hive, poderá usar um serializador/desserializador (SerDe) para gerar dados de um determinado formato. HDFS Para obter mais informações, consulte https://cwiki.apache.org/confluence/display/Hive/ SerDe.