Welche Formate kann Amazon EMR zurückgeben? - Amazon EMR

Welche Formate kann Amazon EMR zurückgeben?

Das Standardausgabeformat für einen Cluster ist Text mit Schlüssel-Wert-Paaren, die in einzelne Zeilen der Textdateien geschrieben werden. Dies ist das am häufigsten verwendete Ausgabeformat.

Wenn Ihre Ausgabedaten in einem anderen Format geschrieben werden müssen als Standardtextdateien, können Sie die Hadoop-Benutzeroberfläche OutputFormat verwenden, um andere Ausgabetypen anzugeben. Sie können auch eine Unterklasse der FileOutputFormat-Klasse für den Umgang mit benutzerdefinierten Datentypen verwenden. Weitere Informationen finden Sie unter http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/OutputFormat.html.

Wenn Sie einen Hive-Cluster starten, können Sie einen Serializer/Deserializer (SerDe) verwenden, um Daten von HDFS in einem bestimmten Format auszugeben. Weitere Informationen finden Sie unter https://cwiki.apache.org/confluence/display/Hive/SerDe.