Types de saisie qu'Amazon EMR peut accepter - Amazon EMR

Types de saisie qu'Amazon EMR peut accepter

Le format d'entrée par défaut pour un cluster correspond à des fichiers texte dont chaque ligne est séparée par un caractère de nouvelle ligne (\n), ce qui est le format d'entrée le plus couramment utilisé.

Si vos données d'entrée sont dans un format différent des fichiers texte par défaut, vous pouvez utiliser l'interface Hadoop InputFormat pour spécifier d'autres types d'entrée. Vous pouvez même créer une sous-classe de la classe FileInputFormat pour gérer les types de données personnalisés. Pour plus d'informations, consultez http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html.

Si vous utilisez Hive, vous pouvez utiliser un sérialiseur/désérialiseur (SerDe) pour lire les données à partir d'un format donné dans HDFS. Pour plus d'informations, consultez https://cwiki.apache.org/confluence/display/Hive/SerDe.