Amazon EMR が受け入れることができる入力のタイプ - Amazon EMR

Amazon EMR が受け入れることができる入力のタイプ

クラスターのデフォルトの入力形式は、各行が改行 (\n) 文字で区切られているテキストファイルです。これは、最もよく使用される入力形式です。

入力データがデフォルトのテキストファイル以外の形式である場合は、Hadoop インターフェイス InputFormat を使用して他の入力の種類を指定できます。カスタムデータの種類を処理するために、FileInputFormat クラスのサブクラスを作成することもできます。詳細については、http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html を参照してください。

Hive を使用している場合は、シリアライザー/デシリアライザー(SerDe)を使用して、所与の形式のデータを HDFS に読み込むことができます。詳細については、https://cwiki.apache.org/confluence/display/Hive/SerDe を参照してください。