圧縮ファイルの処理方法 - Amazon EMR

圧縮ファイルの処理方法

Hadoop は、ファイル拡張子をチェックして圧縮ファイルを検出します。Hadoop でサポートされている圧縮タイプは、gzip、bzip2、LZO です。これらのタイプの圧縮を使用してファイルを抽出する際は、追加のアクションは不要です。Hadoop が処理します。

LZO ファイルのインデックスを作成するには、https://github.com/kevinweil/hadoop-lzo からダウンロード可能な hadoop-lzo ライブラリを使用できます。これはサードパーティーライブラリであるため、Amazon EMR はこのツールを使用する方法について開発者サポートを提供しないことに注意してください。使用法については、hadoop-lzo の readme ファイルを参照してください。