メニュー
Amazon DynamoDB
開発者ガイド (API Version 2012-08-10)

データ圧縮の使用

さまざまなデータソース間で Hive を使用してデータをコピーする場合、オンザフライのデータ圧縮をリクエストできます。Hive は複数の圧縮コーデックを提供します。Hive セッション中に 1 つを選択できます。選択すると、データは指定した形式で圧縮されます。

次の例では、LZO (Lempel-Ziv-Oberhumer) アルゴリズムを使用して、データを圧縮します。

Copy
SET hive.exec.compress.output=true; SET io.seqfile.compression.type=BLOCK; SET mapred.output.compression.codec = com.hadoop.compression.lzo.LzopCodec; CREATE EXTERNAL TABLE lzo_compression_table (line STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' LOCATION 's3://bucketname/path/subpath/'; INSERT OVERWRITE TABLE lzo_compression_table SELECT * FROM hiveTableName;

Amazon S3 内のファイルにはシステム生成された名前が付けられ、最後に .lzo が付けられます (例: 8d436957-57ba-4af7-840c-96c2fc7bb6f5-000000.lzo)。

以下の圧縮コーデックを利用できます。

  • org.apache.hadoop.io.compress.GzipCodec

  • org.apache.hadoop.io.compress.DefaultCodec

  • com.hadoop.compression.lzo.LzoCodec

  • com.hadoop.compression.lzo.LzopCodec

  • org.apache.hadoop.io.compress.BZip2Codec

  • org.apache.hadoop.io.compress.SnappyCodec