Utilizzando la compressione dati

Quando usi Hive per copiare dati tra diverse fonti di dati, puoi richiedere on-the-fly la compressione dei dati. Hive fornisce diversi codec di compressione. È possibile sceglierne uno durante la sessione di Hive. In questo modo, i dati vengono compressi nel formato specificato.

L'esempio seguente comprime i dati utilizzando l'algoritmo Lempel-Ziv-Oberhumer (LZO).


SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK;
SET mapred.output.compression.codec = com.hadoop.compression.lzo.LzopCodec;

CREATE EXTERNAL TABLE lzo_compression_table (line STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
LOCATION 's3://bucketname/path/subpath/';

INSERT OVERWRITE TABLE lzo_compression_table SELECT *
FROM hiveTableName;

Il file risultante in Amazon S3 avrà un nome generato dal sistema con .lzo alla fine (ad esempio, 8d436957-57ba-4af7-840c-96c2fc7bb6f5-000000.lzo).

I codec di compressione disponibili sono:

org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.DefaultCodec
com.hadoop.compression.lzo.LzoCodec
com.hadoop.compression.lzo.LzopCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.SnappyCodec

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Copia di dati tra DynamoDB e HDFS

Lettura di dati di caratteri UTF-8 non stampabili