데이터 압축 사용

Hive를 사용하여 여러 데이터 원본에서 데이터를 복사하는 경우 즉시 데이터 압축을 요청할 수 있습니다. Hive는 다양한 압축 코덱을 제공합니다. Hive 세션 도중 한 가지를 선택할 수 있습니다. 그러면 데이터가 지정된 형식으로 압축됩니다.

다음 예제에서는 Lempel-Ziv-Oberhumer(LZO) 알고리즘을 사용하여 데이터를 압축합니다.


SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK;
SET mapred.output.compression.codec = com.hadoop.compression.lzo.LzopCodec;

CREATE EXTERNAL TABLE lzo_compression_table (line STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
LOCATION 's3://bucketname/path/subpath/';

INSERT OVERWRITE TABLE lzo_compression_table SELECT *
FROM hiveTableName;

Amazon S3의 결과 파일은 시스템에 의해 이름이 생성되고 이름의 끝에 .lzo가 추가됩니다(예: 8d436957-57ba-4af7-840c-96c2fc7bb6f5-000000.lzo).

다음과 같은 압축 코덱을 사용할 수 있습니다.

org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.DefaultCodec
com.hadoop.compression.lzo.LzoCodec
com.hadoop.compression.lzo.LzopCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.SnappyCodec

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

DynamoDB와 HDFS 간 데이터 복사

인쇄할 수 없는 UTF-8 문자 데이터 읽기