DistCp Versioni S3 supportate in Amazon EMR Aggiungi una fase di DistCp copia S3 a un cluster

Differenze nell'DistCp utilità S3 rispetto alle versioni AMI precedenti di Amazon EMR

DistCp Versioni S3 supportate in Amazon EMR

Le seguenti versioni di S3 sono supportate nelle DistCp versioni AMI di Amazon EMR. DistCpLe versioni S3 successive alla 1.0.7 si trovano direttamente nei cluster. Utilizza il file JAR in /home/hadoop/lib per le caratteristiche più recenti.

Versione	Descrizione	Data di rilascio
1.0.8	Aggiunge le opzioni `--appendToLastFile`, `--requirePreviousManifest` e `--storageClass`.	3 gennaio 2014
1.0.7	Aggiunge l'opzione `--s3ServerSideEncryption`.	2 maggio 2013
1.0.6	Aggiunge l'opzione `--s3Endpoint`.	6 agosto 2012
1.0.5	Migliora la capacità di specificare quale versione di DistCp S3 eseguire.	27 giugno 2012
1.0.4	Migliora l'opzione `--deleteOnSuccess`.	19 giugno 2012
1.0.3	Aggiunge supporto per le opzioni `--numberFiles` e `--startingIndex`.	12 giugno 2012
1.0.2	Migliora la denominazione di file quando si utilizzano gruppi.	6 giugno 2012
1.0.1	Versione iniziale di DistCp S3.	19 gennaio 2012

Aggiungi una fase di DistCp copia S3 a un cluster

Per aggiungere una fase di DistCp copia S3 a un cluster in esecuzione, digita il seguente comando, sostituiscilo j-3GYXXXXXX9IOK con il tuo ID del cluster e sostituiscilo amzn-s3-demo-bucket con il nome del bucket Amazon S3.

Nota

I caratteri di continuazione della riga Linux (\) sono inclusi per questioni di leggibilità. Possono essere rimossi o utilizzati nei comandi Linux. Per Windows, rimuovili o sostituiscili con un accento circonflesso (^).


aws emr add-steps --cluster-id j-3GYXXXXXX9IOK \
--steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\
Args=["--s3Endpoint,s3-eu-west-1.amazonaws.com",\
"--src,s3://amzn-s3-demo-bucket/logs/j-3GYXXXXXX9IOJ/node/",\
"--dest,hdfs:///output",\
"--srcPattern,.*[a-zA-Z,]+"]

Esempio Carica i CloudFront log di Amazon in HDFS

Questo esempio carica CloudFront i log di Amazon in HDFS aggiungendo un passaggio a un cluster in esecuzione. Cambia inoltre il formato di compressione da Gzip (l'impostazione predefinita in CloudFront) in LZO. Ciò è utile in quanto i dati compressi con LZO possono essere suddivisi in più mappe non appena vengono decompressi, senza quindi attendere il completamento della compressione, come avviene con Gzip. Di conseguenza, si ha un miglioramento delle prestazioni durante l'analisi dei dati con Amazon EMR. L'esempio migliora le prestazioni anche mediante l'utilizzo dell'espressione regolare specificata nell'opzione --groupBy per combinare tutti i log di una determinata ora in un singolo file. I cluster Amazon EMR sono più efficienti quando si elaborano alcuni file voluminosi compressi con LZO anziché molti file di piccole dimensioni compressi con Gzip. Per suddividere i file LZO, è necessario indicizzarli e utilizzare la libreria di terza parte hadoop-lzo.

Per caricare CloudFront i log di Amazon in HDFS, digita il seguente comando, sostituiscilo j-3GYXXXXXX9IOK con il tuo ID del cluster e sostituiscilo amzn-s3-demo-bucket con il nome del tuo bucket Amazon S3.

Nota


aws emr add-steps --cluster-id j-3GYXXXXXX9IOK \
--steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\
Args=["--src,s3://amzn-s3-demo-bucket/cf","--dest,hdfs:///local",\
"--groupBy,.*XABCD12345678.([0-9]+-[0-9]+-[0-9]+-[0-9]+).*",\
"--targetSize,128",
"--outputCodec,lzo","--deleteOnSuccess"]

Supponiamo che l'esempio precedente sia eseguito sui file di log di CloudFront seguenti.



s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-01.HLUS3JKx.gz
s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-01.I9CNAZrg.gz
s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-02.YRRwERSA.gz
s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-02.dshVLXFE.gz
s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-02.LpLfuShd.gz

S3 DistCp copia, concatena e comprime i file nei due file seguenti, in cui il nome del file è determinato dalla corrispondenza effettuata dall'espressione regolare.



hdfs:///local/2012-02-23-01.lzo
hdfs:///local/2012-02-23-02.lzo

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Spark

Novità