Differenze nell'DistCp utilità S3 rispetto alle versioni AMI precedenti di Amazon EMR - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Differenze nell'DistCp utilità S3 rispetto alle versioni AMI precedenti di Amazon EMR

DistCp Versioni S3 supportate in Amazon EMR

Le seguenti versioni di S3 sono supportate nelle DistCp versioni AMI di Amazon EMR. DistCpLe versioni S3 successive alla 1.0.7 si trovano direttamente nei cluster. Utilizza il file JAR in /home/hadoop/lib per le caratteristiche più recenti.

Versione Descrizione Data di rilascio
1.0.8 Aggiunge le opzioni --appendToLastFile, --requirePreviousManifest e --storageClass. 3 gennaio 2014
1.0.7 Aggiunge l'opzione --s3ServerSideEncryption. 2 maggio 2013
1.0.6 Aggiunge l'opzione --s3Endpoint. 6 agosto 2012
1.0.5 Migliora la capacità di specificare quale versione di DistCp S3 eseguire. 27 giugno 2012
1.0.4 Migliora l'opzione --deleteOnSuccess. 19 giugno 2012
1.0.3 Aggiunge supporto per le opzioni --numberFiles e --startingIndex. 12 giugno 2012
1.0.2 Migliora la denominazione di file quando si utilizzano gruppi. 6 giugno 2012
1.0.1 Versione iniziale di DistCp S3. 19 gennaio 2012

Aggiungi una fase di DistCp copia S3 a un cluster

Per aggiungere una fase di DistCp copia S3 a un cluster in esecuzione, digita il seguente comando, sostituisci J-3GYXXXXXX9iok con il tuo ID del cluster e sostituisci mybucket con il nome del tuo bucket Amazon S3.

Nota

I caratteri di continuazione della riga Linux (\) sono inclusi per questioni di leggibilità. Possono essere rimossi o utilizzati nei comandi Linux. Per Windows, rimuovili o sostituiscili con un accento circonflesso (^).

aws emr add-steps --cluster-id j-3GYXXXXXX9IOK \ --steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\ Args=["--s3Endpoint,s3-eu-west-1.amazonaws.com",\ "--src,s3://mybucket/logs/j-3GYXXXXXX9IOJ/node/",\ "--dest,hdfs:///output",\ "--srcPattern,.*[a-zA-Z,]+"]
Esempio Carica i CloudFront log di Amazon in HDFS

Questo esempio carica CloudFront i log di Amazon in HDFS aggiungendo un passaggio a un cluster in esecuzione. Nel processo, cambia il formato di compressione da Gzip ( CloudFrontimpostazione predefinita) a LZO. Ciò è utile in quanto i dati compressi con LZO possono essere suddivisi in più mappe non appena vengono decompressi, senza quindi attendere il completamento della compressione, come avviene con Gzip. Di conseguenza, si ha un miglioramento delle prestazioni durante l'analisi dei dati con Amazon EMR. L'esempio migliora le prestazioni anche mediante l'utilizzo dell'espressione regolare specificata nell'opzione --groupBy per combinare tutti i log di una determinata ora in un singolo file. I cluster Amazon EMR sono più efficienti quando si elaborano alcuni file voluminosi compressi con LZO anziché molti file di piccole dimensioni compressi con Gzip. Per suddividere i file LZO, è necessario indicizzarli e utilizzare la libreria di terza parte hadoop-lzo.

Per caricare CloudFront i log di Amazon in HDFS, digita il seguente comando, sostituisci J-3GYXXXXXX9iok con il tuo ID del cluster e sostituisci mybucket con il nome del tuo bucket Amazon S3.

Nota

I caratteri di continuazione della riga Linux (\) sono inclusi per questioni di leggibilità. Possono essere rimossi o utilizzati nei comandi Linux. Per Windows, rimuovili o sostituiscili con un accento circonflesso (^).

aws emr add-steps --cluster-id j-3GYXXXXXX9IOK \ --steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\ Args=["--src,s3://mybucket/cf","--dest,hdfs:///local",\ "--groupBy,.*XABCD12345678.([0-9]+-[0-9]+-[0-9]+-[0-9]+).*",\ "--targetSize,128", "--outputCodec,lzo","--deleteOnSuccess"]

Considera il caso in cui l'esempio precedente venga eseguito sui seguenti file di registro. CloudFront

s3://DOC-EXAMPLE-BUCKET1/cf/XABCD12345678.2012-02-23-01.HLUS3JKx.gz s3://DOC-EXAMPLE-BUCKET1/cf/XABCD12345678.2012-02-23-01.I9CNAZrg.gz s3://DOC-EXAMPLE-BUCKET1/cf/XABCD12345678.2012-02-23-02.YRRwERSA.gz s3://DOC-EXAMPLE-BUCKET1/cf/XABCD12345678.2012-02-23-02.dshVLXFE.gz s3://DOC-EXAMPLE-BUCKET1/cf/XABCD12345678.2012-02-23-02.LpLfuShd.gz

S3 DistCp copia, concatena e comprime i file nei due file seguenti, in cui il nome del file è determinato dalla corrispondenza effettuata dall'espressione regolare.

hdfs:///local/2012-02-23-01.lzo hdfs:///local/2012-02-23-02.lzo