Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Differenze tra le DistCp utilità di S3 e AMI le versioni precedenti di Amazon EMR
DistCp Versioni S3 supportate in Amazon EMR
Le seguenti DistCp versioni di S3 sono supportate nelle EMR AMI versioni di Amazon. DistCpLe versioni S3 successive alla 1.0.7 si trovano direttamente sui cluster. Usa l'JARin /home/hadoop/lib
per le funzionalità più recenti.
Versione | Descrizione | Data di rilascio |
---|---|---|
1.0.8 | Aggiunge le opzioni --appendToLastFile , --requirePreviousManifest e --storageClass . |
3 gennaio 2014 |
1.0.7 | Aggiunge l'opzione --s3ServerSideEncryption . |
2 maggio 2013 |
1.0.6 | Aggiunge l'opzione --s3Endpoint . |
6 agosto 2012 |
1.0.5 | Migliora la capacità di specificare quale versione di S3 DistCp eseguire. | 27 giugno 2012 |
1.0.4 | Migliora l'opzione --deleteOnSuccess . |
19 giugno 2012 |
1.0.3 | Aggiunge supporto per le opzioni --numberFiles e --startingIndex . |
12 giugno 2012 |
1.0.2 | Migliora la denominazione di file quando si utilizzano gruppi. | 6 giugno 2012 |
1.0.1 | Versione iniziale di DistCp S3. | 19 gennaio 2012 |
Aggiungi una fase di DistCp copia S3 a un cluster
Per aggiungere una fase di DistCp copia S3 a un cluster in esecuzione, digita il seguente comando, replace j-3GYXXXXXX9IOK
con il tuo ID del cluster e sostituisci amzn-s3-demo-bucket
con il nome del tuo bucket Amazon S3.
Nota
I caratteri di continuazione della riga Linux (\) sono inclusi per questioni di leggibilità. Possono essere rimossi o utilizzati nei comandi Linux. Per Windows, rimuovili o sostituiscili con un accento circonflesso (^).
aws emr add-steps --cluster-id
j-3GYXXXXXX9IOK
\ --steps Type=CUSTOM_JAR
,Name="S3DistCp step"
,Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar
,\ Args=["--s3Endpoint
,s3-eu-west-1.amazonaws.com
",\ "--src
,s3://amzn-s3-demo-bucket/logs/j-3GYXXXXXX9IOJ/node/
",\ "--dest
,hdfs:///output
",\ "--srcPattern
,.*[a-zA-Z,]+
"]
Esempio Carica i dati di CloudFront accesso di Amazon HDFS
Questo esempio carica CloudFront gli accessi di Amazon HDFS aggiungendo un passaggio a un cluster in esecuzione. Nel processo, cambia il formato di compressione da Gzip ( CloudFrontpredefinito) a. LZO Ciò è utile perché i dati compressi utilizzando LZO possono essere suddivisi in più mappe durante la decompressione, quindi non è necessario attendere il completamento della compressione, come si fa con Gzip. Ciò offre prestazioni migliori quando si analizzano i dati utilizzando AmazonEMR. L'esempio migliora le prestazioni anche mediante l'utilizzo dell'espressione regolare specificata nell'opzione --groupBy
per combinare tutti i log di una determinata ora in un singolo file. EMRI cluster Amazon sono più efficienti nell'elaborazione di pochi file compressi di grandi dimensioni rispetto all'elaborazione di molti file piccoli LZO compressi con Gzip. Per dividere LZO i file, devi indicizzarli e usare la libreria di terze parti hadoop-lzo.
Per caricare CloudFront gli accessi di AmazonHDFS, digita il seguente comando, replace j-3GYXXXXXX9IOK
con il tuo ID del cluster e sostituisci amzn-s3-demo-bucket
con il nome del tuo bucket Amazon S3.
Nota
I caratteri di continuazione della riga Linux (\) sono inclusi per questioni di leggibilità. Possono essere rimossi o utilizzati nei comandi Linux. Per Windows, rimuovili o sostituiscili con un accento circonflesso (^).
aws emr add-steps --cluster-id
j-3GYXXXXXX9IOK
\ --steps Type=CUSTOM_JAR
,Name="S3DistCp step"
,Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar
,\ Args=["--src
,s3://amzn-s3-demo-bucket/cf
","--dest
,hdfs:///local
",\ "--groupBy
,.*XABCD12345678.([0-9]+-[0-9]+-[0-9]+-[0-9]+).*
",\ "--targetSize
,128
", "--outputCodec
,lzo
","--deleteOnSuccess
"]
Consideriamo il caso in cui l'esempio precedente venga eseguito sui seguenti CloudFront file di registro.
s3://amzn-s3-demo-bucket1/cf/XABCD12345678.2012-02-23-01.HLUS3JKx.gz s3://amzn-s3-demo-bucket1/cf/XABCD12345678.2012-02-23-01.I9CNAZrg.gz s3://amzn-s3-demo-bucket1/cf/XABCD12345678.2012-02-23-02.YRRwERSA.gz s3://amzn-s3-demo-bucket1/cf/XABCD12345678.2012-02-23-02.dshVLXFE.gz s3://amzn-s3-demo-bucket1/cf/XABCD12345678.2012-02-23-02.LpLfuShd.gz
S3 DistCp copia, concatena e comprime i file nei due file seguenti, in cui il nome del file è determinato dalla corrispondenza effettuata dall'espressione regolare.
hdfs:///local/2012-02-23-01.lzo hdfs:///local/2012-02-23-02.lzo