Diferenças de DistCp utilidade do S3 com versões anteriores da AMI do Amazon EMR - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Diferenças de DistCp utilidade do S3 com versões anteriores da AMI do Amazon EMR

DistCp Versões do S3 suportadas no Amazon EMR

As seguintes versões do S3 são suportadas nas DistCp versões da AMI do Amazon EMR. DistCpAs versões S3 posteriores à 1.0.7 são encontradas diretamente nos clusters. Use o JAR em /home/hadoop/lib para obter os recursos mais recentes.

Version (Versão) Descrição Data de lançamento
1.0.8 Adiciona as opções --appendToLastFile, --requirePreviousManifeste --storageClass. 3 de janeiro de 2014
1.0.7 Adiciona a opção --s3ServerSideEncryption. 2 de maio de 2013
1.0.6 Adiciona a opção --s3Endpoint. 6 de agosto de 2012
1.0.5 Melhora a capacidade de especificar qual versão do S3 DistCp deve ser executada. 27 de junho de 2012
1.0.4 Melhora a opção --deleteOnSuccess. 19 de junho de 2012
1.0.3 Adiciona suporte às opções --numberFiles e --startingIndex. 12 de junho de 2012
1.0.2 Melhora a nomeação de arquivos ao usar grupos. 6 de junho de 2012
1.0.1 Lançamento inicial do S3DistCp. 19 de janeiro de 2012

Adicionar uma etapa de DistCp cópia do S3 a um cluster

Para adicionar uma etapa de DistCp cópia do S3 a um cluster em execução, digite o seguinte comando, substitua j-3GYxxxxxx9IOK pelo ID do cluster e substitua mybucket pelo nome do bucket do Amazon S3.

nota

Os caracteres de continuação de linha do Linux (\) são incluídos para facilitar a leitura. Eles podem ser removidos ou usados ​​em comandos do Linux. No Windows, remova-os ou substitua-os por um sinal de interpolação (^).

aws emr add-steps --cluster-id j-3GYXXXXXX9IOK \ --steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\ Args=["--s3Endpoint,s3-eu-west-1.amazonaws.com",\ "--src,s3://mybucket/logs/j-3GYXXXXXX9IOJ/node/",\ "--dest,hdfs:///output",\ "--srcPattern,.*[a-zA-Z,]+"]
exemplo Carregar CloudFront registros da Amazon no HDFS

Este exemplo carrega CloudFront os logs da Amazon no HDFS adicionando uma etapa a um cluster em execução. No processo, ele altera o formato de compressão de Gzip (o CloudFront padrão) para LZO. Isso é útil, pois dados compactados usando LZO podem ser divididos em vários mapas conforme são descompactados, portanto, você não precisa aguardar até que a compactação seja concluída, como ocorre com o Gzip. Isso proporciona uma melhor performance quando você analisa os dados usando o Amazon EMR. Esse exemplo também melhora a performance ao usar a expressão regular especificada na opção --groupBy para combinar todos os logs de uma determinada hora em um único arquivo. Os clusters do Amazon EMR são mais eficientes quando processam alguns arquivos grandes com compactação LZO do que quando processam vários arquivos pequenos com compactação Gzip. Para dividir arquivos LZO, você deve indexá-los e usar a biblioteca de terceiros hadoop-lzo.

Para carregar CloudFront os logs da Amazon no HDFS, digite o seguinte comando, substitua j-3GYxxxxxx9iOK pelo ID do cluster e substitua mybucket pelo nome do bucket do Amazon S3.

nota

Os caracteres de continuação de linha do Linux (\) são incluídos para facilitar a leitura. Eles podem ser removidos ou usados ​​em comandos do Linux. No Windows, remova-os ou substitua-os por um sinal de interpolação (^).

aws emr add-steps --cluster-id j-3GYXXXXXX9IOK \ --steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\ Args=["--src,s3://mybucket/cf","--dest,hdfs:///local",\ "--groupBy,.*XABCD12345678.([0-9]+-[0-9]+-[0-9]+-[0-9]+).*",\ "--targetSize,128", "--outputCodec,lzo","--deleteOnSuccess"]

Considere o caso em que o exemplo anterior é executado nos seguintes arquivos de CloudFront log.

s3://DOC-EXAMPLE-BUCKET1/cf/XABCD12345678.2012-02-23-01.HLUS3JKx.gz s3://DOC-EXAMPLE-BUCKET1/cf/XABCD12345678.2012-02-23-01.I9CNAZrg.gz s3://DOC-EXAMPLE-BUCKET1/cf/XABCD12345678.2012-02-23-02.YRRwERSA.gz s3://DOC-EXAMPLE-BUCKET1/cf/XABCD12345678.2012-02-23-02.dshVLXFE.gz s3://DOC-EXAMPLE-BUCKET1/cf/XABCD12345678.2012-02-23-02.LpLfuShd.gz

O S3 DistCp copia, concatena e compacta os arquivos nos dois arquivos a seguir, onde o nome do arquivo é determinado pela correspondência feita pela expressão regular.

hdfs:///local/2012-02-23-01.lzo hdfs:///local/2012-02-23-02.lzo