Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Diferenças de DistCp utilidade do S3 com versões anteriores da AMI do Amazon EMR - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Diferenças de DistCp utilidade do S3 com versões anteriores da AMI do Amazon EMR

DistCp Versões do S3 suportadas no Amazon EMR

As seguintes versões do S3 são compatíveis com DistCp as versões da AMI do Amazon EMR. DistCpAs versões S3 posteriores à 1.0.7 são encontradas diretamente nos clusters. Use o JAR em /home/hadoop/lib para obter os recursos mais recentes.

Versão Descrição Data de lançamento
1.0.8 Adiciona as opções --appendToLastFile, --requirePreviousManifeste --storageClass. 3 de janeiro de 2014
1.0.7 Adiciona a opção --s3ServerSideEncryption. 2 de maio de 2013
1.0.6 Adiciona a opção --s3Endpoint. 6 de agosto de 2012
1.0.5 Melhora a capacidade de especificar qual versão do S3 DistCp deve ser executada. 27 de junho de 2012
1.0.4 Melhora a opção --deleteOnSuccess. 19 de junho de 2012
1.0.3 Adiciona suporte às opções --numberFiles e --startingIndex. 12 de junho de 2012
1.0.2 Melhora a nomeação de arquivos ao usar grupos. 6 de junho de 2012
1.0.1 Lançamento inicial do S3DistCp. 19 de janeiro de 2012

Adicionar uma etapa de DistCp cópia do S3 a um cluster

Para adicionar uma etapa de DistCp cópia do S3 a um cluster em execução, digite o seguinte comando, j-3GYXXXXXX9IOK substitua pelo ID do cluster e amzn-s3-demo-bucket substitua pelo nome do bucket do Amazon S3.

nota

Os caracteres de continuação de linha do Linux (\) são incluídos para facilitar a leitura. Eles podem ser removidos ou usados ​​em comandos do Linux. No Windows, remova-os ou substitua-os por um sinal de interpolação (^).

aws emr add-steps --cluster-id j-3GYXXXXXX9IOK \ --steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\ Args=["--s3Endpoint,s3-eu-west-1.amazonaws.com",\ "--src,s3://amzn-s3-demo-bucket/logs/j-3GYXXXXXX9IOJ/node/",\ "--dest,hdfs:///output",\ "--srcPattern,.*[a-zA-Z,]+"]
exemplo Carregar CloudFront registros da Amazon no HDFS

Este exemplo carrega CloudFront os logs da Amazon no HDFS adicionando uma etapa a um cluster em execução. No processo, ele muda o formato de compactação de Gzip (o padrão do CloudFront) para LZO. Isso é útil, pois dados compactados usando LZO podem ser divididos em vários mapas conforme são descompactados, portanto, você não precisa aguardar até que a compactação seja concluída, como ocorre com o Gzip. Isso proporciona uma melhor performance quando você analisa os dados usando o Amazon EMR. Esse exemplo também melhora a performance ao usar a expressão regular especificada na opção --groupBy para combinar todos os logs de uma determinada hora em um único arquivo. Os clusters do Amazon EMR são mais eficientes quando processam alguns arquivos grandes com compactação LZO do que quando processam vários arquivos pequenos com compactação Gzip. Para dividir arquivos LZO, você deve indexá-los e usar a biblioteca de terceiros hadoop-lzo.

Para carregar CloudFront os logs da Amazon no HDFS, digite o seguinte comando, j-3GYXXXXXX9IOK substitua pelo ID do cluster e amzn-s3-demo-bucket substitua pelo nome do bucket do Amazon S3.

nota

Os caracteres de continuação de linha do Linux (\) são incluídos para facilitar a leitura. Eles podem ser removidos ou usados ​​em comandos do Linux. No Windows, remova-os ou substitua-os por um sinal de interpolação (^).

aws emr add-steps --cluster-id j-3GYXXXXXX9IOK \ --steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\ Args=["--src,s3://amzn-s3-demo-bucket/cf","--dest,hdfs:///local",\ "--groupBy,.*XABCD12345678.([0-9]+-[0-9]+-[0-9]+-[0-9]+).*",\ "--targetSize,128", "--outputCodec,lzo","--deleteOnSuccess"]

Considere o caso no qual o exemplo anterior é executado com os seguintes arquivos de log do CloudFront .

s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-01.HLUS3JKx.gz s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-01.I9CNAZrg.gz s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-02.YRRwERSA.gz s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-02.dshVLXFE.gz s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-02.LpLfuShd.gz

O S3 DistCp copia, concatena e compacta os arquivos nos dois arquivos a seguir, onde o nome do arquivo é determinado pela correspondência feita pela expressão regular.

hdfs:///local/2012-02-23-01.lzo hdfs:///local/2012-02-23-02.lzo
PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.