Configurar um local de saída - Amazon EMR

Configurar um local de saída

O formato de saída mais comum de um cluster do Amazon EMR é um arquivo de texto, compactado ou não. Normalmente, esse arquivo é gravado em um bucket do Amazon S3. Esse bucket deve ser criado antes de você iniciar o cluster. Você especifica o bucket do S3 como o local de saída quando inicia o cluster.

Para obter mais informações, consulte os tópicos a seguir:

Criar e configurar um bucket do Amazon S3

O Amazon EMR (Amazon EMR) usa o Amazon S3 para armazenar dados de entrada, arquivos de log e dados de saída. O Amazon S3 se refere a esses locais de armazenamento como bucket. Os buckets têm algumas restrições e limitações para estar em conformidade com os requisitos do Amazon S3 e do DNS. Para obter mais informações, acesse Restrições e limitações de bucket no Guia do desenvolvedor do Amazon Simple Storage Service.

Para criar um bucket do Amazon S3, siga as instruções da página Criação de um bucket no Guia do desenvolverdor do Amazon Simple Storage Service.

nota

Se você habilitar o registro em log no assistente Create a Bucket (Criar um bucket), ele só permitirá logs de acesso do bucket, e não logs de cluster.

nota

Para obter mais informações sobre como especificar buckets específicos, consulte Buckets and Regions no Guia do desenvolvedor do Amazon Simple Storage Service e Available Region Endpoints for the AWS SDKs.

Depois de criar o bucket, você poderá definir as permissões apropriadas. Normalmente, você atribui a si (o proprietário) acesso de leitura e gravação. É altamente recomendável seguir as Práticas recomendadas de segurança para o Amazon S3 ao configurar o bucket.

Os buckets do Amazon S3 obrigatórios devem existir para que você possa criar um cluster. Você deve carregar todos os scripts necessários ou dados referenciados no cluster no Amazon S3. A tabela a seguir descreve dados de exemplo, scripts e locais de arquivo de log.

Informações Exemplo de local no Amazon S3
script ou programa s3://DOC-EXAMPLE-BUCKET1/script/MapperScript.py
arquivos de log s3://DOC-EXAMPLE-BUCKET1/logs
dados de entrada s3://DOC-EXAMPLE-BUCKET1/input
dados de saída s3://DOC-EXAMPLE-BUCKET1/output