Automatizar clusters recorrentes usando o AWS Data Pipeline

AWS Data Pipeline é um serviço que automatiza a movimentação e a transformação dos dados. Você pode usá-lo para programar a movimentação de dados de entrada para o Amazon S3 e para programar a inicialização de clusters para processar dados. Por exemplo, considere o caso em que você tenha um servidor web gravando logs de tráfego. Se você quiser executar um cluster semanal para analisar os dados de tráfego, você pode usá-lo AWS Data Pipeline para programar esses clusters. AWS Data Pipeline é um fluxo de trabalho orientado por dados, de modo que uma tarefa (iniciar o cluster) pode depender de outra tarefa (mover os dados de entrada para o Amazon S3). Ele também tem uma funcionalidade de novas tentativas robusta.

Para obter mais informações sobre AWS Data Pipeline, consulte o Guia do AWS Data Pipeline desenvolvedor, especialmente os tutoriais sobre o Amazon EMR:

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Clonar um cluster

Solução de problemas de clusters