Preparar dados de entrada - Amazon EMR

Preparar dados de entrada

A maioria dos clusters carrega dados de entrada e depois processa esses dados. Para carregar dados, eles precisam estar em um local que o cluster possa acessar e ter um formato que o cluster possa processar. O cenário mais comum é carregar dados de entrada no Amazon S3. O Amazon EMR fornece ferramentas para o seu cluster importar ou ler dados do Amazon S3.

O formato de entrada padrão no Hadoop é um arquivo de texto, embora você possa personalizar o Hadoop e usar ferramentas para importar dados armazenados em outros formatos.