Tutorial: Como trabalhar com o Amazon DynamoDB e o Apache Hive

Neste tutorial, você iniciará um cluster do Amazon EMR e, em seguida, usará o Apache Hive para processar os dados armazenados em uma tabela do DynamoDB.

O Hive é uma aplicação de data warehouse para o Hadoop que permite processar e analisar dados de várias fontes diferentes. O Hive oferece uma linguagem semelhante a SQL, HiveQL, que permite trabalhar com dados armazenados localmente no cluster do Amazon EMR ou em uma fonte de dados externa (como o Amazon DynamoDB).

Para obter mais informações, consulte o Tutorial do Hive.

Tópicos

Antes de começar

Para este tutorial, você precisará do seguinte:

Uma conta da AWS. Se você não tiver uma, consulte Como se cadastrar na AWS.
Um cliente SSH (Secure Shell). É possível usar o cliente SSH para se conectar ao nó líder do cluster do Amazon EMR e executar comandos interativos. Os clientes SSH estão disponíveis por padrão na maioria das instalações de Linux, Unix e Mac OS X. Os usuários do Windows podem fazer download e instalar o cliente PuTTY, que oferece suporte para SSH.

Próxima etapa

Etapa 1: criar um par de chaves do Amazon EC2

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Integração com o Amazon EMR

Etapa 1: criar um par de chaves do Amazon EC2