Processar dados do DynamoDB com o Apache Hive no Amazon EMR - Amazon DynamoDB

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Processar dados do DynamoDB com o Apache Hive no Amazon EMR

O Amazon DynamoDB é integrado com o Apache Hive, uma aplicação de data warehousing que pode ser executada no Amazon EMR. O Hive pode ler e gravar dados nas tabelas do DynamoDB, permitindo que você:

  • Consulte dados dinâmicos do DynamoDB usando uma linguagem semelhante a SQL (HiveQL).

  • Copie dados de uma tabela do DynamoDB para um bucket do Amazon S3 e vice-versa.

  • Copie dados de uma tabela do DynamoDB para o Hadoop Distributed File System (HDFS) e vice-versa.

  • Execute operações de junção em tabelas do DynamoDB.

Visão geral

O Amazon EMR é um serviço que facilita o processamento de grandes quantidades de dados de maneira rápida e econômica. Para usar o Amazon EMR, você deve iniciar um cluster gerenciado de instâncias do Amazon EC2 executando o framework de código aberto do Hadoop. O Hadoop é uma aplicação distribuída que implementa o algoritmo MapReduce, onde uma tarefa é mapeada para vários nós no cluster. Cada nó processa seu trabalho designado em paralelo com outros nós. Finalmente, as saídas são reduzidas em um único nó, gerando o resultado final.

Você pode optar por iniciar seu cluster do Amazon EMR de modo que ele seja persistente ou transitório:

  • Um cluster persistente é executado até ser desativado por você. Os clusters persistentes são ideais para análise de dados, armazenamento de dados ou qualquer outro uso interativo.

  • Um cluster transitório é executado por tempo suficiente para processar um fluxo de trabalho e, em seguida, é desativado automaticamente. Os clusters transitórios são ideais para tarefas de processamento periódicas, como a execução de scripts.

Para obter informações sobre arquitetura e administração do Amazon EMR, consulte o Guia de gerenciamento do Amazon EMR.

Ao iniciar um cluster do Amazon EMR, você deve especificar o número inicial e o tipo de instâncias do Amazon EC2. Você também pode especificar outras aplicações distribuídas (além do Hadoop em si) que deseja executar no cluster. Esses aplicativos incluem Matiz, Mahout, Pig, Spark e muito mais.

Para obter informações sobre aplicações para Amazon EMR, consulte o Guia de versão do Amazon EMR.

Dependendo da configuração do cluster, é possível ter um ou mais dos seguintes tipos de nó:

  • Nó líder: gerencia o cluster, coordenando a distribuição do MapReduce executável e os subconjuntos de dados brutos, o núcleo e os grupos de instâncias de tarefa. Ele também acompanha o status de cada tarefa executada e monitora a integridade dos grupos de instâncias. Há apenas um nó principal em um cluster.

  • Nós core - executam tarefas do MapReduce e armazenam dados usando o Hadoop Distributed File System (HDFS).

  • Nós de tarefas (opcional) – executam tarefas do MapReduce.