Elaborazione dei dati di DynamoDB con Apache Hive su Amazon EMR

Amazon DynamoDB è integrato con Apache Hive, un'applicazione di data warehouse che viene eseguita su Amazon EMR. Hive è in grado di leggere e scrivere dati nelle tabelle DynamoDB, consentendo di:

Eseguire la query dei dati DynamoDB in tempo reale utilizzando un linguaggio simile a SQL (HiveQL).
Copiare i dati da una tabella DynamoDB ad un bucket Amazon S3 e viceversa.
Copiare i dati da una tabella DynamoDB in un file di sistema distribuito Hadoop (HDFS) e viceversa.
Eseguire operazioni join sulle tabelle DynamoDB.

Argomenti

Panoramica

Amazon EMR è un servizio che semplifica l'elaborazione di grandi quantità di dati in modo rapido ed economico. Per utilizzare Amazon EMR, è necessario avviare un cluster gestito di EC2 istanze Amazon che esegue il framework open source Hadoop. Hadoop è un'applicazione distribuita che implementa l' MapReduce algoritmo, in cui un'attività viene mappata su più nodi del cluster. Ogni nodo elabora il suo lavoro designato, in parallelo con gli altri nodi. Infine, le uscite sono ridotte a un singolo nodo, restituendo il risultato finale.

Puoi scegliere di avviare il cluster Amazon EMR in modo che sia persistente o transitorio:

Un cluster persistente viene eseguito fino a quando non lo si spegne. I cluster persistenti sono ideali per l'analisi dei dati, il data warehouse o qualsiasi altro uso interattivo.
Un cluster transitorio viene eseguito abbastanza a lungo per elaborare un flusso di lavoro e quindi si arresta automaticamente. I cluster transitori sono ideali per attività di elaborazione periodica, ad esempio l'esecuzione di script.

Per informazioni sull'architettura e l'amministrazione di Amazon EMR, consulta la Guida alla gestione di Amazon EMR.

Quando avvii un cluster Amazon EMR, specifichi il numero e il tipo iniziali di istanze Amazon EC2. Vengono specificate anche altre applicazioni distribuite (oltre a Hadoop stesso) che si desidera eseguire nel cluster. Queste applicazioni includono Hue, Mahout, Pig, Spark e altro ancora.

Per informazioni sulle applicazioni per Amazon EMR, consulta la Guida al rilascio di Amazon EMR.

A seconda della configurazione del cluster, potresti avere uno o più dei seguenti tipi di nodi:

Nodo leader: gestisce il cluster, coordinando la distribuzione dell' MapReduce eseguibile e dei sottoinsiemi di dati grezzi ai gruppi di istanze principali e task. Inoltre, tiene traccia dello stato di ogni attività eseguita e monitora l'integrità dei gruppi di istanze. In un cluster esiste un solo nodo principale.
Nodi principali: esegue MapReduce attività e archivia dati utilizzando Hadoop Distributed File System (HDFS).
Nodi di attività (opzionali): esegue attività. MapReduce

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Caricamento di dati da DynamoDB in Amazon Redshift con COPY

Tutorial: Utilizzo di Amazon DynamoDB e Apache Hive