Elaborazione dei dati di DynamoDB con Apache Hive su Amazon EMR - Amazon DynamoDB

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Elaborazione dei dati di DynamoDB con Apache Hive su Amazon EMR

Amazon DynamoDB è integrato con Apache Hive, un'applicazione di data warehouse che viene eseguita su Amazon EMR. Hive è in grado di leggere e scrivere dati nelle tabelle DynamoDB, consentendo di:

  • Eseguire la query dei dati DynamoDB in tempo reale utilizzando un linguaggio simile a SQL (HiveQL).

  • Copiare i dati da una tabella DynamoDB ad un bucket Amazon S3 e viceversa.

  • Copiare i dati da una tabella DynamoDB in un file di sistema distribuito Hadoop (HDFS) e viceversa.

  • Eseguire operazioni join sulle tabelle DynamoDB.

Panoramica

Amazon EMR è un servizio che semplifica l'elaborazione di grandi quantità di dati in modo rapido ed economico. Per utilizzare Amazon EMR, si avvia un cluster gestito di istanze Amazon EC2 che eseguono il framework open source Hadoop. Hadoop è un'applicazione distribuita che implementa l' MapReduce algoritmo, in cui un'attività viene mappata su più nodi del cluster. Ogni nodo elabora il suo lavoro designato, in parallelo con gli altri nodi. Infine, le uscite sono ridotte a un singolo nodo, restituendo il risultato finale.

Puoi scegliere di avviare il cluster Amazon EMR in modo che sia persistente o transitorio:

  • Un cluster persistente viene eseguito fino a quando non lo si spegne. I cluster persistenti sono ideali per l'analisi dei dati, il data warehouse o qualsiasi altro uso interattivo.

  • Un cluster transitorio viene eseguito abbastanza a lungo per elaborare un flusso di lavoro e quindi si arresta automaticamente. I cluster transitori sono ideali per attività di elaborazione periodica, ad esempio l'esecuzione di script.

Per informazioni sull'architettura e l'amministrazione di Amazon EMR, consulta la Guida alla gestione di Amazon EMR.

Quando avvii un cluster Amazon EMR, specifichi il numero iniziale e il tipo di istanze di Amazon EC2. Vengono specificate anche altre applicazioni distribuite (oltre a Hadoop stesso) che si desidera eseguire nel cluster. Queste applicazioni includono Hue, Mahout, Pig, Spark e altro ancora.

Per informazioni sulle applicazioni per Amazon EMR, consulta la Guida al rilascio di Amazon EMR.

A seconda della configurazione del cluster, potresti avere uno o più dei seguenti tipi di nodi:

  • Nodo leader: gestisce il cluster, coordinando la distribuzione dell' MapReduce eseguibile e dei sottoinsiemi di dati grezzi ai gruppi di istanze principali e di attività. Inoltre, tiene traccia dello stato di ogni attività eseguita e monitora l'integrità dei gruppi di istanze. In un cluster esiste un solo nodo principale.

  • Nodi principali: esegue MapReduce attività e archivia dati utilizzando l'Hadoop Distributed File System (HDFS).

  • Nodi di attività (opzionali): esegue attività. MapReduce