Scelta dell'hardware per il tuo cluster Amazon EMR - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Scelta dell'hardware per il tuo cluster Amazon EMR

Sayde Aguilar, Amiin Samatar e Diego Valencia, Amazon Web Services (AWS)

agosto 2023(cronologia dei documenti)

Amazon EMR è uno strumento per l'elaborazione di big data. Utilizza software open source, in particolare strumenti Apache come Apache Spark e Apache Hudi. Inoltre, offre diverse opzioni per la configurazione e l'utilizzo di un sistema a basso costo,pay-as-you-gomodello.

Questa guida spiega come progettare un cluster Amazon EMR in base a tale elasticità e fornisce le migliori pratiche da seguire nella scelta dell'hardware.

Panoramica

Amazon EMR è stato creato utilizzando Apache HadoopMapReduce, un framework per l'elaborazione di grandi quantità di dati. HadoopMapReduceelabora i dati in cluster distribuiti contemporaneamente utilizzando la logica parallela, il che significa che ogni processo ha il proprio processore. Amazon EMR utilizza un cluster Hadoop di server virtuali strutturati su Amazon Elastic Compute Cloud (Amazon EC2). Ciò significa che tutti i processi paralleli vengono eseguiti su computer autonomi che eseguono Amazon Web Services (AWS).

Un cluster Hadoop è un tipo specifico di cluster computazionale utilizzato per elaborare grandi quantità di dati non strutturati utilizzando ambienti paralleli o distribuiti. Una caratteristica chiave di un cluster Hadoop è che è altamente scalabile e può essere configurato per aumentare la velocità di elaborazione dei dati. La scalabilità viene raggiunta aggiungendo o rimuovendo nodi per aumentare o diminuire il throughput. Nei cluster Hadoop, ogni dato viene copiato tra i nodi del cluster, quindi la perdita di dati è quasi nulla in caso di guasto di un nodo.

Su Amazon EMR,elasticitàsi riferisce alla capacità di ridimensionamento dinamico. Puoi ridimensionare automaticamente il cluster e apportare le modifiche necessarie. Non è necessario fare affidamento sulla progettazione hardware iniziale.

Questa guida spiega come progettare un cluster Amazon EMR in base a tale elasticità e fornisce le migliori pratiche da seguire nella scelta dell'hardware.