Selezione e implementazione di un cluster Amazon EMR - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Selezione e implementazione di un cluster Amazon EMR

Identifica e organizza i tipi di nodi. Quando definisci un cluster Amazon EMR, è importante comprenderne l'hardware. Come funziona? Come è composto? Le risposte a queste domande comprendono tre parti:

  • Il tipo di nodi

  • La funzione svolta da ogni nodo

  • I tipi di istanze EC2 più efficienti per ogni nodo

Inizialmente, il nodo primario è responsabile della gestione delle risorse generali. Esegue i componenti principali dell'applicazione distribuita. Ad esempio, esegue il NameNode servizio Hadoop Distributed File System (HDFS), tiene traccia dei lavori da eseguire sul cluster e monitora lo stato del sistema.

Inoltre, Amazon EMR dispone di nodi principali e nodi di attività. I nodi core sono gestiti dal nodo primario. I nodi principali eseguono nodi di attività e sono responsabili della memorizzazione dei dati nell'HDFS del cluster. I nodi di attività sono responsabili della gestione delle attività che arrivano al cluster. Un nodo di attività non memorizza dati. (I nodi di attività non sono obbligatori).

Quando configuri e distribuisci un cluster Amazon EMR, una considerazione importante è la scelta giusta delle istanze EC2 che rappresenteranno i nodi del cluster. Esistono diversi modi per aggiungere istanze EC2 a un cluster, a seconda che si utilizzi la configurazione dei gruppi di istanze o la configurazione delle flotte di istanze per il cluster. Per ulteriori informazioni sui tipi di istanze supportati, consulta la documentazione.AWS

Le seguenti linee guida si applicano alla maggior parte dei cluster Amazon EMR. Puoi anche consultare le best practice di configurazione del cluster.

Linee guida per la selezione delle

In generale, le istanze preferite per l'implementazione di Amazon EMR dipendono dal processo in esecuzione. Considera le seguenti domande:

  • La tua memoria di lavoro richiede molta memoria?

  • Il tuo lavoro richiede un uso intensivo della CPU?

  • Hai bisogno di grandi quantità di spazio di archiviazione?

  • Il tuo lavoro richiede capacità di GPU?

Queste domande ti aiuteranno a capire il tipo di istanze di cui hai bisogno e le caratteristiche effettive di cui hai bisogno. Determina quanti lavori desideri elaborare contemporaneamente e con quale velocità devi elaborarli. Questo è importante, perché l'utilizzo di Amazon EMR viene addebitato in incrementi orari. Quando attivi un cluster, ti viene addebitato l'intero costo dell'ora.

Puoi controllare il costo di ogni istanza in esecuzione in diverse AWS regioni. Per confrontare i prezzi tra le regioni, puoi utilizzare il Calcolatore AWS dei prezzi e modificare i valori in base alla tua posizione.

Selezione delle istanze EC2

Dopo aver risposto alle domande precedenti, è il momento di selezionare le istanze in base a tali requisiti. Dopo aver compreso le esigenze del processo di elaborazione, stabilite il tipo di istanza in base alle caratteristiche di cui avete bisogno:

  • Se hai bisogno di istanze generiche, scegli istanze M6g, T4g o M5.

  • Se hai bisogno di istanze ottimizzate per il calcolo, scegli le istanze C6g o C5.

  • Se hai bisogno di istanze ottimizzate per la memoria, scegli le istanze R6g, X1, R5 o z1d.

  • Se devi ottimizzare lo storage, scegli le istanze I3, che offrono prestazioni di I/O elevate.

  • Se hai bisogno di elaborazione accelerata come la GPU, scegli le istanze P3, G4 o Inf1. Questi tipi di istanze offrono prestazioni elevate per l'apprendimento automatico e la fluidodinamica, tra gli altri processi.

Un altro modo per comprendere i tipi di istanze e le relative funzionalità consiste nell'analizzare la memoria predefinita per ogni tipo di istanza. Questa metrica ti aiuta a ottimizzare e migliorare le prestazioni dei tuoi MapReduce lavori. Per ulteriori informazioni, consulta Impostazioni di configurazione del demone Hadoop.

Una volta che conosci il tipo di istanze di cui hai bisogno, puoi pianificare la capacità del cluster.