Considerazioni e best practice - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Considerazioni e best practice

Quando crei un cluster Amazon EMR con più nodi primari, considera quanto segue:

Importante

Per avviare cluster EMR a disponibilità elevata con più nodi primari, si consiglia di utilizzare il rilascio più recente di Amazon EMR. Ciò garantisce il massimo livello di resilienza e stabilità per i cluster a disponibilità elevata.

  • L'elevata disponibilità, ad esempio, delle flotte è supportata dalle versioni di Amazon EMR 5.36.1, 5.36.2, 6.8.1, 6.9.1, 6.10.1, 6.11.1, 6.12.0 e successive. Per i gruppi di istanze, la disponibilità elevata è supportata con Amazon EMR 5.23.0 e rilasci successivi. Per ulteriori informazioni, consulta Informazioni sui rilasci di Amazon EMR.

  • Nei cluster a disponibilità elevata, Amazon EMR supporta solo l'avvio di nodi primari con istanze On Demand. Ciò garantisce la massima disponibilità per il cluster.

  • È ancora possibile specificare più tipi di istanze per il parco istanze primario, ma tutti i nodi primari dei cluster a disponibilità elevata vengono avviati con lo stesso tipo di istanza, comprese le sostituzioni per i nodi primari non integri.

  • Per continuare le operazioni, un cluster a disponibilità elevata con più nodi primari richiede che due nodi primari su tre siano integri. Di conseguenza, se due nodi primari riportano errori contemporaneamente, il cluster EMR avrà esito negativo.

  • Tutti i cluster EMR, compresi i cluster a disponibilità elevata, vengono avviati in un'unica zona di disponibilità. Pertanto, non possono tollerare gli errori della zona di disponibilità. Nel caso di un'interruzione nella zona di disponibilità, perdi l'accesso al cluster.

  • Amazon EMR non garantisce la disponibilità elevata per le applicazioni open-source diverse da quelle specificate in Applicazioni supportate in un cluster Amazon EMR con più nodi primari.

  • Nelle versioni di Amazon EMR da 5.23.0 a 5.36.2, vengono eseguiti solo due dei tre nodi primari per un cluster di gruppi di istanze. HDFS NameNode

  • Nelle versioni 6.x e successive di Amazon EMR, vengono eseguiti tutti e tre i nodi primari di un gruppo di istanze. HDFS NameNode

Considerazioni per la configurazione della sottorete:

  • Un cluster Amazon EMR con più nodi primari può trovarsi in una sola zona di disponibilità o sottorete. Amazon EMR non è in grado di sostituire un nodo primario con errori se la sottorete è completamente utilizzata o sovrascritta in caso di failover. Per evitare questo scenario, è opportuno dedicare un'intera sottorete a un cluster Amazon EMR. Inoltre, assicurati che nella sottorete siano disponibili sufficienti indirizzi IP privati.

Considerazioni per la configurazione dei nodi core:

  • Per garantire che anche i nodi principali siano altamente disponibili, ti consigliamo di avviare almeno quattro nodi principali. Se decidi di avviare un cluster più piccolo con tre nodi principali (o un numero minore), imposta dfs.replication parameter almeno su 2 in modo che HDFS abbia una replica DFS sufficiente. Per ulteriori informazioni, consulta la sezione dedicata alla Configurazione di HDFS.

avvertimento
  1. L'impostazione di dfs.replication su 1 per i cluster con meno di quattro nodi può causare la perdita di dati HDFS in caso di disattivazione anche di un singolo nodo. Ti consigliamo di utilizzare un cluster con almeno quattro nodi principali per i carichi di lavoro di produzione.

  2. Amazon EMR non consente ai cluster di dimensionare i nodi principali al di sotto di dfs.replication. Ad esempio, se dfs.replication = 2, il numero minimo di nodi principali è 2.

  3. Quando utilizzi il dimensionamento gestito, il dimensionamento automatico o scegli di dimensionare manualmente il cluster, ti consigliamo di impostare dfs.replication su 2 o su un valore superiore.

Considerazioni per l'impostazione di allarmi sui parametri:

  • Amazon EMR non fornisce parametri specifici dell'applicazione su HDFS o YARN. Ti consigliamo di configurare gli allarmi per monitorare il conteggio delle istanze dei nodi primari. Configura gli allarmi utilizzando i seguenti CloudWatch parametri di Amazon:MultiMasterInstanceGroupNodesRunning,MultiMasterInstanceGroupNodesRunningPercentage, o. MultiMasterInstanceGroupNodesRequested CloudWatch ti avviserà in caso di guasto e sostituzione del nodo primario.

    • Se il MultiMasterInstanceGroupNodesRunningPercentage è inferiore a 1.0 e superiore a 0.5, il cluster può avere perso un nodo primario. In questo caso, Amazon EMR tenta di sostituire un nodo primario.

    • Se il MultiMasterInstanceGroupNodesRunningPercentage è inferiore a 0.5, due nodi primari potrebbero avere riscontrato errori. In questo caso, il quorum viene perso e il cluster non può essere recuperato. È necessario eseguire manualmente la migrazione dei dati al di fuori del cluster.

    Per ulteriori informazioni, consulta Impostazione di allarmi per i parametri.