Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Best practice di configurazione di Amazon EMR
Durante la configurazione del cluster Amazon EMR, utilizza le seguenti best practice per aggiungere istanze, lavorare con gruppi di istanze e utilizzare le istanze Spot.
Aggiungere istanze
Durante la configurazione del cluster EMR, una considerazione importante è la scelta giusta delle istanze che rappresenteranno EC2 i nodi del cluster. Ricorda che non puoi modificare il tipo di istanze, ad esempio cambiare le istanze Spot in istanze On-Demand, quando il cluster è in esecuzione. Per modificare il nodo primario, è necessario chiudere il cluster e crearne uno nuovo. Ecco perché è necessario scegliere il tipo di istanza corretto in modo da avere il minor tempo di inattività possibile. Per ulteriori informazioni, consulta Linee guida e best practice per la configurazione dei cluster.
Esistono diversi modi per aggiungere EC2 istanze a un cluster, a seconda che si utilizzi la configurazione dei gruppi di istanze o la configurazione delle flotte di istanze per il cluster:
-
Aggiungere istanze manualmente EC2
-
Aggiungi manualmente un'attività sul gruppo di istanze per aggiungere automaticamente un'istanza
-
Imposta il ridimensionamento automatico
Gruppi di istanze
Quando aggiungi EC2 istanze alla tua configurazione, prendi in considerazione l'utilizzo di gruppi di istanze. Se aggiungi istanze manualmente, puoi aggiungere istanze dello stesso tipo ai gruppi di istanze core e task esistenti. Inoltre, è possibile aggiungere un gruppo di istanze di task, che può utilizzare un tipo di istanza diverso.
Infine, configura la scalabilità automatica in Amazon EMR per un gruppo di istanze. Le istanze possono essere aggiunte e rimosse automaticamente in base al valore di un CloudWatch parametro Amazon specificato. Altrimenti, se utilizzi flotte di istanze, aggiungi una singola flotta di istanze di task. Quindi modifica la capacità target per le istanze On-Demand e le istanze Spot per i parchi di istanze core e task esistenti.
Spot Instances
Usa le istanze Spot sui nodi delle attività. I nodi di attività elaborano i dati ma non contengono dati persistenti in Hadoop Distributed File System (HDFS). Se i task node vengono chiusi perché il prezzo Spot è salito al di sopra del prezzo Spot massimo, non si verifica alcuna perdita di dati e l'effetto sul cluster è minimo.
Quando avvii gruppi di istanze di attività come istanze Spot, Amazon EMR fornisce il maggior numero possibile di nodi di attività, utilizzando il prezzo Spot massimo. Ad esempio, puoi richiedere un gruppo di istanze di attività con sei nodi. Se sono disponibili solo cinque istanze Spot al prezzo Spot massimo o inferiore, Amazon EMR lancia il gruppo di istanze con cinque nodi. Amazon EMR aggiunge il sesto nodo in un secondo momento, se possibile. Per ulteriori informazioni, consulta le linee guida e le best practice per la configurazione dei cluster.