Gestione della perdita di istanze Spot in Presto
Con le istanze Spot in Amazon EMR, puoi eseguire carichi di lavoro di Big Data su capacità Amazon EC2 di riserva a un costo ridotto. In cambio di costi inferiori, Amazon EC2 può interrompere le istanze Spot con una notifica di due minuti. Quando termini un nodo, Presto può impiegare fino a 10 minuti prima di restituire un errore. Ciò causa inutili ritardi nelle segnalazioni di errori e possibili nuovi tentativi. La terminazione rapida è una funzionalità che consente di controllare il modo in cui Presto gestisce i nodi terminati.
Il processo del coordinatore Presto è quello di tenere traccia di tutti i nodi worker con sondaggi regolari del loro status. Senza una terminazione rapida, il coordinatore non consulta lo YARN NodeManager per lo stato di ogni nodo. Ciò può comportare un lungo ciclo di nuovi tentativi prima che la query abbia esito negativo. Con una terminazione rapida, il coordinatore Presto consulta lo stato del nodo nel NodeManager non appena il sondaggio non riesce a raggiungere l'host. Se NodeManager mostra che il nodo è inattivo, Presto abbandona ulteriori tentativi, fallisce la query e restituisce un errore NODE_DECOMMISSIONED
.
Il seguente set di parametri di configurazione consente di controllare e personalizzare il comportamento di Presto in caso di terminazione del nodo.
Configurazioni Presto per la gestione degli errori dei nodi | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Impostazione | Descrizione | Default | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
query.remote-task.max-backoff-duration |
Il periodo di tempo in cui il coordinatore continua a provare a recuperare lo stato dell'attività remota dai nodi worker. | 10 minuti | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
query.remote-task.quick-terminate-node-failure |
Attiva un errore rapido del nodo se il coordinatore non riesce a raggiungere il nodo o non riesce a connettersi al worker in esecuzione su quel nodo. Il valore di Il nodo fallisce la query e Amazon EMR lo rimuove dall'elenco dei worker disponibili. In tal caso, non potrai utilizzare il nodo per pianificare nuove query. Quando imposti questo valore su |
true |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
query.remote-task.terminate-on-connect-exception |
Specifica se Amazon EMR deve creare un nodo se l'host è raggiungibile ma il coordinatore non riesce a connettersi al processo worker dell'host. Quando imposti questo valore su true , se l'host non è raggiungibile attivi un errore di interrogazione rapida. |
false |