Informazioni sui tipi di nodi: nodi primari, core e attività - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Informazioni sui tipi di nodi: nodi primari, core e attività

Utilizza questa sezione per scoprire il modo in cui Amazon EMR utilizza ognuno di questi tipi di nodo e come base per la pianificazione della capacità del cluster.

Nodo primario

Il nodo primario gestisce il cluster ed esegue in genere i componenti primari delle applicazioni distribuite. Ad esempio, il nodo primario esegue il servizio YARN ResourceManager per gestire le risorse per le applicazioni. Esegue inoltre il NameNode servizio HDFS, tiene traccia dello stato dei lavori inviati al cluster e monitora lo stato dei gruppi di istanze.

Per monitorare lo stato di avanzamento di un cluster e interagire direttamente con le applicazioni, puoi connetterti al nodo primario su SSH come utente Hadoop. Per ulteriori informazioni, consulta Connessione al nodo primario tramite SSH. La connessione al nodo primario consente di accedere direttamente a directory e file, ad esempio i file di log Hadoop. Per ulteriori informazioni, consulta Visualizzare file di log di . Puoi anche visualizzare le interfacce utente pubblicate dalle applicazioni come siti Web in esecuzione sul nodo primario. Per ulteriori informazioni, consulta Visualizzazione di interfacce Web ospitate su cluster Amazon EMR.

Nota

Con Amazon EMR 5.23.0 e versioni successive, puoi avviare un cluster con tre nodi primari per supportare l'elevata disponibilità di applicazioni come YARN Resource Manager, HDFS, Spark, Hive e NameNode Ganglia. Con questa caratteristica, il nodo primario non rappresenta più un potenziale singolo punto di errore. Se uno dei nodi primari ha esito negativo, Amazon EMR esegue automaticamente il failover in un nodo primario in standby e sostituisce il nodo primario guasto con uno nuovo con le medesime operazioni di configurazione e di bootstrap. Per ulteriori informazioni, consulta la sezione Plan and Configure Primary Nodes (Pianificazione e configurazione dei nodi primari).

Nodi principali

I nodi core sono gestiti dal nodo primario. I nodi principali eseguono il daemon Data Node per coordinare lo storage dei dati come parte di Hadoop Distributed File System (HDFS). Inoltre, eseguono il daemon Task Tracker e altre attività di calcolo parallelo sui dati richieste dalle applicazioni installate. Ad esempio, un nodo principale esegue daemon YARNNodeManager , task Hadoop ed esecutori Spark. MapReduce

Per ogni cluster, è disponibile un solo gruppo di istanze o parco istanze, ma possono essere presenti più nodi in esecuzione su più istanze Amazon EC2 nel gruppo di istanze o parco istanze. Con i gruppi di istanze, puoi aggiungere o rimuovere istanze Amazon EC2 mentre il cluster è in esecuzione. È inoltre possibile impostare la scalabilità automatica per aggiungere istanze in base al valore di un parametro. Per ulteriori informazioni sull'aggiunta e la rimozione di istanze Amazon EC2 con la configurazione dei gruppi di istanze, consulta Uso del dimensionamento del cluster.

Con i parchi istanze, puoi aggiungere e rimuovere agevolmente istanze modificando le capacità target del parco istanze su on demand e Spot di conseguenza. Per ulteriori informazioni sulle capacità target, consulta Opzioni del parco istanze.

avvertimento

La rimozione dei daemon HDFS da un nodo principale in esecuzione o la terminazione di nodi principali comporta il rischio di perdita dei dati. Fai attenzione quando configuri i nodi principali per l'utilizzo delle istanze Spot. Per ulteriori informazioni, consulta Quando occorre utilizzare le istanze Spot?.

Nodi attività

È possibile utilizzare i nodi task per aggiungere potenza per eseguire attività di calcolo parallele sui dati, come le attività Hadoop e gli esecutori MapReduce Spark. I nodi di task non eseguono il daemon Data Node, né archiviano dati in HDFS. Analogamente ai nodi principali, puoi aggiungere nodi attività a un cluster aggiungendo istanze Amazon EC2 a un gruppo di istanze uniforme esistente o modificando le capacità target per un parco istanze dell'attività.

Con la configurazione del gruppo di istanze uniforme puoi avere un totale di 48 gruppi di istanze attività. La possibilità di aggiungere gruppi di istanze in questo modo consente di combinare tipi di istanze Amazon EC2 e opzioni di prezzo, ad esempio istanze On Demand e istanze Spot. Questo consente di rispondere ai requisiti di carico di lavoro in modo conveniente.

Con la configurazione del parco istanze, la possibilità di combinare tipi di istanze e opzioni di acquisto è integrata, perciò esiste un solo parco istanze attività.

Poiché le istanze Spot vengono spesso utilizzate per eseguire nodi attività, Amazon EMR dispone delle caratteristiche predefinite per la pianificazione dei processi YARN in modo che i processi in esecuzione non abbiano esito negativo quando i nodi attività in esecuzione su istanze Spot vengono terminati. Amazon EMR esegue questa operazione consentendo ai processi master delle applicazioni di funzionare solo sui nodi principali. Il processo master dell'applicazione controlla i processi in esecuzione e deve rimanere attivo per tutta la durata del processo.

Amazon EMR rilascio 5.19.0 e successivi utilizzano la caratteristica integrata etichette nodo YARN per questo scopo. (Le versioni precedenti utilizzavano una patch di codice). Le proprietà nelle classificazioni di configurazione yarn-site e capacity-scheduler sono configurate per impostazione predefinita in modo che capacity-scheduler e fair-scheduler YARN sfruttino le etichette dei nodi. Amazon EMR etichetta in automatico i nodi principali con l'etichetta CORE e imposta le proprietà in modo che i master dell'applicazione siano pianificati solo sui nodi con l'etichetta CORE. La modifica manuale delle proprietà correlate nelle classificazioni di configurazione del sito di YARN e del pianificatore di capacità o direttamente nei file XML associati potrebbe interrompere o alterare questa funzionalità.

A partire dalla serie di rilascio Amazon EMR 6.x, la funzione etichette nodo YARN è disabilitata per impostazione predefinita. Per impostazione predefinita, i processi primari dell'applicazione possono essere eseguiti sia sui nodi core sia su quelli attività. È possibile abilitare la caratteristica etichette nodo YARN configurando le seguenti proprietà:

  • yarn.node-labels.enabled: true

  • yarn.node-labels.am.default-node-label-expression: 'CORE'

Per informazioni su proprietà specifiche, consulta Impostazioni di Amazon EMR per impedire gli errori nei processi a causa dell'interruzione delle istanze Spot nei nodi attività.